網(wǎng)頁自動(dòng)分類算法的設(shè)計(jì)與實(shí)現(xiàn)
本文選題:網(wǎng)頁自動(dòng)分類 + 網(wǎng)頁內(nèi)容提取; 參考:《南昌大學(xué)》2012年碩士論文
【摘要】:在這個(gè)信息數(shù)字多元化的年代,人們可以通過Internet、企業(yè)內(nèi)部網(wǎng)和電子圖書館等多種渠道獲取豐富的包括數(shù)據(jù)、文字、聲音、圖像等信息。我們想簡(jiǎn)單化、快捷化、有效率的獲取有用的訊息有一定難度。因此,自動(dòng)分類尤其是網(wǎng)頁自動(dòng)分類的重要性日趨顯著。自動(dòng)分類可較大程度減少整理文檔的時(shí)間,較大程度提高采集信息的效率,極大的方便了用戶檢索信息,也對(duì)文檔的有效存檔和管理起到重要作用。 本文通過探索網(wǎng)頁自動(dòng)分類技術(shù)的發(fā)展歷程和目前的研究現(xiàn)狀,了解當(dāng)前搜索引擎系統(tǒng)的優(yōu)缺點(diǎn)。通過分析學(xué)習(xí)系統(tǒng)開發(fā)語言Java和開發(fā)技術(shù)Swing以及TF-IDF算法,試圖提出網(wǎng)頁自動(dòng)分類算法新的設(shè)計(jì),提出實(shí)驗(yàn)方案。經(jīng)過相關(guān)測(cè)試,本方法比較符合中文網(wǎng)頁自動(dòng)分類的在大規(guī)模分類上的需要,在相關(guān)網(wǎng)頁的平均分類準(zhǔn)確率超過80%。這項(xiàng)研究在應(yīng)用領(lǐng)域有較大實(shí)用價(jià)值。
[Abstract]:In this age of digital diversity, people can obtain a wealth of information including data, text, sound, image and so on through Internet, Intranet and electronic library. We want to simplify, quickly, and efficiently access useful information has some difficulty. Therefore, the importance of automatic classification, especially the automatic classification of web pages, is becoming more and more significant. Automatic classification can greatly reduce the time of sorting documents, greatly improve the efficiency of collecting information, greatly facilitate users to retrieve information, but also play an important role in the effective archiving and management of documents. In this paper, the advantages and disadvantages of the current search engine system are discussed by exploring the development history and current research status of the web page automatic classification technology. By analyzing the learning system development language Java, the development technology Swing and the TF-IDF algorithm, this paper attempts to put forward a new design of the web page automatic classification algorithm, and puts forward the experimental scheme. Through the correlation test, the method meets the needs of the Chinese web page automatic classification in large-scale classification, and the average classification accuracy of the related web pages is over 80%. This research has great practical value in application field.
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 王利峰;;動(dòng)態(tài)索引樹文本聚類方法中節(jié)點(diǎn)閥值的優(yōu)化[J];電腦開發(fā)與應(yīng)用;2010年09期
2 常凱;;基于TF*IDF垃圾郵件過濾改進(jìn)算法的研究[J];電腦知識(shí)與技術(shù);2010年25期
3 劉露;;淺析TF-IDF在企業(yè)組織風(fēng)險(xiǎn)中的研究[J];硅谷;2011年15期
4 林大云;;基于Hadoop的微博信息挖掘[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年01期
5 宋志輝;;一種改進(jìn)的特征選擇方法[J];貴州教育學(xué)院學(xué)報(bào);2009年06期
6 張玉芳;彭時(shí)名;呂佳;;基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期
7 馮長(zhǎng)遠(yuǎn),普杰信;Web文本特征選擇算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2005年07期
8 黃師化;張勝;;綜合測(cè)評(píng)自動(dòng)運(yùn)算管理系統(tǒng)設(shè)計(jì)[J];科技咨詢導(dǎo)報(bào);2007年25期
相關(guān)博士學(xué)位論文 前1條
1 王小芳;文本主題域劃分與無監(jiān)督特征提取[D];吉林大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 劉虎;進(jìn)口食品超市POS管理系統(tǒng)[D];華東師范大學(xué);2010年
2 朱丹梅;搜索引擎作弊檢測(cè)方法研究[D];南京郵電大學(xué);2011年
3 王崤;商品關(guān)鍵屬性抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
4 房冠南;面向?qū)υ捳Z料的標(biāo)簽推薦[D];北京郵電大學(xué);2012年
5 冀麗萍;基于質(zhì)心與本體的文本分類方法[D];吉林大學(xué);2007年
6 趙旭東;互聯(lián)網(wǎng)輿情指數(shù)挖掘方法研究[D];哈爾濱工業(yè)大學(xué);2007年
7 高鳳雷;基于GPRS網(wǎng)絡(luò)的智能車載系統(tǒng)應(yīng)用研究[D];吉林大學(xué);2008年
8 黃黎;基于知識(shí)模型推理的Deep Web數(shù)據(jù)源分類研究[D];蘇州大學(xué);2009年
9 黃嬋;領(lǐng)域本體的構(gòu)建及其在Web信息抽取中的應(yīng)用研究[D];江西理工大學(xué);2010年
10 崔愛國;特征選擇方法對(duì)英文作文自動(dòng)評(píng)分性能影響的研究[D];蘇州大學(xué);2009年
,本文編號(hào):1859882
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1859882.html