中文網(wǎng)頁自動(dòng)分類新算法
本文選題:文本分類 + 搜索引擎 ; 參考:《清華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2000年01期
【摘要】:為了有效地組織因特網(wǎng)上極其豐富的信息資源 ,通過分析中文和中文網(wǎng)頁的特點(diǎn) ,提出了一種新的中文網(wǎng)頁的自動(dòng)分類算法。這種算法主要利用字間的相關(guān)信息、詞頻以及頁面的標(biāo)記信息等 ,提取網(wǎng)頁特征 ,并計(jì)算可調(diào)的詞頻加權(quán)參數(shù) ,然后通過本類和非本類訓(xùn)練 ,建立專家數(shù)據(jù)庫。實(shí)驗(yàn)表明 ,該算法可以獲得 80 %以上的網(wǎng)頁分類準(zhǔn)確率
[Abstract]:In order to effectively organize the abundant information resources on the Internet, a new automatic classification algorithm for Chinese web pages is proposed by analyzing the characteristics of Chinese and Chinese web pages. In this algorithm, the relevant information between words, word frequency and page tagging information are used to extract the features of web pages, and calculate the adjustable weighted parameters of word frequency. Then, the expert database is established through training of this class and non-class. Experiments show that the algorithm can achieve more than 80% of the accuracy of web page classification.
【作者單位】: 清華大學(xué)電子工程系!北京100084 清華大學(xué)電子工程系!北京100084 清華大學(xué)電子工程系!北京100084
【基金】:國家自然科學(xué)基金項(xiàng)目!(6 96 2 5 1 0 3)
【分類號(hào)】:TP393
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 柯麗;王明文;何世柱;黎佳;羅遠(yuǎn)勝;;基于頻率共現(xiàn)熵的跨語言網(wǎng)頁自動(dòng)分類研究[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
2 駱萬文;高飛;周學(xué)廣;;抗中文主動(dòng)干擾關(guān)鍵詞過濾研究綜述[J];吉首大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
3 李俊華;;基于Web文本挖掘的高校教師個(gè)人主頁系統(tǒng)研究與開發(fā)[J];大理學(xué)院學(xué)報(bào);2011年04期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關(guān)會(huì)議論文 前10條
1 劉秉權(quán);李博;孫林;王寶勛;劉遠(yuǎn)超;;標(biāo)簽特征和正文特征融合的SVM博客文本分類算法研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
2 王巖;;基于內(nèi)容的垃圾郵件過濾技術(shù)[A];中國通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(中)[C];2009年
3 潘文鋒;王斌;譚松波;;貝葉斯垃圾郵件過濾研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)’2004論文集[C];2004年
4 潘文鋒;王斌;于滿泉;譚松波;;Winnow算法在垃圾郵件過濾中的應(yīng)用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
5 劉曉勇;;基于GA與SVM融合的網(wǎng)頁分類算法[A];中國運(yùn)籌學(xué)會(huì)模糊信息與模糊工程分會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2010年
6 江濤;于洪志;徐濤;;互聯(lián)網(wǎng)藏文內(nèi)容安全檢測過濾系統(tǒng)研究[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
7 劉子豪;莊毅;;一種電子郵件敏感信息檢測算法[A];第八屆全國信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
8 郎加云;胡學(xué)鋼;;電子郵件內(nèi)容過濾的相關(guān)特征研究[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
9 張海雷;王會(huì)珍;王安慧;朱靖波;;基于樸素貝葉斯模型的垃圾郵件過濾技術(shù)比較分析[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
10 李軍;何曉寧;黃成哲;齊浩亮;雷國華;;基于特征貢獻(xiàn)度的垃圾郵件過濾方法[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前1條
1 應(yīng)曉敏 竇文華;技術(shù)架構(gòu)[N];計(jì)算機(jī)世界;2003年
相關(guān)博士學(xué)位論文 前9條
1 萬源;基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年
2 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
3 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
4 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
5 萬國根;面向內(nèi)容的網(wǎng)絡(luò)安全監(jiān)控模型及其關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2005年
6 譚建龍;串匹配算法及其在網(wǎng)絡(luò)內(nèi)容分析中的應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
7 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
8 陳彬;垃圾郵件的特征選擇及檢測方法研究[D];華南理工大學(xué);2010年
9 孫晶濤;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];蘭州理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 楊昂;文本分類算法研究[D];湖南大學(xué);2002年
2 袁野;基于Vague集的網(wǎng)絡(luò)輿情研究[D];西安電子科技大學(xué);2010年
3 謝振亮;基于WEB挖掘技術(shù)的網(wǎng)頁自動(dòng)分類和聚類的研究[D];天津大學(xué);2004年
4 楊盛;電子郵件過濾系統(tǒng)的研究與設(shè)計(jì)[D];中南大學(xué);2005年
5 楊麗華;基于內(nèi)容的垃圾郵件過濾技術(shù)研究[D];西南交通大學(xué);2006年
6 曾志中;基于貝葉斯算法的垃圾郵件過濾系統(tǒng)的分析與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
7 張匯;基于貝葉斯的網(wǎng)頁文本分類算法[D];華中科技大學(xué);2004年
8 劉建波;基于Agent的用戶興趣模型的研究[D];沈陽工業(yè)大學(xué);2005年
9 朱軍;中文垃圾郵件過濾技術(shù)研究及應(yīng)用[D];合肥工業(yè)大學(xué);2005年
10 朱志寧;基于Web的企業(yè)競爭情報(bào)智能搜集平臺(tái)中頁面分析存儲(chǔ)的研究[D];昆明理工大學(xué);2006年
,本文編號(hào):1963538
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963538.html