基于貝葉斯分類(lèi)器的主題爬蟲(chóng)研究
[Abstract]:Topic crawler is the core technology to realize the target search engine. This paper puts forward a method of implementing topic crawler based on Bayesian classifier, and introduces the system structure of subject crawler based on Bayesian classifier and the implementation of key parts of the system, including URL queue, crawling history, page download and page analysis. The topic correlation algorithm based on Bayesian classifier is introduced in detail. The improved TF-IDF algorithm is used to extract the features of web content and the Bayesian classifier is used to calculate the relevance of the topic. The experimental results show that the Bayesian classifier is more suitable for implementing topic crawlers than the PageRank algorithm in the case of searching for a large number of network resources.
【作者單位】: 四川大學(xué)計(jì)算機(jī)學(xué)院網(wǎng)絡(luò)與可信計(jì)算研究所;四川大學(xué)信息安全研究所;
【基金】:國(guó)家“973”計(jì)劃資助項(xiàng)目(2007CB311106)
【分類(lèi)號(hào)】:TP391.41
【共引文獻(xiàn)】
相關(guān)期刊論文 前4條
1 赫楓齡,左萬(wàn)利;利用超鏈接信息改進(jìn)網(wǎng)頁(yè)爬行器的搜索策略[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年01期
2 周新棟,王挺;基于N元語(yǔ)言模型的文本分類(lèi)方法[J];計(jì)算機(jī)應(yīng)用;2005年01期
3 祝宇;夏詔杰;聶峰光;郭力;;支持向量機(jī)在化學(xué)主題爬蟲(chóng)中的應(yīng)用[J];計(jì)算機(jī)與應(yīng)用化學(xué);2006年04期
4 趙敏涯;沈潔;陳志敏;林穎;;一種新的自動(dòng)文本分類(lèi)的算法[J];揚(yáng)州大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期
相關(guān)博士學(xué)位論文 前10條
1 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國(guó)科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年
2 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
3 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年
4 賈自艷;Web信息智能獲取若干關(guān)鍵問(wèn)題研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
5 田永鴻;基于上下文的統(tǒng)計(jì)關(guān)系學(xué)習(xí)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
6 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
7 古平;基于貝葉斯模型的文檔分類(lèi)及相關(guān)技術(shù)研究[D];重慶大學(xué);2006年
8 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年
9 王輝;基于質(zhì)心具有增量性質(zhì)的主題爬行[D];吉林大學(xué);2007年
10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類(lèi)研究[D];華中科技大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 田艷芳;數(shù)字圖書(shū)館中數(shù)據(jù)預(yù)處理子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2001年
2 姚斌;設(shè)計(jì)和實(shí)現(xiàn)一個(gè)主題搜索引擎[D];內(nèi)蒙古大學(xué);2004年
3 馬征;基于本體的Web頁(yè)面分類(lèi)挖掘[D];中南大學(xué);2004年
4 王軍;中文搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2004年
5 丁一;基于Web挖掘的個(gè)性化推薦服務(wù)研究[D];華中科技大學(xué);2004年
6 何華;搜索引擎中的數(shù)據(jù)存儲(chǔ)問(wèn)題研究[D];浙江大學(xué);2005年
7 胡卓穎;專(zhuān)題型網(wǎng)頁(yè)搜集器關(guān)鍵算法的研究及實(shí)現(xiàn)[D];江西師范大學(xué);2005年
8 王斐;基于增量反饋和自適應(yīng)機(jī)制的主題爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京理工大學(xué);2005年
9 歐歌;專(zhuān)題式Web信息獲取技術(shù)研究[D];北京化工大學(xué);2005年
10 劉宇波;面向可下載資源的WEB搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2005年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 陸玉昌,魯明羽,李凡,周立柱;向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J];計(jì)算機(jī)研究與發(fā)展;2002年10期
2 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類(lèi)[J];計(jì)算機(jī)研究與發(fā)展;2005年01期
3 張玉芳;彭時(shí)名;呂佳;;基于文本分類(lèi)TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期
4 周茜,趙明生,扈e,
本文編號(hào):2377693
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2377693.html