基于貝葉斯分類的主題爬蟲
本文關(guān)鍵詞:基于貝葉斯分類的主題爬蟲
更多相關(guān)文章: 主題爬蟲 貝葉斯分類器 網(wǎng)頁相關(guān)性
【摘要】:隨著網(wǎng)絡(luò)的高速發(fā)展,其信息資源越來越龐大,面對巨量的信息庫,搜索引擎起著重要的作用.主題爬蟲技術(shù)作為搜索引擎的主要核心部分,計算搜索結(jié)果與搜索主題的關(guān)系,該關(guān)系被稱為相關(guān)性.一般主題爬蟲方法只計算網(wǎng)頁內(nèi)容與搜索主題的相關(guān)性,作者所提主題爬蟲,通過鏈接內(nèi)容和錨文本內(nèi)容計算鏈接的重要性,然后利用貝葉斯分類器對鏈接進行分類,最后利用余弦相似函數(shù)計算網(wǎng)頁的相關(guān)性,如果相關(guān)值大于閥值,則認為該網(wǎng)頁與預(yù)定主題相關(guān),否則不相關(guān).實驗結(jié)果證明:所提出主題爬蟲方法可以獲得很高的精確度.
【作者單位】: 上海師范大學(xué)信息與機電工程學(xué)院;
【關(guān)鍵詞】: 主題爬蟲 貝葉斯分類器 網(wǎng)頁相關(guān)性
【分類號】:TP391.3
【正文快照】: 0引言網(wǎng)絡(luò)爬蟲[1]是采取一定的策略,自動的抓取網(wǎng)頁信息的計算機程序,其原理是從一個或若干初始網(wǎng)頁的鏈接開始,獲得初始網(wǎng)頁中的鏈接,逐個抓取其他的網(wǎng)頁,網(wǎng)頁通過超鏈接相互連接,組成了一個龐大、無形的網(wǎng)絡(luò),網(wǎng)絡(luò)爬蟲就像一只蜘蛛一樣在這個網(wǎng)絡(luò)中爬來爬去,所以網(wǎng)絡(luò)爬蟲又稱
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機時代;2011年09期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 趙永鑫;雷霖;;Heritrix在電子信息垂直搜索平臺中的應(yīng)用[J];成都大學(xué)學(xué)報(自然科學(xué)版);2013年02期
2 張倩;瞿有利;;用于網(wǎng)絡(luò)評論分析的主題-對立情感挖掘模型[J];計算機科學(xué)與探索;2013年07期
3 趙婷婷;趙素云;裴斌;陳紅;李翠平;;概率數(shù)據(jù)上基于規(guī)則的分類器[J];計算機科學(xué)與探索;2013年07期
4 劉高軍;夏景隆;;基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用[J];軟件導(dǎo)刊;2013年05期
5 張小琴;王曉輝;;主題信息搜索系統(tǒng)中的搜索策略研究[J];軟件導(dǎo)刊;2014年01期
6 陳錦偉;徐勇;;基于Heritrix的網(wǎng)頁內(nèi)容過濾抓取[J];現(xiàn)代計算機(專業(yè)版);2012年21期
7 許愛琴;王夢潔;劉永堅;王衛(wèi)華;;一種新的生成候選關(guān)鍵詞集的方法[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2013年06期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 張琳;;基于混合聚類方法的科學(xué)層級結(jié)構(gòu)分析[A];第九屆中國科技政策與管理學(xué)術(shù)年會論文集[C];2013年
2 劉權(quán);郭武;;基于核主成分分析的話題跟蹤系統(tǒng)[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 王彪;信息檢索中信息需求域的研究[D];內(nèi)蒙古大學(xué);2012年
2 薛馳;基于專利知識的機械產(chǎn)品創(chuàng)新設(shè)計方法研究[D];浙江大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張敏;基于WEB的學(xué)科資源垂直搜索引擎的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2012年
2 陳實;面向web視頻的網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D];電子科技大學(xué);2012年
3 李偉;面向遠程教育主題搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2012年
4 劉建明;垂直搜索引擎中的主題爬蟲技術(shù)研究[D];廣東工業(yè)大學(xué);2013年
5 劉徐;網(wǎng)頁特征詞典生成模型的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
6 董麗陽;公用云平臺查詢服務(wù)中隱私信息保護功能模塊的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2013年
7 杜娜;高校DL信息資源管理研究[D];安徽大學(xué);2013年
8 徐瑜;基于連接詞預(yù)測的隱式語篇關(guān)系分類[D];華東師范大學(xué);2013年
9 馮曉龍;基于用戶行為分析的P2P流媒體推薦系統(tǒng)研究[D];北京交通大學(xué);2013年
10 王芳;面向領(lǐng)域的智能深度搜索引擎的研究[D];北京工商大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前3條
1 秦海峰;許南山;山嵐;;基于P2P架構(gòu)的搜索引擎技術(shù)探究[J];福建電腦;2008年07期
2 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機應(yīng)用與軟件;2009年01期
3 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 楊溥;搜索引擎中爬蟲的若干問題研究[D];北京郵電大學(xué);2009年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 曹玲玲;潘建壽;;基于Fisher判別分析的貝葉斯分類器[J];計算機工程;2011年10期
2 蘇中,張宏江,馬少平;基于貝葉斯分類器的圖像檢索相關(guān)反饋算法[J];軟件學(xué)報;2002年10期
3 文橋;王衛(wèi)平;;基于改進貝葉斯算法的入侵檢測方法[J];計算機工程;2006年12期
4 董立巖;苑森淼;劉光遠;賈書洪;;基于貝葉斯分類器的圖像分類[J];吉林大學(xué)學(xué)報(理學(xué)版);2007年02期
5 李錦善;王志海;王中鋒;;一種基于假設(shè)檢驗的貝葉斯分類器[J];計算機工程與應(yīng)用;2008年21期
6 耿姝;秦玉平;;結(jié)合SVM與Bayesian為不帶類別標記的兼類文本分類[J];科技信息(科學(xué)教研);2008年21期
7 丁厲華;張小剛;;一種基于類支持度的增量貝葉斯學(xué)習(xí)算法[J];計算機工程;2008年22期
8 張瓊;;基于貝葉斯方法的高考成績類別預(yù)測[J];太原師范學(xué)院學(xué)報(自然科學(xué)版);2009年02期
9 董立巖;李真;閻鵬飛;;基于貝葉斯分類器的重大危險源辨識[J];吉林大學(xué)學(xué)報(理學(xué)版);2009年04期
10 汪霞;鄭寧;徐明;陳默;;基于中文變形詞匹配的貝葉斯郵件過濾模型[J];計算機應(yīng)用與軟件;2010年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 岳全中;朱永利;;基于樸素貝葉斯分類器的電流互感器狀態(tài)評估[A];中國高等學(xué)校電力系統(tǒng)及其自動化專業(yè)第二十四屆學(xué)術(shù)年會論文集(上冊)[C];2008年
2 孟中強;盧錦玲;;基于貝葉斯分類器的暫態(tài)穩(wěn)定評估方法研究[A];中國高等學(xué)校電力系統(tǒng)及其自動化專業(yè)第二十四屆學(xué)術(shù)年會論文集(上冊)[C];2008年
3 吳銘;徐蔚然;郭軍;;基于統(tǒng)計的中文標點識別算法研究[A];第八屆全國漢字識別學(xué)術(shù)會議論文集[C];2002年
4 田京雷;畢勝;;基于視頻的客流計數(shù)系統(tǒng)的研究[A];第十二屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集[C];2005年
5 吳崇斌;張全;;上下文邊界可變的貝葉斯分類器詞義消歧方法[A];第五屆全國青年計算語言學(xué)研討會論文集[C];2010年
6 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
7 程澤凱;泰鋒;;貝葉斯網(wǎng)絡(luò)分類器結(jié)構(gòu)學(xué)習(xí):基于啟發(fā)式的G2算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
8 李慶奇;馬莉;;基于小波能量的輪廓抖動性煙霧檢測算法[A];浙江省電子學(xué)會2011學(xué)術(shù)年會論文集[C];2011年
9 秦文政;馬莉;;基于視覺顯著性和小波分析的煙霧檢測方法[A];浙江省信號處理學(xué)會2011學(xué)術(shù)年會論文集[C];2011年
10 徐蔚然;于武貴;郭軍;;基于統(tǒng)計方法的混排文字切分與分類[A];第八屆全國漢字識別學(xué)術(shù)會議論文集[C];2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張聰;基于信度網(wǎng)的不確定性推理、學(xué)習(xí)與分類研究[D];重慶大學(xué);2005年
2 董立巖;貝葉斯網(wǎng)絡(luò)應(yīng)用基礎(chǔ)研究[D];吉林大學(xué);2007年
3 盧錦玲;電力系統(tǒng)暫態(tài)脆弱性評估及連鎖故障跳閘預(yù)測研究[D];華北電力大學(xué)(河北);2009年
4 李永麗;應(yīng)急平臺建設(shè)若干問題研究[D];吉林大學(xué);2010年
5 梁大為;視頻運動對象跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
6 邵非;基于位置感知的移動信息服務(wù)若干關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
7 李超群;名詞性屬性距離度量問題及其應(yīng)用研究[D];中國地質(zhì)大學(xué);2012年
8 安百國;關(guān)于模型稀疏性的研究[D];東北師范大學(xué);2012年
9 郭爍;DNA信號序列分析的基因預(yù)測方法研究[D];大連海事大學(xué);2010年
10 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高巖;樸素貝葉斯分類器的改進研究[D];華南理工大學(xué);2011年
2 余民杰;貝葉斯網(wǎng)絡(luò)分類器與應(yīng)用[D];云南財經(jīng)大學(xué);2012年
3 王國才;樸素貝葉斯分類器的研究與應(yīng)用[D];重慶交通大學(xué);2010年
4 施軼青;監(jiān)督學(xué)習(xí)下的貝葉斯分類器研究[D];西安電子科技大學(xué);2011年
5 鄭宏;貝葉斯分類器在汽車發(fā)動機噴射故障診斷中的應(yīng)用研究[D];重慶大學(xué);2011年
6 左紅江;基于樣本定鄰域概率的貝葉斯分類器[D];河北大學(xué);2013年
7 鐘駿;樸素貝葉斯分類法在氡預(yù)測應(yīng)用中的初步研究[D];中國地質(zhì)大學(xué)(北京);2013年
8 王敏翔;面向主題的爬行搜索策略研究與實現(xiàn)[D];陜西師范大學(xué);2012年
9 李晶輝;基于互信息的多層隱樸素貝葉斯算法研究[D];湖南大學(xué);2012年
10 李萬武;基于貝葉斯理論的數(shù)據(jù)挖掘在高校信息管理的應(yīng)用研究[D];哈爾濱工程大學(xué);2005年
,本文編號:521895
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/521895.html