垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究
本文關(guān)鍵詞:垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究,由筆耕文化傳播整理發(fā)布。
《山東師范大學(xué)》 2015年
垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究
張環(huán)
【摘要】:隨著互聯(lián)網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)資源呈指數(shù)形式增長,面向整個網(wǎng)絡(luò)信息的通用搜索引擎已經(jīng)不能滿足不同領(lǐng)域的用戶精確的檢索需求,在這種背景下,垂直搜索引擎應(yīng)運而生。 主題網(wǎng)絡(luò)爬蟲是垂直搜索引擎的核心部分,其爬行質(zhì)量和效率直接決定了垂直搜索引擎的性能。與通用網(wǎng)絡(luò)爬蟲不同的是,主題網(wǎng)絡(luò)爬蟲只抓取與特定主題相關(guān)的網(wǎng)頁同時過濾無關(guān)網(wǎng)頁,具有專業(yè),精確,深入的特點。傳統(tǒng)的主題網(wǎng)絡(luò)爬蟲通過分析網(wǎng)頁的全部內(nèi)容判定候選鏈接的相關(guān)性,,現(xiàn)今的網(wǎng)頁內(nèi)容往往包含多個不同的主題,對網(wǎng)頁的全部內(nèi)容進行計算很可能由于網(wǎng)頁中的噪音而影響結(jié)果的判定。 本文對主題網(wǎng)絡(luò)爬蟲的相關(guān)性判定算法和搜索策略進行了研究,針對傳統(tǒng)的主題網(wǎng)絡(luò)爬蟲的不足提出一種基于候選鏈接主題邊緣文本的主題爬蟲,本文的主要研究工作如下: 首先,利用杜威十進分類法的特性繪制二維坐標提取候選鏈接主題邊緣文本。杜威十進分類法是一種層次分類法,由于詞的多義性,每個主題關(guān)鍵詞對應(yīng)唯一或者多個的杜威分類號碼,根據(jù)分類號碼可以判定關(guān)鍵詞是否是同一主題或者相近主題。候選鏈接主題邊緣文本是一組與錨文本關(guān)鍵詞詞義相近的關(guān)鍵詞,主要包括錨文本關(guān)鍵詞和網(wǎng)頁正文關(guān)鍵詞兩個部分。該主題爬蟲利用錨文本和與錨文本主題詞義相近網(wǎng)頁正文判定候選鏈接的相關(guān)性,避免噪音對判定結(jié)果的影響。 其次,構(gòu)建樸素貝葉斯文本文本分類器分析候選鏈接主題邊緣文本,指導(dǎo)主題網(wǎng)絡(luò)爬蟲爬行。樸素貝葉斯分類算法是目前為止文本分類中最有效的分類算法。錨文本關(guān)鍵詞更能代表候選鏈接的主題含義,對錨文本關(guān)鍵詞加權(quán),突出錨文本關(guān)鍵詞在相關(guān)性判定時的重要性。 最后,查準率和模擬查全率作為實驗的評估指標,比較本文提出的主題網(wǎng)絡(luò)爬蟲與其他爬蟲算法在抓取質(zhì)量方面的優(yōu)劣。統(tǒng)計和分析實驗所得的數(shù)據(jù),實驗結(jié)果表明本文提出的主題網(wǎng)絡(luò)爬蟲在爬行質(zhì)量方面,效果更好。
【關(guān)鍵詞】:
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3;TP393.092
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計算機研究與發(fā)展;2010年04期
2 曾廣樸;范會聯(lián);;基于遺傳算法的聚焦爬蟲搜索策略[J];計算機工程;2010年11期
3 劉徽;黃寬娜;余建橋;;一種Deep Web爬蟲爬行策略[J];計算機工程;2012年11期
4 羅欣,夏德麟,晏蒲柳;基于詞頻差異的特征選取及改進的TF-IDF公式[J];計算機應(yīng)用;2005年09期
5 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計算機應(yīng)用;2011年12期
6 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
7 黃莉;王成良;楊錚;;面向主題網(wǎng)絡(luò)爬行的智能隧道穿越算法研究[J];計算機應(yīng)用研究;2009年08期
8 王振宇;唐遠華;郭力;;面向分層結(jié)構(gòu)的網(wǎng)頁分類與抓取[J];計算機工程與科學(xué);2012年11期
9 白玉昭;梁久禎;;基于概率模型的主題爬蟲的研究和實現(xiàn)[J];計算機工程與科學(xué);2013年01期
10 葉育鑫;歐陽丹彤;;基于語義的主題爬行策略[J];軟件學(xué)報;2011年09期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2009年05期
2 赫楓齡,左萬利;利用超鏈接信息改進網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2005年01期
3 李春杰;崔紅霞;;基于多Agent搜索行為分析的用戶興趣模型[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2010年02期
4 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計與研究[J];成都信息工程學(xué)院學(xué)報;2011年05期
5 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期
6 祝偉華;李嘉毅;劉斌斌;;二手汽車交易信息垂直搜索網(wǎng)的設(shè)計[J];重慶工學(xué)院學(xué)報(自然科學(xué)版);2008年08期
7 趙京橋;;中國雅虎經(jīng)營模式轉(zhuǎn)型原因分析[J];財貿(mào)經(jīng)濟;2008年10期
8 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報;2008年03期
9 楊仁廣;孟祥增;;網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索研究[J];電化教育研究;2009年05期
10 李艷玲;戴冠中;覃森;;快速的文本傾向性分類方法(英文)[J];電子科技大學(xué)學(xué)報;2007年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 周炎濤;唐劍波;王家琴;;基于信息熵的改進TFIDF特征選擇算法[A];第二十六屆中國控制會議論文集[C];2007年
2 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實現(xiàn)[A];數(shù)字博物館研究與實踐(2009)[C];2010年
3 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
4 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計算機學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年
5 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
6 張凱;李魁;張剛;王斌;;基于站點的Web信息采集器研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
7 張健沛;李連江;楊靜;;個性化搜索引擎排序算法的研究與改進[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
8 劉莉;肖詩斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
9 劉寶良;李建中;;crlib:可交互異構(gòu)Crawler框架的設(shè)計與實現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
10 單鐵城;張安妮;馬德輝;;基于爬蟲改進算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
2 王修君;高效數(shù)據(jù)流和海量文本處理算法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
3 吳超;信息檢索中top-k問題的并行算法及優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
5 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
6 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
7 張乃洲;實體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年
8 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
9 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
10 呂凝;基于內(nèi)容的視頻數(shù)據(jù)庫多模式檢索方法研究[D];吉林大學(xué);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
2 汪永偉;搜索引擎中網(wǎng)頁排序算法的研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年
3 馮效棟;垂直搜索引擎技術(shù)在網(wǎng)絡(luò)輿情巡控中的研究與應(yīng)用[D];中國海洋大學(xué);2010年
4 蘇佩鈿;中小學(xué)機房管理系統(tǒng)設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
5 王思麗;藏文網(wǎng)頁自動發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年
6 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年
7 李元乾;基于移動搜索用戶關(guān)聯(lián)的信息檢索研究[D];北京交通大學(xué);2010年
8 鄧忠瑩;中文文本傾向性分類系統(tǒng)研究[D];昆明理工大學(xué);2009年
9 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
10 陶小波;電子就業(yè)文本挖掘系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 傅騫;溫曉輝;;開放式Web信息抽取系統(tǒng)研究與實現(xiàn)[J];北京師范大學(xué)學(xué)報(自然科學(xué)版);2005年06期
2 康桂英,劉春平;新一代中文智能搜索引擎研究[J];東南大學(xué)學(xué)報(哲學(xué)社會科學(xué)版);2002年S1期
3 趙文;唐建雄;高慶鋒;;基于統(tǒng)計的中文網(wǎng)頁正文抽取的研究[J];電腦知識與技術(shù);2008年01期
4 賀亞鋒,張穎;Web資源虛擬圖書館研究[J];大學(xué)圖書館學(xué)報;2000年05期
5 侯漢清,薛鵬軍;基于知識庫的網(wǎng)頁自動標引和自動分類系統(tǒng)的設(shè)計[J];大學(xué)圖書館學(xué)報;2004年01期
6 賈福林,王國仁,于戈;基于DOM的XML數(shù)據(jù)庫的索引技術(shù)研究[J];計算機研究與發(fā)展;2004年01期
7 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
8 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計算機研究與發(fā)展;2010年04期
9 葉育鑫;歐陽丹彤;領(lǐng)吉;張永剛;;本體與規(guī)則整合的推理方法研究及設(shè)計[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年05期
10 李嘉佑;賈自艷;何清;史忠植;;基于Web挖掘的網(wǎng)頁清洗技術(shù)[J];計算機工程與應(yīng)用;2006年25期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
2 李赟;基于中文維基百科的語義知識挖掘相關(guān)研究[D];北京郵電大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 壽周翔;專業(yè)搜索引擎的研究與設(shè)計[D];浙江大學(xué);2005年
2 董靜;中文網(wǎng)頁形式自動分類[D];大連理工大學(xué);2006年
3 劉斌;基于Web的HTML網(wǎng)頁清洗技術(shù)的研究與實現(xiàn)[D];華北電力大學(xué)(北京);2007年
4 何興無;基于用戶行為和遺傳算法的用戶建模研究[D];重慶大學(xué);2007年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
2 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機信息;2010年03期
3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
5 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期
6 宋海洋;劉曉然;錢?;;一種新的主題網(wǎng)絡(luò)爬蟲爬行策略[J];計算機應(yīng)用與軟件;2011年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機應(yīng)用研究;2007年10期
8 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
10 楊松梅;;網(wǎng)絡(luò)爬蟲[J];硅谷;2009年15期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲的研究[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
5 王慶廣;何力;韓偉紅;;基于爬蟲的有害網(wǎng)站發(fā)現(xiàn)與判別系統(tǒng)的實現(xiàn)[A];第27次全國計算機安全學(xué)術(shù)交流會論文集[C];2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
2 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
3 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
4 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
5 陳奮;過濾型網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D];廈門大學(xué);2007年
6 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
7 劉晶晶;面向微博的網(wǎng)絡(luò)爬蟲研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年
8 耿令寶;分布式環(huán)境下的網(wǎng)絡(luò)爬蟲系統(tǒng)研究與優(yōu)化[D];北京郵電大學(xué);2015年
9 譚龍遠;基于領(lǐng)域的網(wǎng)絡(luò)爬蟲技術(shù)的研究與實現(xiàn)[D];武漢理工大學(xué);2009年
10 張紅云;基于頁面分析的主題網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年
本文關(guān)鍵詞:垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究,由筆耕文化傳播整理發(fā)布。
本文編號:66116
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/66116.html