垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲(chóng)算法的設(shè)計(jì)與研究
本文關(guān)鍵詞:垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲(chóng)算法的設(shè)計(jì)與研究
更多相關(guān)文章: 主題搜索 HITS 樸素貝葉斯 混合爬行策略
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,近幾年,傳統(tǒng)的通用搜索引擎已不能滿足人們對(duì)于專(zhuān)業(yè)化、個(gè)性化的信息需求,因此建立面向特定領(lǐng)域的垂直搜索引擎迫在眉睫。主題網(wǎng)絡(luò)爬蟲(chóng)在主題搜索引擎中起著舉足輕重的作用,它設(shè)計(jì)的好壞直接影響著搜索引擎的服務(wù)質(zhì)量。傳統(tǒng)的主題網(wǎng)絡(luò)爬蟲(chóng)主要通過(guò)分析網(wǎng)頁(yè)的全部?jī)?nèi)容來(lái)分析候選URL與主題的相關(guān)性,但現(xiàn)今的網(wǎng)頁(yè)包含的主題越來(lái)越多,這種分析方式可能會(huì)由于網(wǎng)頁(yè)中存在噪音而影響候選URL與主題相關(guān)性的判定。近年來(lái)對(duì)主題爬蟲(chóng)的研究主要集中于兩個(gè)方面:主題相關(guān)性判定和主題爬蟲(chóng)搜索策略。本文針對(duì)傳統(tǒng)的主題網(wǎng)絡(luò)爬蟲(chóng)的不足提出基于一種混合爬行的搜索策略。主要的研究工作包括:(1)文章在研究主題爬蟲(chóng)相關(guān)技術(shù)的基礎(chǔ)上,對(duì)現(xiàn)有的研究成果分別做了闡述,這為文章提出的新的爬蟲(chóng)策略奠定了理論基礎(chǔ)。(2)把樹(shù)的層次型結(jié)構(gòu)應(yīng)用到Bloom Filter去重過(guò)程,提出一種基于傳統(tǒng)Bloom Filter的多層Bloom Filter(MLBF)對(duì)抓取的URL去重,每層Bloom Filter由k個(gè)獨(dú)立的哈希函數(shù)和m位位數(shù)組組成,將URL看成是由”/”分割之后組成的集合,從而將URL的去重問(wèn)題轉(zhuǎn)換成判定樹(shù)的路徑問(wèn)題。實(shí)驗(yàn)結(jié)果分析表明:改進(jìn)后的多層Bloom Filter具有更小的誤判率,提升了爬行效率。(3)文章吸取了已有成果的研究精華,充分結(jié)合網(wǎng)頁(yè)內(nèi)容評(píng)價(jià)和網(wǎng)頁(yè)鏈接評(píng)價(jià)兩個(gè)維度提出基于內(nèi)容和鏈接評(píng)價(jià)的一種混合爬行策略。在內(nèi)容評(píng)價(jià)策略上,構(gòu)建以網(wǎng)頁(yè)內(nèi)容和錨文本為輸入的樸素貝葉斯分類(lèi)器分析候選URL與主題的相關(guān)性,在鏈接評(píng)價(jià)策略上,采用高效的HITS算法來(lái)獲得Authority和Hub網(wǎng)頁(yè)。將整個(gè)爬行策略的周期合理分為兩步,提高了網(wǎng)頁(yè)與主題的相關(guān)性。(4)在預(yù)測(cè)候選URL與主題相關(guān)度方面,采用典型的杜威十進(jìn)制分類(lèi)法和鏈接結(jié)構(gòu)分析法等差異化的方法預(yù)測(cè)URL與主題的相關(guān)性,綜合考慮了錨文本、錨文本附近的信息、反向網(wǎng)頁(yè)、反向鏈接與主題的相關(guān),避免了“主題漂移”現(xiàn)象。(5)對(duì)爬蟲(chóng)效果采用差準(zhǔn)率和模擬查全率來(lái)進(jìn)行評(píng)估,通過(guò)比較本文提出的爬行策略和其他算法在抓取質(zhì)量方面的優(yōu)劣,分析實(shí)驗(yàn)數(shù)據(jù),得出結(jié)論:混合爬蟲(chóng)策略在抓取網(wǎng)頁(yè)質(zhì)量上具有明顯的優(yōu)越性。
【關(guān)鍵詞】:主題搜索 HITS 樸素貝葉斯 混合爬行策略
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 緒論13-18
- 1.1 研究背景和意義13-14
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-16
- 1.2.1 通用網(wǎng)絡(luò)爬蟲(chóng)的研究現(xiàn)狀14-15
- 1.2.2 主題網(wǎng)絡(luò)爬蟲(chóng)的研究現(xiàn)狀15-16
- 1.3 研究?jī)?nèi)容及組織結(jié)構(gòu)及創(chuàng)新點(diǎn)16-18
- 第二章 搜索引擎中的網(wǎng)絡(luò)爬蟲(chóng)18-28
- 2.1 搜索引擎簡(jiǎn)介18-21
- 2.1.1 搜索引擎的發(fā)展史18
- 2.1.2 搜索引擎的類(lèi)別18-19
- 2.1.3 搜索引擎的工作原理19-21
- 2.2 網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)和搜索策略21-26
- 2.2.1 通用網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)21-23
- 2.2.2 通用網(wǎng)絡(luò)爬蟲(chóng)的搜索策略23-24
- 2.2.3 主題網(wǎng)絡(luò)爬蟲(chóng)的體系結(jié)構(gòu)24-26
- 2.2.4 主題網(wǎng)絡(luò)爬蟲(chóng)的搜索策略26
- 2.3 通用網(wǎng)絡(luò)爬蟲(chóng)與主題網(wǎng)絡(luò)爬蟲(chóng)的區(qū)別26-27
- 2.4 本章小結(jié)27-28
- 第三章 主題網(wǎng)絡(luò)爬蟲(chóng)的關(guān)鍵技術(shù)28-49
- 3.1 網(wǎng)頁(yè)內(nèi)容處理28-33
- 3.1.1 HTML網(wǎng)頁(yè)結(jié)構(gòu)28-29
- 3.1.2 網(wǎng)頁(yè)內(nèi)容提取29-31
- 3.1.3 文本分詞31-32
- 3.1.4 特征向量項(xiàng)的權(quán)重計(jì)算32-33
- 3.2 頁(yè)面消重技術(shù)33-40
- 3.2.1 URL去重33-36
- 3.2.2 改進(jìn)的URL去重算法36-39
- 3.2.3 內(nèi)容去重39-40
- 3.3 主題相關(guān)性判別算法40-44
- 3.3.1 向量空間模型判定算法40-41
- 3.3.2 向量空間模型算法的優(yōu)點(diǎn)和缺點(diǎn)41-42
- 3.3.3 樸素貝葉斯分類(lèi)算法42-44
- 3.3.4 樸素貝葉斯分類(lèi)算法的優(yōu)缺點(diǎn)44
- 3.4 基于鏈接評(píng)價(jià)的搜索算法44-48
- 3.4.1 PageRank算法44-46
- 3.4.2 HITS算法46-47
- 3.4.3 PageRank和HITS的比較47-48
- 3.5 本章小結(jié)48-49
- 第四章 基于一種混合爬行算法的研究49-61
- 4.1 杜威十進(jìn)分類(lèi)法49-50
- 4.2 主題候選鏈接特征文本的提取50-51
- 4.3 構(gòu)建樸素貝葉斯文本分類(lèi)器51-53
- 4.4 首次抓取算法53-55
- 4.5 二次抓取算法55-60
- 4.5.1 主題相關(guān)預(yù)測(cè)算法的研究55-58
- 4.5.2 爬蟲(chóng)算法的研究58-60
- 4.6 本章小結(jié)60-61
- 第五章 實(shí)驗(yàn)結(jié)果與分析61-66
- 5.1 評(píng)價(jià)方法61
- 5.2 實(shí)驗(yàn)環(huán)境61-62
- 5.3 實(shí)驗(yàn)分析62-65
- 5.4 本章小結(jié)65-66
- 總結(jié)與展望66-68
- 參考文獻(xiàn)68-72
- 攻讀碩士期間發(fā)表的學(xué)術(shù)論文和科研成果72-74
- 致謝74
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 戚欣;;基于本體的主題網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)[J];武漢理工大學(xué)學(xué)報(bào);2009年03期
2 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲(chóng)[J];硅谷;2009年04期
3 王江紅;朱麗君;李彩虹;;一種新型網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2010年03期
4 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
5 楊靖韜;陳會(huì)果;;對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];科技創(chuàng)業(yè)月刊;2010年10期
6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期
7 李志義;;網(wǎng)絡(luò)爬蟲(chóng)的優(yōu)化策略探略[J];現(xiàn)代情報(bào);2011年10期
8 焦賽美;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
9 宋海洋;劉曉然;錢(qián)?;;一種新的主題網(wǎng)絡(luò)爬蟲(chóng)爬行策略[J];計(jì)算機(jī)應(yīng)用與軟件;2011年11期
10 王娟;吳金鵬;;網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2012年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 夏詔杰;郭力;李曉霞;;化學(xué)主題網(wǎng)絡(luò)爬蟲(chóng)的研究[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
3 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陶俊文;基于Heritrix框架的專(zhuān)業(yè)鎮(zhèn)信息網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)[D];華南理工大學(xué);2015年
2 馬漢超;基于主題網(wǎng)絡(luò)爬蟲(chóng)的汽車(chē)行業(yè)多元信息web系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 李威;基于交通流量圖的交通信息提取技術(shù)研究[D];長(zhǎng)安大學(xué);2015年
4 朱嶸良;分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲(chóng)研究[D];中央民族大學(xué);2015年
5 周思華;股票系統(tǒng)之熱門(mén)話題發(fā)現(xiàn)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
6 丁杰;基于網(wǎng)絡(luò)爬蟲(chóng)的虛假網(wǎng)頁(yè)主動(dòng)智能檢測(cè)[D];華北電力大學(xué);2015年
7 唐華棟;網(wǎng)頁(yè)防抓取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
8 白劍飛;基于層次主題模型的網(wǎng)絡(luò)新聞匯聚[D];浙江大學(xué);2015年
9 袁野;企業(yè)內(nèi)網(wǎng)搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
10 滕以芳;基于本體的多媒體素材網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2015年
,本文編號(hào):834940
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/834940.html