基于改進VIPS算法和改進灰狼優(yōu)化算法的主題爬蟲

發(fā)布時間：2020-04-25 15:21

【摘要】：互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)頁資源呈現(xiàn)爆炸式增長,準(zhǔn)確地獲取用戶所需的網(wǎng)頁是現(xiàn)在搜索引擎需要解決的一個熱點問題。在這種情況下,針對特定主題的垂直搜索引擎由此誕生。它的核心就是主題爬蟲,本文通過研究主題爬蟲的相關(guān)技術(shù),引入網(wǎng)頁分塊的概念,結(jié)合主題爬蟲的鏈接評價方法,提出一種更為有效的主題爬蟲,論文的主要工作如下:(1)提出一種新的網(wǎng)頁分塊算法:在現(xiàn)有的多數(shù)基于“DIV+CSS”的頁面設(shè)計結(jié)構(gòu)下,將VIPS算法的分塊規(guī)則進一步優(yōu)化,根據(jù)主題爬蟲的需要,提取出內(nèi)容塊和鏈接塊,過濾掉網(wǎng)頁中的無關(guān)鏈接與垃圾信息。然后從內(nèi)容塊中提取出文本信息的特征關(guān)鍵詞,利用改進的TF-IDF加權(quán)算法,對特征關(guān)鍵詞加權(quán)后用向量空間模型計算主題相關(guān)性�；诰W(wǎng)頁分塊的內(nèi)容分析方法為后續(xù)的鏈接評價提供了更高質(zhì)量的網(wǎng)頁URL,同時降低了無關(guān)內(nèi)容的影響。(2)主題爬蟲必須計算網(wǎng)頁鏈接的優(yōu)先級來確定主題爬蟲的爬取方向。本文利用群體智能算法的基本思想,引入灰狼優(yōu)化算法,通過加入動態(tài)權(quán)重的概念以及改變收斂因子的計算方法,將改進的灰狼優(yōu)化算法應(yīng)用于主題爬蟲中,鏈接優(yōu)先級的準(zhǔn)確度更高,同時避免了主題爬蟲陷入“局部最優(yōu)”的問題,提高了全局搜索能力,并能拋棄掉無關(guān)的鏈接,提高了返回網(wǎng)頁的質(zhì)量。實驗證明,改進的灰狼優(yōu)化算法能夠顯著提高爬蟲的準(zhǔn)確率。(3)將兩種方法結(jié)合設(shè)計主題爬蟲系統(tǒng),經(jīng)過前期的數(shù)據(jù)準(zhǔn)備與參數(shù)設(shè)置后,將本文使用的主題爬蟲系統(tǒng)與基于PageRank算法的主題爬蟲系統(tǒng)、使用Shark-Search算法構(gòu)建的主題爬蟲系統(tǒng)進行比較。對三種主題爬蟲的覆蓋率,準(zhǔn)確率和信息量總和進行詳細(xì)的實驗分析對比,結(jié)果表明,本文提出的主題爬蟲系統(tǒng)具有更好的性能。
【圖文】：

體系結(jié)構(gòu)圖,體系結(jié)構(gòu),網(wǎng)頁,隊列

華東師范大學(xué)碩士學(xué)位論文務(wù)器端進行連接，得到相關(guān)網(wǎng)頁信息，并且將這些網(wǎng)頁鏈接放入下載L 隊列中。同時將這些網(wǎng)頁中的鏈接解析出來，，得到一批新的 URL，先接進行去重，過濾后的 URL 就可以放入待下載隊列中。已經(jīng)解析完畢可以根據(jù)相關(guān)規(guī)則存入數(shù)據(jù)庫中[19]。將上述操作重復(fù)執(zhí)行，一直到滿足或者設(shè)定的爬蟲程序停止為止。通用爬蟲的體系結(jié)構(gòu)可以由圖 2-1 體現(xiàn)。

體系結(jié)構(gòu)圖,主題,體系結(jié)構(gòu),網(wǎng)頁

圖 2- 2 主題爬蟲體系結(jié)構(gòu)在主題爬蟲體系結(jié)構(gòu)中，多了兩個模塊。一個是主題相關(guān)性計算模塊，計算網(wǎng)頁內(nèi)容與主題的相關(guān)度，在閾值范圍內(nèi)的網(wǎng)頁保留，提取出網(wǎng)頁中的鏈接進行鏈接相關(guān)性計算，并將網(wǎng)頁內(nèi)容保存進數(shù)據(jù)庫中；在閾值范圍外的網(wǎng)頁則丟棄[25]。另一個則是鏈接相關(guān)性計算模塊，確定訪問的優(yōu)先級，按照優(yōu)先級高低將鏈接放入待下載 URL 隊列中進行新一輪的爬取過程，能夠有效地阻止無關(guān)鏈接的訪問，將搜索時間減小，爬蟲的效率得到了提高。2.1.2.2 爬行策略最佳優(yōu)先搜索策略[26]是主題爬蟲爬行的核心思想。主題爬蟲按照網(wǎng)頁的重要性高低依次進行訪問，然后根據(jù)一定的規(guī)則計算網(wǎng)頁中鏈接的優(yōu)先級，根據(jù)優(yōu)先級順序?qū)㈡溄右来畏湃氪螺d URL 隊列中，不斷重復(fù)這個過程，一直到待下載
【學(xué)位授予單位】：華東師范大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：TP18;TP391.1

【相似文獻】

相關(guān)碩士學(xué)位論文前2條

1 蕭婧婕;基于改進VIPS算法和改進灰狼優(yōu)化算法的主題爬蟲[D];華東師范大學(xué);2019年

2 張昕;異構(gòu)就業(yè)數(shù)據(jù)集成服務(wù)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2015年

本文編號：2640386

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2640386.html

上一篇：錐規(guī)劃的核函數(shù)全牛頓步內(nèi)點算法研究
下一篇：EPC模式下的分布式光伏電站項目風(fēng)險管理評估研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進VIPS算法和改進灰狼優(yōu)化算法的主題爬蟲