基于改進(jìn)VIPS算法和改進(jìn)灰狼優(yōu)化算法的主題爬蟲
發(fā)布時間:2020-04-25 15:21
【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)頁資源呈現(xiàn)爆炸式增長,準(zhǔn)確地獲取用戶所需的網(wǎng)頁是現(xiàn)在搜索引擎需要解決的一個熱點(diǎn)問題。在這種情況下,針對特定主題的垂直搜索引擎由此誕生。它的核心就是主題爬蟲,本文通過研究主題爬蟲的相關(guān)技術(shù),引入網(wǎng)頁分塊的概念,結(jié)合主題爬蟲的鏈接評價方法,提出一種更為有效的主題爬蟲,論文的主要工作如下:(1)提出一種新的網(wǎng)頁分塊算法:在現(xiàn)有的多數(shù)基于“DIV+CSS”的頁面設(shè)計結(jié)構(gòu)下,將VIPS算法的分塊規(guī)則進(jìn)一步優(yōu)化,根據(jù)主題爬蟲的需要,提取出內(nèi)容塊和鏈接塊,過濾掉網(wǎng)頁中的無關(guān)鏈接與垃圾信息。然后從內(nèi)容塊中提取出文本信息的特征關(guān)鍵詞,利用改進(jìn)的TF-IDF加權(quán)算法,對特征關(guān)鍵詞加權(quán)后用向量空間模型計算主題相關(guān)性;诰W(wǎng)頁分塊的內(nèi)容分析方法為后續(xù)的鏈接評價提供了更高質(zhì)量的網(wǎng)頁URL,同時降低了無關(guān)內(nèi)容的影響。(2)主題爬蟲必須計算網(wǎng)頁鏈接的優(yōu)先級來確定主題爬蟲的爬取方向。本文利用群體智能算法的基本思想,引入灰狼優(yōu)化算法,通過加入動態(tài)權(quán)重的概念以及改變收斂因子的計算方法,將改進(jìn)的灰狼優(yōu)化算法應(yīng)用于主題爬蟲中,鏈接優(yōu)先級的準(zhǔn)確度更高,同時避免了主題爬蟲陷入“局部最優(yōu)”的問題,提高了全局搜索能力,并能拋棄掉無關(guān)的鏈接,提高了返回網(wǎng)頁的質(zhì)量。實(shí)驗(yàn)證明,改進(jìn)的灰狼優(yōu)化算法能夠顯著提高爬蟲的準(zhǔn)確率。(3)將兩種方法結(jié)合設(shè)計主題爬蟲系統(tǒng),經(jīng)過前期的數(shù)據(jù)準(zhǔn)備與參數(shù)設(shè)置后,將本文使用的主題爬蟲系統(tǒng)與基于PageRank算法的主題爬蟲系統(tǒng)、使用Shark-Search算法構(gòu)建的主題爬蟲系統(tǒng)進(jìn)行比較。對三種主題爬蟲的覆蓋率,準(zhǔn)確率和信息量總和進(jìn)行詳細(xì)的實(shí)驗(yàn)分析對比,結(jié)果表明,本文提出的主題爬蟲系統(tǒng)具有更好的性能。
【圖文】:
華東師范大學(xué)碩士學(xué)位論文務(wù)器端進(jìn)行連接,得到相關(guān)網(wǎng)頁信息,并且將這些網(wǎng)頁鏈接放入下載L 隊列中。同時將這些網(wǎng)頁中的鏈接解析出來,,得到一批新的 URL,先接進(jìn)行去重,過濾后的 URL 就可以放入待下載隊列中。已經(jīng)解析完畢可以根據(jù)相關(guān)規(guī)則存入數(shù)據(jù)庫中[19]。將上述操作重復(fù)執(zhí)行,一直到滿足或者設(shè)定的爬蟲程序停止為止。通用爬蟲的體系結(jié)構(gòu)可以由圖 2-1 體現(xiàn)。
圖 2- 2 主題爬蟲體系結(jié)構(gòu)在主題爬蟲體系結(jié)構(gòu)中,多了兩個模塊。一個是主題相關(guān)性計算模塊,計算網(wǎng)頁內(nèi)容與主題的相關(guān)度,在閾值范圍內(nèi)的網(wǎng)頁保留,提取出網(wǎng)頁中的鏈接進(jìn)行鏈接相關(guān)性計算,并將網(wǎng)頁內(nèi)容保存進(jìn)數(shù)據(jù)庫中;在閾值范圍外的網(wǎng)頁則丟棄[25]。另一個則是鏈接相關(guān)性計算模塊,確定訪問的優(yōu)先級,按照優(yōu)先級高低將鏈接放入待下載 URL 隊列中進(jìn)行新一輪的爬取過程,能夠有效地阻止無關(guān)鏈接的訪問,將搜索時間減小,爬蟲的效率得到了提高。2.1.2.2 爬行策略最佳優(yōu)先搜索策略[26]是主題爬蟲爬行的核心思想。主題爬蟲按照網(wǎng)頁的重要性高低依次進(jìn)行訪問,然后根據(jù)一定的規(guī)則計算網(wǎng)頁中鏈接的優(yōu)先級,根據(jù)優(yōu)先級順序?qū)㈡溄右来畏湃氪螺d URL 隊列中,不斷重復(fù)這個過程,一直到待下載
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18;TP391.1
本文編號:2640386
【圖文】:
華東師范大學(xué)碩士學(xué)位論文務(wù)器端進(jìn)行連接,得到相關(guān)網(wǎng)頁信息,并且將這些網(wǎng)頁鏈接放入下載L 隊列中。同時將這些網(wǎng)頁中的鏈接解析出來,,得到一批新的 URL,先接進(jìn)行去重,過濾后的 URL 就可以放入待下載隊列中。已經(jīng)解析完畢可以根據(jù)相關(guān)規(guī)則存入數(shù)據(jù)庫中[19]。將上述操作重復(fù)執(zhí)行,一直到滿足或者設(shè)定的爬蟲程序停止為止。通用爬蟲的體系結(jié)構(gòu)可以由圖 2-1 體現(xiàn)。
圖 2- 2 主題爬蟲體系結(jié)構(gòu)在主題爬蟲體系結(jié)構(gòu)中,多了兩個模塊。一個是主題相關(guān)性計算模塊,計算網(wǎng)頁內(nèi)容與主題的相關(guān)度,在閾值范圍內(nèi)的網(wǎng)頁保留,提取出網(wǎng)頁中的鏈接進(jìn)行鏈接相關(guān)性計算,并將網(wǎng)頁內(nèi)容保存進(jìn)數(shù)據(jù)庫中;在閾值范圍外的網(wǎng)頁則丟棄[25]。另一個則是鏈接相關(guān)性計算模塊,確定訪問的優(yōu)先級,按照優(yōu)先級高低將鏈接放入待下載 URL 隊列中進(jìn)行新一輪的爬取過程,能夠有效地阻止無關(guān)鏈接的訪問,將搜索時間減小,爬蟲的效率得到了提高。2.1.2.2 爬行策略最佳優(yōu)先搜索策略[26]是主題爬蟲爬行的核心思想。主題爬蟲按照網(wǎng)頁的重要性高低依次進(jìn)行訪問,然后根據(jù)一定的規(guī)則計算網(wǎng)頁中鏈接的優(yōu)先級,根據(jù)優(yōu)先級順序?qū)㈡溄右来畏湃氪螺d URL 隊列中,不斷重復(fù)這個過程,一直到待下載
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP18;TP391.1
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前2條
1 蕭婧婕;基于改進(jìn)VIPS算法和改進(jìn)灰狼優(yōu)化算法的主題爬蟲[D];華東師范大學(xué);2019年
2 張昕;異構(gòu)就業(yè)數(shù)據(jù)集成服務(wù)的設(shè)計與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
本文編號:2640386
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2640386.html
最近更新
教材專著