天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁(yè)空間進(jìn)化算法的暴雨災(zāi)害主題爬蟲(chóng)策略

發(fā)布時(shí)間:2021-06-24 23:40
  針對(duì)單目標(biāo)優(yōu)化算法求解爬蟲(chóng)問(wèn)題時(shí)難以獲得最優(yōu)加權(quán)因子和易于陷入局部最優(yōu)的缺點(diǎn),將多目標(biāo)優(yōu)化算法引入主題爬蟲(chóng),提出一種基于多目標(biāo)優(yōu)化的網(wǎng)頁(yè)空間進(jìn)化算法。通過(guò)計(jì)算測(cè)試鏈接與種子鏈接庫(kù)中鏈接的最短距離,將其與種子鏈接庫(kù)中所有鏈接間的平均距離進(jìn)行比較來(lái)更新種子鏈接庫(kù)。針對(duì)多目標(biāo)優(yōu)化中Pareto最優(yōu)解的選取問(wèn)題,給出一種最近最遠(yuǎn)候選解法。實(shí)驗(yàn)結(jié)果表明,與寬度優(yōu)先搜索等算法相比,該算法具有較高的爬準(zhǔn)率和穩(wěn)定性。 

【文章來(lái)源】:計(jì)算機(jī)工程. 2019,45(02)北大核心CSCD

【文章頁(yè)數(shù)】:7 頁(yè)

【部分圖文】:

基于網(wǎng)頁(yè)空間進(jìn)化算法的暴雨災(zāi)害主題爬蟲(chóng)策略


一個(gè)包含13個(gè)頂點(diǎn)的鏈接連通示意圖

網(wǎng)頁(yè),主題,數(shù)量比,算法


?差計(jì)算公式分別為:Rd=1M∑Mp=1R(p)(18)SD=1M∑Mp=1(R(p)-Rd)槡2(19)3.2結(jié)果分析為了對(duì)比,本文使用相同的種子鏈接與評(píng)價(jià)標(biāo)準(zhǔn),分別測(cè)試WSE算法、BFS[6]算法、OPS[7]算法和SA[10]算法。圖2所示為4種算法爬取到主題相關(guān)網(wǎng)頁(yè)數(shù)量的比較結(jié)果。隨著爬取網(wǎng)頁(yè)數(shù)量的增加,WSE、OPS和SA3種算法爬取的主題相關(guān)網(wǎng)頁(yè)的數(shù)量迅速增加,而B(niǎo)FS算法的增速較為緩慢。當(dāng)爬取網(wǎng)頁(yè)的數(shù)量大于6000時(shí),WSE算法優(yōu)于其他3種算法。圖24種算法爬取主題相關(guān)網(wǎng)頁(yè)數(shù)量比較結(jié)果圖3給出4種算法的爬準(zhǔn)率比較結(jié)果。從圖3可以看出,WSE算法在整個(gè)爬行階段具有較高的爬準(zhǔn)率,當(dāng)爬取的網(wǎng)頁(yè)數(shù)大于6000時(shí),WSE算法的爬準(zhǔn)率高于其他3種算法且逐漸趨于穩(wěn)定。當(dāng)爬取的網(wǎng)頁(yè)數(shù)達(dá)到15000時(shí),WSE算法的爬準(zhǔn)率接近于78%,SA為71%,OPS為49%,BFS僅在20%~30%之間。圖34種算法爬準(zhǔn)率比較結(jié)果上述爬蟲(chóng)結(jié)果表明,相比于其他3種算法,WSE算法具有較高的爬準(zhǔn)率且不易陷入局部最優(yōu)。BFS算法由于沒(méi)有對(duì)網(wǎng)頁(yè)主題相關(guān)度進(jìn)行預(yù)判,因此整體的爬準(zhǔn)率較低。OPS算法每次都優(yōu)先下載主題相關(guān)度最高的鏈接,爬準(zhǔn)率在搜索初期較高,但隨著搜索范圍的擴(kuò)大,由于其貪心策略,OPS算法在后期會(huì)陷入局部最優(yōu)。SA算法其實(shí)也是一種貪心算法,但是它在搜索過(guò)程中,以一定的概率接受一些主題相關(guān)度評(píng)分次優(yōu)的鏈接,因此有可能會(huì)跳出局部最優(yōu),而其主要缺點(diǎn)是初始溫度及退火速度等參數(shù)難以控制。表2給出4種算法爬取主題相關(guān)網(wǎng)頁(yè)的平均相關(guān)度。當(dāng)不同算法爬取網(wǎng)頁(yè)數(shù)量在5000、10000、15000時(shí),WSE算法的平均相關(guān)度均超過(guò)77%,而B(niǎo)FS算法、O

比較結(jié)果,算法,相關(guān)度,網(wǎng)頁(yè)


排廊⊥?呈?康腦黽櫻?WSE、OPS和SA3種算法爬取的主題相關(guān)網(wǎng)頁(yè)的數(shù)量迅速增加,而B(niǎo)FS算法的增速較為緩慢。當(dāng)爬取網(wǎng)頁(yè)的數(shù)量大于6000時(shí),WSE算法優(yōu)于其他3種算法。圖24種算法爬取主題相關(guān)網(wǎng)頁(yè)數(shù)量比較結(jié)果圖3給出4種算法的爬準(zhǔn)率比較結(jié)果。從圖3可以看出,WSE算法在整個(gè)爬行階段具有較高的爬準(zhǔn)率,當(dāng)爬取的網(wǎng)頁(yè)數(shù)大于6000時(shí),WSE算法的爬準(zhǔn)率高于其他3種算法且逐漸趨于穩(wěn)定。當(dāng)爬取的網(wǎng)頁(yè)數(shù)達(dá)到15000時(shí),WSE算法的爬準(zhǔn)率接近于78%,SA為71%,OPS為49%,BFS僅在20%~30%之間。圖34種算法爬準(zhǔn)率比較結(jié)果上述爬蟲(chóng)結(jié)果表明,相比于其他3種算法,WSE算法具有較高的爬準(zhǔn)率且不易陷入局部最優(yōu)。BFS算法由于沒(méi)有對(duì)網(wǎng)頁(yè)主題相關(guān)度進(jìn)行預(yù)判,因此整體的爬準(zhǔn)率較低。OPS算法每次都優(yōu)先下載主題相關(guān)度最高的鏈接,爬準(zhǔn)率在搜索初期較高,但隨著搜索范圍的擴(kuò)大,由于其貪心策略,OPS算法在后期會(huì)陷入局部最優(yōu)。SA算法其實(shí)也是一種貪心算法,但是它在搜索過(guò)程中,以一定的概率接受一些主題相關(guān)度評(píng)分次優(yōu)的鏈接,因此有可能會(huì)跳出局部最優(yōu),而其主要缺點(diǎn)是初始溫度及退火速度等參數(shù)難以控制。表2給出4種算法爬取主題相關(guān)網(wǎng)頁(yè)的平均相關(guān)度。當(dāng)不同算法爬取網(wǎng)頁(yè)數(shù)量在5000、10000、15000時(shí),WSE算法的平均相關(guān)度均超過(guò)77%,而B(niǎo)FS算法、OPS算法和SA算法的平均相關(guān)度均保持在73%左右。WSE算法比其他3種主題爬蟲(chóng)算法在爬取主題相關(guān)網(wǎng)頁(yè)的平均相關(guān)度上明顯要高。圖4給出了4種算法爬取網(wǎng)頁(yè)的平均相關(guān)度比較。在整個(gè)爬蟲(chóng)搜索過(guò)程中,WSE算法始終保持較高的相關(guān)度,均優(yōu)于其他算法。當(dāng)爬取網(wǎng)頁(yè)數(shù)達(dá)到15000時(shí),WSE算法爬取網(wǎng)頁(yè)的平均相關(guān)度約為0.71,而SA

【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合有監(jiān)督廣度優(yōu)先搜索策略的通用垂直爬蟲(chóng)方法[J]. 高峰,劉震,高輝.  計(jì)算機(jī)工程. 2018(11)
[2]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書(shū)良,李長(zhǎng)鏡,魏娜娣,王子晏.  中文信息學(xué)報(bào). 2017(05)
[3]基于模擬退火算法的移動(dòng)通信網(wǎng)絡(luò)自規(guī)劃[J]. 張捷,楊希龍.  計(jì)算機(jī)工程. 2017(05)
[4]基于主題詞權(quán)重和句子特征的自動(dòng)文摘[J]. 蔣昌金,彭宏,陳建超,馬千里.  華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2010(07)

碩士論文
[1]基于廣度優(yōu)先的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王樺.復(fù)旦大學(xué) 2011



本文編號(hào):3248044

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3248044.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dea0f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com