天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于網(wǎng)頁空間進化算法的暴雨災害主題爬蟲策略

發(fā)布時間:2021-06-24 23:40
  針對單目標優(yōu)化算法求解爬蟲問題時難以獲得最優(yōu)加權因子和易于陷入局部最優(yōu)的缺點,將多目標優(yōu)化算法引入主題爬蟲,提出一種基于多目標優(yōu)化的網(wǎng)頁空間進化算法。通過計算測試鏈接與種子鏈接庫中鏈接的最短距離,將其與種子鏈接庫中所有鏈接間的平均距離進行比較來更新種子鏈接庫。針對多目標優(yōu)化中Pareto最優(yōu)解的選取問題,給出一種最近最遠候選解法。實驗結果表明,與寬度優(yōu)先搜索等算法相比,該算法具有較高的爬準率和穩(wěn)定性。 

【文章來源】:計算機工程. 2019,45(02)北大核心CSCD

【文章頁數(shù)】:7 頁

【部分圖文】:

基于網(wǎng)頁空間進化算法的暴雨災害主題爬蟲策略


一個包含13個頂點的鏈接連通示意圖

網(wǎng)頁,主題,數(shù)量比,算法


?差計算公式分別為:Rd=1M∑Mp=1R(p)(18)SD=1M∑Mp=1(R(p)-Rd)槡2(19)3.2結果分析為了對比,本文使用相同的種子鏈接與評價標準,分別測試WSE算法、BFS[6]算法、OPS[7]算法和SA[10]算法。圖2所示為4種算法爬取到主題相關網(wǎng)頁數(shù)量的比較結果。隨著爬取網(wǎng)頁數(shù)量的增加,WSE、OPS和SA3種算法爬取的主題相關網(wǎng)頁的數(shù)量迅速增加,而BFS算法的增速較為緩慢。當爬取網(wǎng)頁的數(shù)量大于6000時,WSE算法優(yōu)于其他3種算法。圖24種算法爬取主題相關網(wǎng)頁數(shù)量比較結果圖3給出4種算法的爬準率比較結果。從圖3可以看出,WSE算法在整個爬行階段具有較高的爬準率,當爬取的網(wǎng)頁數(shù)大于6000時,WSE算法的爬準率高于其他3種算法且逐漸趨于穩(wěn)定。當爬取的網(wǎng)頁數(shù)達到15000時,WSE算法的爬準率接近于78%,SA為71%,OPS為49%,BFS僅在20%~30%之間。圖34種算法爬準率比較結果上述爬蟲結果表明,相比于其他3種算法,WSE算法具有較高的爬準率且不易陷入局部最優(yōu)。BFS算法由于沒有對網(wǎng)頁主題相關度進行預判,因此整體的爬準率較低。OPS算法每次都優(yōu)先下載主題相關度最高的鏈接,爬準率在搜索初期較高,但隨著搜索范圍的擴大,由于其貪心策略,OPS算法在后期會陷入局部最優(yōu)。SA算法其實也是一種貪心算法,但是它在搜索過程中,以一定的概率接受一些主題相關度評分次優(yōu)的鏈接,因此有可能會跳出局部最優(yōu),而其主要缺點是初始溫度及退火速度等參數(shù)難以控制。表2給出4種算法爬取主題相關網(wǎng)頁的平均相關度。當不同算法爬取網(wǎng)頁數(shù)量在5000、10000、15000時,WSE算法的平均相關度均超過77%,而BFS算法、O

比較結果,算法,相關度,網(wǎng)頁


排廊⊥?呈?康腦黽櫻?WSE、OPS和SA3種算法爬取的主題相關網(wǎng)頁的數(shù)量迅速增加,而BFS算法的增速較為緩慢。當爬取網(wǎng)頁的數(shù)量大于6000時,WSE算法優(yōu)于其他3種算法。圖24種算法爬取主題相關網(wǎng)頁數(shù)量比較結果圖3給出4種算法的爬準率比較結果。從圖3可以看出,WSE算法在整個爬行階段具有較高的爬準率,當爬取的網(wǎng)頁數(shù)大于6000時,WSE算法的爬準率高于其他3種算法且逐漸趨于穩(wěn)定。當爬取的網(wǎng)頁數(shù)達到15000時,WSE算法的爬準率接近于78%,SA為71%,OPS為49%,BFS僅在20%~30%之間。圖34種算法爬準率比較結果上述爬蟲結果表明,相比于其他3種算法,WSE算法具有較高的爬準率且不易陷入局部最優(yōu)。BFS算法由于沒有對網(wǎng)頁主題相關度進行預判,因此整體的爬準率較低。OPS算法每次都優(yōu)先下載主題相關度最高的鏈接,爬準率在搜索初期較高,但隨著搜索范圍的擴大,由于其貪心策略,OPS算法在后期會陷入局部最優(yōu)。SA算法其實也是一種貪心算法,但是它在搜索過程中,以一定的概率接受一些主題相關度評分次優(yōu)的鏈接,因此有可能會跳出局部最優(yōu),而其主要缺點是初始溫度及退火速度等參數(shù)難以控制。表2給出4種算法爬取主題相關網(wǎng)頁的平均相關度。當不同算法爬取網(wǎng)頁數(shù)量在5000、10000、15000時,WSE算法的平均相關度均超過77%,而BFS算法、OPS算法和SA算法的平均相關度均保持在73%左右。WSE算法比其他3種主題爬蟲算法在爬取主題相關網(wǎng)頁的平均相關度上明顯要高。圖4給出了4種算法爬取網(wǎng)頁的平均相關度比較。在整個爬蟲搜索過程中,WSE算法始終保持較高的相關度,均優(yōu)于其他算法。當爬取網(wǎng)頁數(shù)達到15000時,WSE算法爬取網(wǎng)頁的平均相關度約為0.71,而SA

【參考文獻】:
期刊論文
[1]結合有監(jiān)督廣度優(yōu)先搜索策略的通用垂直爬蟲方法[J]. 高峰,劉震,高輝.  計算機工程. 2018(11)
[2]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏.  中文信息學報. 2017(05)
[3]基于模擬退火算法的移動通信網(wǎng)絡自規(guī)劃[J]. 張捷,楊希龍.  計算機工程. 2017(05)
[4]基于主題詞權重和句子特征的自動文摘[J]. 蔣昌金,彭宏,陳建超,馬千里.  華南理工大學學報(自然科學版). 2010(07)

碩士論文
[1]基于廣度優(yōu)先的主題爬蟲的設計與實現(xiàn)[D]. 王樺.復旦大學 2011



本文編號:3248044

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3248044.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶dea0f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com