天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型

發(fā)布時間:2017-06-28 04:18

  本文關鍵詞:基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。


【摘要】:聚焦網絡爬蟲的兩大重要目標就是尋找主題相關的網頁,并優(yōu)先下載主題相關度高的網頁。首先,讀取并分析網頁的有效HTML元素,并根據高準確率來預測和抽取每個未被訪問的網頁的主題內容。然后,根據T-Graph來計算URLs的主題相關度,并按照相關度大小進行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實驗得到了較高的查準率和查全率,因此,該算法具有重要的意義。
【作者單位】: 南京航空航天大學;
【關鍵詞】聚焦網絡爬蟲 T-Graph HTML元素 信息檢索 搜索引擎
【分類號】:TP391.3
【正文快照】: 0引言網絡爬蟲的主要任務是從Web上獲取網頁文檔,并為這些數據創(chuàng)建索引,索引的更新是通過分布式爬行實現(xiàn)的。傳統(tǒng)的網絡爬蟲并不能輕松地擴展爬行,因為Web是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據特定的主題目標建立正確的索引,索引庫因此也得不到及時的更新。為了解決這

  本文關鍵詞:基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。



本文編號:492519

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/492519.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶11e60***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com