基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型
發(fā)布時間:2017-06-28 04:18
本文關鍵詞:基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。
【摘要】:聚焦網絡爬蟲的兩大重要目標就是尋找主題相關的網頁,并優(yōu)先下載主題相關度高的網頁。首先,讀取并分析網頁的有效HTML元素,并根據高準確率來預測和抽取每個未被訪問的網頁的主題內容。然后,根據T-Graph來計算URLs的主題相關度,并按照相關度大小進行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實驗得到了較高的查準率和查全率,因此,該算法具有重要的意義。
【作者單位】: 南京航空航天大學;
【關鍵詞】: 聚焦網絡爬蟲 T-Graph HTML元素 信息檢索 搜索引擎
【分類號】:TP391.3
【正文快照】: 0引言網絡爬蟲的主要任務是從Web上獲取網頁文檔,并為這些數據創(chuàng)建索引,索引的更新是通過分布式爬行實現(xiàn)的。傳統(tǒng)的網絡爬蟲并不能輕松地擴展爬行,因為Web是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據特定的主題目標建立正確的索引,索引庫因此也得不到及時的更新。為了解決這
本文關鍵詞:基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。
,本文編號:492519
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/492519.html
教材專著