基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型

發(fā)布時間：2017-06-28 04:18

本文關鍵詞：基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型，由筆耕文化傳播整理發(fā)布。

【摘要】：聚焦網絡爬蟲的兩大重要目標就是尋找主題相關的網頁,并優(yōu)先下載主題相關度高的網頁。首先,讀取并分析網頁的有效HTML元素,并根據高準確率來預測和抽取每個未被訪問的網頁的主題內容。然后,根據T-Graph來計算URLs的主題相關度,并按照相關度大小進行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實驗得到了較高的查準率和查全率,因此,該算法具有重要的意義。
【作者單位】：南京航空航天大學;
【關鍵詞】： 聚焦網絡爬蟲 T-Graph HTML元素 信息檢索 搜索引擎
【分類號】：TP391.3
【正文快照】： 0引言網絡爬蟲的主要任務是從Web上獲取網頁文檔,并為這些數據創(chuàng)建索引,索引的更新是通過分布式爬行實現(xiàn)的。傳統(tǒng)的網絡爬蟲并不能輕松地擴展爬行,因為Web是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據特定的主題目標建立正確的索引,索引庫因此也得不到及時的更新。為了解決這

本文關鍵詞：基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型，由筆耕文化傳播整理發(fā)布。

，

本文編號：492519

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/492519.html

上一篇：競價排名商標案裁判方法的反思——從兩起百度案談起
下一篇：大數據環(huán)境下海洋文化領域本體的建模研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型