基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型
發(fā)布時(shí)間:2017-06-28 04:18
本文關(guān)鍵詞:基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。
【摘要】:聚焦網(wǎng)絡(luò)爬蟲的兩大重要目標(biāo)就是尋找主題相關(guān)的網(wǎng)頁(yè),并優(yōu)先下載主題相關(guān)度高的網(wǎng)頁(yè)。首先,讀取并分析網(wǎng)頁(yè)的有效HTML元素,并根據(jù)高準(zhǔn)確率來預(yù)測(cè)和抽取每個(gè)未被訪問的網(wǎng)頁(yè)的主題內(nèi)容。然后,根據(jù)T-Graph來計(jì)算URLs的主題相關(guān)度,并按照相關(guān)度大小進(jìn)行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實(shí)驗(yàn)得到了較高的查準(zhǔn)率和查全率,因此,該算法具有重要的意義。
【作者單位】: 南京航空航天大學(xué);
【關(guān)鍵詞】: 聚焦網(wǎng)絡(luò)爬蟲 T-Graph HTML元素 信息檢索 搜索引擎
【分類號(hào)】:TP391.3
【正文快照】: 0引言網(wǎng)絡(luò)爬蟲的主要任務(wù)是從Web上獲取網(wǎng)頁(yè)文檔,并為這些數(shù)據(jù)創(chuàng)建索引,索引的更新是通過分布式爬行實(shí)現(xiàn)的。傳統(tǒng)的網(wǎng)絡(luò)爬蟲并不能輕松地?cái)U(kuò)展爬行,因?yàn)閃eb是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據(jù)特定的主題目標(biāo)建立正確的索引,索引庫(kù)因此也得不到及時(shí)的更新。為了解決這
本文關(guān)鍵詞:基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):492519
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/492519.html
最近更新
教材專著