天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型

發(fā)布時(shí)間:2017-06-28 04:18

  本文關(guān)鍵詞:基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。


【摘要】:聚焦網(wǎng)絡(luò)爬蟲的兩大重要目標(biāo)就是尋找主題相關(guān)的網(wǎng)頁(yè),并優(yōu)先下載主題相關(guān)度高的網(wǎng)頁(yè)。首先,讀取并分析網(wǎng)頁(yè)的有效HTML元素,并根據(jù)高準(zhǔn)確率來預(yù)測(cè)和抽取每個(gè)未被訪問的網(wǎng)頁(yè)的主題內(nèi)容。然后,根據(jù)T-Graph來計(jì)算URLs的主題相關(guān)度,并按照相關(guān)度大小進(jìn)行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實(shí)驗(yàn)得到了較高的查準(zhǔn)率和查全率,因此,該算法具有重要的意義。
【作者單位】: 南京航空航天大學(xué);
【關(guān)鍵詞】聚焦網(wǎng)絡(luò)爬蟲 T-Graph HTML元素 信息檢索 搜索引擎
【分類號(hào)】:TP391.3
【正文快照】: 0引言網(wǎng)絡(luò)爬蟲的主要任務(wù)是從Web上獲取網(wǎng)頁(yè)文檔,并為這些數(shù)據(jù)創(chuàng)建索引,索引的更新是通過分布式爬行實(shí)現(xiàn)的。傳統(tǒng)的網(wǎng)絡(luò)爬蟲并不能輕松地?cái)U(kuò)展爬行,因?yàn)閃eb是不受人為控制的。而且,傳統(tǒng)的爬蟲也不能根據(jù)特定的主題目標(biāo)建立正確的索引,索引庫(kù)因此也得不到及時(shí)的更新。為了解決這

  本文關(guān)鍵詞:基于T-Graph算法的鏈接和內(nèi)容相結(jié)合的聚焦爬蟲模型,由筆耕文化傳播整理發(fā)布。



本文編號(hào):492519

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/492519.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11e60***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com