Deep Web數(shù)據(jù)源聚焦爬蟲(chóng)

發(fā)布時(shí)間：2018-11-21 18:28

【摘要】：Internet上有大量頁(yè)面是由后臺(tái)數(shù)據(jù)庫(kù)動(dòng)態(tài)產(chǎn)生的,這部分頁(yè)面不能通過(guò)傳統(tǒng)的搜索引擎訪問(wèn),被稱為Deep Web。數(shù)據(jù)源發(fā)現(xiàn)是大規(guī)模Deep Web數(shù)據(jù)源集成的關(guān)鍵步驟。該文提出一種針對(duì)DeepWeb數(shù)據(jù)源的聚焦爬行算法。在評(píng)價(jià)鏈接重要性時(shí),綜合考慮了頁(yè)面與主題的相關(guān)性和鏈接相關(guān)信息。實(shí)驗(yàn)證明該方法是有效的。
[Abstract]:A large number of pages on Internet are dynamically generated by backstage databases that cannot be accessed by traditional search engines and are known as Deep Web. Data source discovery is a key step in large scale Deep Web data source integration. This paper presents a focused crawling algorithm for DeepWeb data sources. In evaluating the importance of links, the relevance of the page to the topic and link-related information are taken into account. Experiments show that the method is effective.
【作者單位】：蘇州大學(xué)智能信息處理及應(yīng)用研究所蘇州大學(xué)智能信息處理及應(yīng)用研究所蘇州大學(xué)智能信息處理及應(yīng)用研究所
【基金】：國(guó)家自然科學(xué)基金資助項(xiàng)目(60673092) 2005年度教育部科研基金資助重點(diǎn)項(xiàng)目(205059) 教育部高校博士學(xué)科點(diǎn)科研基金資助項(xiàng)目(20040285016) 江蘇省高技術(shù)研究計(jì)劃基金資助項(xiàng)目(BG2005019)
【分類號(hào)】：TP393.09

【相似文獻(xiàn)】

相關(guān)碩士學(xué)位論文前4條

1 劉忠;基于強(qiáng)化學(xué)習(xí)的垂直搜索引擎網(wǎng)絡(luò)爬蟲(chóng)的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2008年

2 劉喜亮;面向主題的網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2009年

3 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲(chóng)算法的優(yōu)化和實(shí)現(xiàn)[D];北京交通大學(xué);2012年

4 王旭;互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年

，

本文編號(hào)：2347898

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2347898.html

上一篇：使用搜索引擎的負(fù)面效果
下一篇：“大數(shù)據(jù)”背景下的計(jì)算機(jī)信息處理技術(shù)分析

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Deep Web數(shù)據(jù)源聚焦爬蟲(chóng)