Deep Web數(shù)據(jù)源聚焦爬蟲
發(fā)布時間:2018-11-21 18:28
【摘要】:Internet上有大量頁面是由后臺數(shù)據(jù)庫動態(tài)產(chǎn)生的,這部分頁面不能通過傳統(tǒng)的搜索引擎訪問,被稱為Deep Web。數(shù)據(jù)源發(fā)現(xiàn)是大規(guī)模Deep Web數(shù)據(jù)源集成的關(guān)鍵步驟。該文提出一種針對DeepWeb數(shù)據(jù)源的聚焦爬行算法。在評價鏈接重要性時,綜合考慮了頁面與主題的相關(guān)性和鏈接相關(guān)信息。實(shí)驗(yàn)證明該方法是有效的。
[Abstract]:A large number of pages on Internet are dynamically generated by backstage databases that cannot be accessed by traditional search engines and are known as Deep Web. Data source discovery is a key step in large scale Deep Web data source integration. This paper presents a focused crawling algorithm for DeepWeb data sources. In evaluating the importance of links, the relevance of the page to the topic and link-related information are taken into account. Experiments show that the method is effective.
【作者單位】: 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60673092) 2005年度教育部科研基金資助重點(diǎn)項(xiàng)目(205059) 教育部高校博士學(xué)科點(diǎn)科研基金資助項(xiàng)目(20040285016) 江蘇省高技術(shù)研究計劃基金資助項(xiàng)目(BG2005019)
【分類號】:TP393.09
本文編號:2347898
[Abstract]:A large number of pages on Internet are dynamically generated by backstage databases that cannot be accessed by traditional search engines and are known as Deep Web. Data source discovery is a key step in large scale Deep Web data source integration. This paper presents a focused crawling algorithm for DeepWeb data sources. In evaluating the importance of links, the relevance of the page to the topic and link-related information are taken into account. Experiments show that the method is effective.
【作者單位】: 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所 蘇州大學(xué)智能信息處理及應(yīng)用研究所
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60673092) 2005年度教育部科研基金資助重點(diǎn)項(xiàng)目(205059) 教育部高校博士學(xué)科點(diǎn)科研基金資助項(xiàng)目(20040285016) 江蘇省高技術(shù)研究計劃基金資助項(xiàng)目(BG2005019)
【分類號】:TP393.09
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前4條
1 劉忠;基于強(qiáng)化學(xué)習(xí)的垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D];蘇州大學(xué);2008年
2 劉喜亮;面向主題的網(wǎng)絡(luò)爬蟲設(shè)計與實(shí)現(xiàn)[D];湖南大學(xué);2009年
3 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn)[D];北京交通大學(xué);2012年
4 王旭;互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)中聚焦爬蟲的設(shè)計與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
,本文編號:2347898
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2347898.html
最近更新
教材專著