基于關(guān)鍵詞相關(guān)度的Deep Web爬蟲(chóng)爬行策略

發(fā)布時(shí)間：2019-07-25 15:30

【摘要】：Deep Web蘊(yùn)藏豐富的、高質(zhì)量的信息資源,為了獲取某Deep Web站點(diǎn)的頁(yè)面,用戶(hù)不得不鍵入一系列的關(guān)鍵詞集。由于沒(méi)有直接指向Deep Web頁(yè)面的靜態(tài)鏈接,目前大多數(shù)搜索引擎不能發(fā)現(xiàn)這些頁(yè)面。該文提出的Deep Web爬蟲(chóng)爬行策略,可以有效地下載Deep Web頁(yè)面。由于該頁(yè)面只提供一個(gè)查詢(xún)接口,因此Deep Web爬蟲(chóng)設(shè)計(jì)面對(duì)的主要挑戰(zhàn)是怎樣選擇最佳的查詢(xún)關(guān)鍵詞產(chǎn)生有意義的查詢(xún)。實(shí)驗(yàn)證明文中提出的一種基于不同關(guān)鍵詞相關(guān)度權(quán)重的選擇方法是有效的。
[Abstract]:Deep Web contains rich and high quality information resources. In order to obtain the page of a Deep Web site, users have to type a series of keyword sets. Most search engines are currently unable to find Deep Web pages because there are no static links to them. The Deep Web crawler crawling strategy proposed in this paper can effectively download Deep Web pages. Because the page provides only one query interface, the main challenge for Deep Web crawler design is how to select the best query keywords to generate meaningful queries. The experimental results show that the proposed method is effective based on the correlation weight of different keywords.
【作者單位】：上海理工大學(xué)計(jì)算機(jī)工程學(xué)院;
【分類(lèi)號(hào)】：TP393.09

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期

2 潘春華,馮太明,武港山;基于移動(dòng)爬蟲(chóng)的專(zhuān)用Web信息收集系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2003年36期

3 齊冬梅,杜亞軍,李戰(zhàn)勝;個(gè)性化智能搜索引擎爬行蟲(chóng)算法[J];計(jì)算機(jī)應(yīng)用;2004年S2期

4 嚴(yán)亞蘭,查先進(jìn);Web網(wǎng)頁(yè)并行爬行研究[J];計(jì)算機(jī)應(yīng)用研究;2005年04期

5 邵斐;孫濟(jì)慶;;一種適用于動(dòng)態(tài)網(wǎng)頁(yè)的網(wǎng)絡(luò)蜘蛛爬行策略研究[J];情報(bào)雜志;2007年05期

6 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲(chóng)效率瓶頸的分析與解決方案[J];計(jì)算機(jī)應(yīng)用;2008年05期

7 田野;丁岳偉;;基于關(guān)鍵詞相關(guān)度的Deep Web爬蟲(chóng)爬行策略[J];計(jì)算機(jī)工程;2008年15期

8 劉朋;林泓;高德威;;基于內(nèi)容和鏈接分析的主題爬蟲(chóng)策略[J];計(jì)算機(jī)與數(shù)字工程;2009年01期

9 黃莉;王成良;楊錚;;面向主題網(wǎng)絡(luò)爬行的智能隧道穿越算法研究[J];計(jì)算機(jī)應(yīng)用研究;2009年08期

10 黃聰會(huì);張水平;胡洋;;主題Deep Web爬蟲(chóng)框架研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年05期

相關(guān)碩士學(xué)位論文前3條

1 唐志;主題Web信息采集與分析技術(shù)研究[D];重慶大學(xué);2006年

2 姚忠存;錨文本增量主題爬行[D];吉林大學(xué);2007年

3 陳叢叢;主題爬蟲(chóng)搜索策略研究[D];山東大學(xué);2009年

，

本文編號(hào)：2519178

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2519178.html

上一篇：檢索調(diào)研環(huán)境自適應(yīng)抓取算法的研究與實(shí)現(xiàn)
下一篇：AM真菌與紫穗槐形成叢枝菌根過(guò)程中差異蛋白質(zhì)圖譜庫(kù)的構(gòu)建

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于關(guān)鍵詞相關(guān)度的Deep Web爬蟲(chóng)爬行策略