基于關(guān)鍵詞相關(guān)度的Deep Web爬蟲爬行策略
[Abstract]:Deep Web contains rich and high quality information resources. In order to obtain the page of a Deep Web site, users have to type a series of keyword sets. Most search engines are currently unable to find Deep Web pages because there are no static links to them. The Deep Web crawler crawling strategy proposed in this paper can effectively download Deep Web pages. Because the page provides only one query interface, the main challenge for Deep Web crawler design is how to select the best query keywords to generate meaningful queries. The experimental results show that the proposed method is effective based on the correlation weight of different keywords.
【作者單位】: 上海理工大學(xué)計(jì)算機(jī)工程學(xué)院;
【分類號】:TP393.09
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報(bào);2002年S1期
2 潘春華,馮太明,武港山;基于移動爬蟲的專用Web信息收集系統(tǒng)的設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2003年36期
3 齊冬梅,杜亞軍,李戰(zhàn)勝;個性化智能搜索引擎爬行蟲算法[J];計(jì)算機(jī)應(yīng)用;2004年S2期
4 嚴(yán)亞蘭,查先進(jìn);Web網(wǎng)頁并行爬行研究[J];計(jì)算機(jī)應(yīng)用研究;2005年04期
5 邵斐;孫濟(jì)慶;;一種適用于動態(tài)網(wǎng)頁的網(wǎng)絡(luò)蜘蛛爬行策略研究[J];情報(bào)雜志;2007年05期
6 尹江;尹治本;黃洪;;網(wǎng)絡(luò)爬蟲效率瓶頸的分析與解決方案[J];計(jì)算機(jī)應(yīng)用;2008年05期
7 田野;丁岳偉;;基于關(guān)鍵詞相關(guān)度的Deep Web爬蟲爬行策略[J];計(jì)算機(jī)工程;2008年15期
8 劉朋;林泓;高德威;;基于內(nèi)容和鏈接分析的主題爬蟲策略[J];計(jì)算機(jī)與數(shù)字工程;2009年01期
9 黃莉;王成良;楊錚;;面向主題網(wǎng)絡(luò)爬行的智能隧道穿越算法研究[J];計(jì)算機(jī)應(yīng)用研究;2009年08期
10 黃聰會;張水平;胡洋;;主題Deep Web爬蟲框架研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年05期
相關(guān)碩士學(xué)位論文 前3條
1 唐志;主題Web信息采集與分析技術(shù)研究[D];重慶大學(xué);2006年
2 姚忠存;錨文本增量主題爬行[D];吉林大學(xué);2007年
3 陳叢叢;主題爬蟲搜索策略研究[D];山東大學(xué);2009年
,本文編號:2519178
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2519178.html