基于最優(yōu)查詢的多領域deep Web爬蟲
發(fā)布時間:2018-03-17 17:36
本文選題:deep 切入點:Web 出處:《計算機應用研究》2009年09期 論文類型:期刊論文
【摘要】:Deep Web信息通過在網(wǎng)頁搜索接口提交查詢詞獲得。通用搜索引擎使用超鏈接爬取網(wǎng)頁,無法索引deep Web數(shù)據(jù)。為解決此問題,介紹一種基于最優(yōu)查詢的deep Web爬蟲,通過從聚類網(wǎng)頁中生成最優(yōu)查詢,自動提交查詢,最后索引查詢結(jié)果。實驗表明系統(tǒng)能自動、高效地完成多領域deep Web數(shù)據(jù)爬取。
[Abstract]:Deep Web information is obtained by submitting query words in the web search interface. Universal search engines use hyperlinks to crawl web pages and cannot index deep Web data. In order to solve this problem, a deep Web crawler based on optimal query is introduced. By generating the optimal query from the clustering web page, submitting the query automatically, and finally indexing the query results, the experiment shows that the system can automatically and efficiently crawl the multi-domain deep Web data.
【作者單位】: 浙江大學計算機科學與技術(shù)學院;
【基金】:浙江省科技計劃基金資助項目(2007C23086)
【分類號】:TP393.092
,
本文編號:1625775
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1625775.html
最近更新
教材專著