一種針對Deep Web深層數(shù)據(jù)獲取的網(wǎng)絡爬蟲設計與實現(xiàn)
本文選題:網(wǎng)絡爬蟲 + Deep; 參考:《華中師范大學》2013年碩士論文
【摘要】:當今的信息時代,互聯(lián)網(wǎng)中的信息不斷快速增長,存儲數(shù)據(jù)非常容易,但是想從中找到有用的信息卻越來越難。通用搜索引擎的出現(xiàn)為這一問題提供了解決方案。 網(wǎng)絡中有一部分數(shù)據(jù)信息是存放在各網(wǎng)站站點數(shù)據(jù)庫中的,這部分數(shù)據(jù)信息不能通過網(wǎng)頁中的鏈接直接獲取,而需要用戶手動填寫網(wǎng)站查詢表單,提交查詢命令才能訪問,這些數(shù)據(jù)被稱為Deep Web數(shù)據(jù)。Deep Web數(shù)據(jù)與其他網(wǎng)站靜態(tài)頁面中提供的信息相比,專業(yè)性更強,數(shù)據(jù)量更大,對用戶而言,更具利用有價值。通用搜索引擎在進行網(wǎng)絡信息爬取時,無法爬取到Deep Web數(shù)據(jù),這對搜索引擎用戶而言,能夠獲得的有價值的信息有限。 E時代辛亥革命搜索引擎是一個為辛亥革命歷史事件的研究者提供檢索服務的垂直搜素引擎,網(wǎng)絡爬蟲子系統(tǒng)的研制就是該引擎必須解決的關(guān)鍵系統(tǒng)之一。本文在通用搜索引擎的基礎上,通過對Deep Web數(shù)據(jù)結(jié)構(gòu)特點進行分析,針對Deep Web數(shù)據(jù)源的檢測和獲取提供了一套實現(xiàn)方案,解決了其中2個主要問題,即: 1.對Deep Web數(shù)據(jù)查詢接口的節(jié)點特征進行分析,建立節(jié)點特征庫。網(wǎng)絡爬蟲在獲取到新的頁面時,利用節(jié)點特征庫比對當前網(wǎng)頁的節(jié)點特征,尋找當前網(wǎng)頁中包含Deep Web數(shù)據(jù)源的可能性,以此實現(xiàn)爬蟲進行數(shù)據(jù)爬取時,自動發(fā)現(xiàn)Deep Web數(shù)據(jù)并將相關(guān)信息記錄至文件中。 2.爬蟲能夠讀取Deep Web文件,拼裝Deep Web數(shù)據(jù)源的查詢請求,獲取站點返回信息;通過頁面相似度的計算,為查詢結(jié)果頁面尋找一個“同類網(wǎng)頁”;通過對查詢結(jié)果頁面和其“同類網(wǎng)頁”進行結(jié)構(gòu)特征分析,從查詢結(jié)果頁面中提取出查詢結(jié)果鏈接和分頁鏈接,舍棄導航鏈接和廣告鏈接等。 研究和實驗表明,Deep Web數(shù)據(jù)源的檢測和獲取模型能夠比較好地發(fā)現(xiàn)站點頁面的查詢接口,較為準確地抽取Deep Web查詢結(jié)果。
[Abstract]:In today's information age, the information in the Internet is growing rapidly, storing data is very easy, but finding useful information from it is more and more difficult. The emergence of general search engine provides a solution for this problem.
The network has a portion of the data is stored in the web site information in the database, this part of the data can not be obtained directly through the web page of the link, and require the user to manually fill in Web query form, submit query commands can be accessed, compared these data is called the information provided by the Deep Web.Deep data Web data and other static website in the page, more professional, more large amount of data, for users, more use value. The general search engine in web crawling, unable to take up Deep Web data, the search engine users, can obtain the valuable information.
The era of the E revolution is a search engine on the 1911 Revolution of historical events to provide search services in vertical search engine, one of the key system of network system is the development of climbing worm engine must be solved. In this paper, the general search engine, based on the structural characteristics of the Deep Web Deep Web for data analysis. The data source detection and acquisition provides a set of implementation scheme, solve 2 key problems, i.e.:
1. of the Deep Web query interface node feature analysis, set up the node feature database. Web crawler in access to the new page, using the node feature library than node features of the current web page, looking for the possibility of containing the Deep Web data source in the web page, so as to realize the crawler crawling, automatic discovery of Deep Web the data and relevant information will be recorded to a file.
2. crawlers can read the Deep Web file, assembled Deep Web data source query, access to the site to return information; by calculating the similarity to the query results page, page for a "similar" "; through the pages of search results and the" similar "to the analysis of structure features, extracted from the query results page query the link and paging link, abandon navigation links and advertising links.
Research and experiments show that the detection and acquisition model of Deep Web data source can find the query interface of site pages better, and extract the results of Deep Web more accurately.
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前3條
1 王英;左祥麟;左萬利;王鑫;;基于本體的Deep Web查詢接口集成[J];計算機研究與發(fā)展;2012年11期
2 趙悅陽;崔雷;;HITS算法在文本聚類結(jié)果類別描述中的應用嘗試[J];情報理論與實踐;2013年03期
3 趙朋朋;崔志明;高嶺;仲華;;關(guān)于中國Deep Web的規(guī)模、分布和結(jié)構(gòu)[J];小型微型計算機系統(tǒng);2007年10期
相關(guān)博士學位論文 前1條
1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復旦大學;2008年
相關(guān)碩士學位論文 前8條
1 張仲祥;基于領(lǐng)域本體的Deep Web數(shù)據(jù)源聚焦技術(shù)研究[D];廣西師范大學;2011年
2 彭正非;面向汽車行業(yè)的主題爬蟲研究與實現(xiàn)[D];華中科技大學;2011年
3 黃雋毅;關(guān)于Web數(shù)據(jù)挖掘中HITS算法的研究[D];大連理工大學;2004年
4 蔣超;面向人物簡介的主題爬蟲設計與實現(xiàn)[D];吉林大學;2012年
5 趙海澎;基于高斯核及PageRank的復雜網(wǎng)絡社區(qū)發(fā)現(xiàn)算法研究[D];大連理工大學;2012年
6 李雯鑫;基于領(lǐng)域本體的Deep Web接口集成與查詢轉(zhuǎn)換研究[D];遼寧大學;2012年
7 謝月;網(wǎng)頁排序中PageRank算法和HITS算法的研究[D];電子科技大學;2012年
8 李道申;基于本體的Deep Web數(shù)據(jù)集成方法研究[D];河南科技大學;2012年
,本文編號:1750690
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1750690.html