天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種針對Deep Web深層數(shù)據(jù)獲取的網(wǎng)絡爬蟲設計與實現(xiàn)

發(fā)布時間:2018-04-14 19:27

  本文選題:網(wǎng)絡爬蟲 + Deep; 參考:《華中師范大學》2013年碩士論文


【摘要】:當今的信息時代,互聯(lián)網(wǎng)中的信息不斷快速增長,存儲數(shù)據(jù)非常容易,但是想從中找到有用的信息卻越來越難。通用搜索引擎的出現(xiàn)為這一問題提供了解決方案。 網(wǎng)絡中有一部分數(shù)據(jù)信息是存放在各網(wǎng)站站點數(shù)據(jù)庫中的,這部分數(shù)據(jù)信息不能通過網(wǎng)頁中的鏈接直接獲取,而需要用戶手動填寫網(wǎng)站查詢表單,提交查詢命令才能訪問,這些數(shù)據(jù)被稱為Deep Web數(shù)據(jù)。Deep Web數(shù)據(jù)與其他網(wǎng)站靜態(tài)頁面中提供的信息相比,專業(yè)性更強,數(shù)據(jù)量更大,對用戶而言,更具利用有價值。通用搜索引擎在進行網(wǎng)絡信息爬取時,無法爬取到Deep Web數(shù)據(jù),這對搜索引擎用戶而言,能夠獲得的有價值的信息有限。 E時代辛亥革命搜索引擎是一個為辛亥革命歷史事件的研究者提供檢索服務的垂直搜素引擎,網(wǎng)絡爬蟲子系統(tǒng)的研制就是該引擎必須解決的關(guān)鍵系統(tǒng)之一。本文在通用搜索引擎的基礎上,通過對Deep Web數(shù)據(jù)結(jié)構(gòu)特點進行分析,針對Deep Web數(shù)據(jù)源的檢測和獲取提供了一套實現(xiàn)方案,解決了其中2個主要問題,即: 1.對Deep Web數(shù)據(jù)查詢接口的節(jié)點特征進行分析,建立節(jié)點特征庫。網(wǎng)絡爬蟲在獲取到新的頁面時,利用節(jié)點特征庫比對當前網(wǎng)頁的節(jié)點特征,尋找當前網(wǎng)頁中包含Deep Web數(shù)據(jù)源的可能性,以此實現(xiàn)爬蟲進行數(shù)據(jù)爬取時,自動發(fā)現(xiàn)Deep Web數(shù)據(jù)并將相關(guān)信息記錄至文件中。 2.爬蟲能夠讀取Deep Web文件,拼裝Deep Web數(shù)據(jù)源的查詢請求,獲取站點返回信息;通過頁面相似度的計算,為查詢結(jié)果頁面尋找一個“同類網(wǎng)頁”;通過對查詢結(jié)果頁面和其“同類網(wǎng)頁”進行結(jié)構(gòu)特征分析,從查詢結(jié)果頁面中提取出查詢結(jié)果鏈接和分頁鏈接,舍棄導航鏈接和廣告鏈接等。 研究和實驗表明,Deep Web數(shù)據(jù)源的檢測和獲取模型能夠比較好地發(fā)現(xiàn)站點頁面的查詢接口,較為準確地抽取Deep Web查詢結(jié)果。
[Abstract]:In today's information age, the information in the Internet is growing rapidly, storing data is very easy, but finding useful information from it is more and more difficult. The emergence of general search engine provides a solution for this problem.
The network has a portion of the data is stored in the web site information in the database, this part of the data can not be obtained directly through the web page of the link, and require the user to manually fill in Web query form, submit query commands can be accessed, compared these data is called the information provided by the Deep Web.Deep data Web data and other static website in the page, more professional, more large amount of data, for users, more use value. The general search engine in web crawling, unable to take up Deep Web data, the search engine users, can obtain the valuable information.
The era of the E revolution is a search engine on the 1911 Revolution of historical events to provide search services in vertical search engine, one of the key system of network system is the development of climbing worm engine must be solved. In this paper, the general search engine, based on the structural characteristics of the Deep Web Deep Web for data analysis. The data source detection and acquisition provides a set of implementation scheme, solve 2 key problems, i.e.:
1. of the Deep Web query interface node feature analysis, set up the node feature database. Web crawler in access to the new page, using the node feature library than node features of the current web page, looking for the possibility of containing the Deep Web data source in the web page, so as to realize the crawler crawling, automatic discovery of Deep Web the data and relevant information will be recorded to a file.
2. crawlers can read the Deep Web file, assembled Deep Web data source query, access to the site to return information; by calculating the similarity to the query results page, page for a "similar" "; through the pages of search results and the" similar "to the analysis of structure features, extracted from the query results page query the link and paging link, abandon navigation links and advertising links.
Research and experiments show that the detection and acquisition model of Deep Web data source can find the query interface of site pages better, and extract the results of Deep Web more accurately.

【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前3條

1 王英;左祥麟;左萬利;王鑫;;基于本體的Deep Web查詢接口集成[J];計算機研究與發(fā)展;2012年11期

2 趙悅陽;崔雷;;HITS算法在文本聚類結(jié)果類別描述中的應用嘗試[J];情報理論與實踐;2013年03期

3 趙朋朋;崔志明;高嶺;仲華;;關(guān)于中國Deep Web的規(guī)模、分布和結(jié)構(gòu)[J];小型微型計算機系統(tǒng);2007年10期

相關(guān)博士學位論文 前1條

1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復旦大學;2008年

相關(guān)碩士學位論文 前8條

1 張仲祥;基于領(lǐng)域本體的Deep Web數(shù)據(jù)源聚焦技術(shù)研究[D];廣西師范大學;2011年

2 彭正非;面向汽車行業(yè)的主題爬蟲研究與實現(xiàn)[D];華中科技大學;2011年

3 黃雋毅;關(guān)于Web數(shù)據(jù)挖掘中HITS算法的研究[D];大連理工大學;2004年

4 蔣超;面向人物簡介的主題爬蟲設計與實現(xiàn)[D];吉林大學;2012年

5 趙海澎;基于高斯核及PageRank的復雜網(wǎng)絡社區(qū)發(fā)現(xiàn)算法研究[D];大連理工大學;2012年

6 李雯鑫;基于領(lǐng)域本體的Deep Web接口集成與查詢轉(zhuǎn)換研究[D];遼寧大學;2012年

7 謝月;網(wǎng)頁排序中PageRank算法和HITS算法的研究[D];電子科技大學;2012年

8 李道申;基于本體的Deep Web數(shù)據(jù)集成方法研究[D];河南科技大學;2012年

,

本文編號:1750690

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1750690.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ebcc0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
亚洲精品国产精品日韩| 国产精品成人一区二区三区夜夜夜| 中文字幕日韩欧美亚洲午夜 | 护士又紧又深又湿又爽的视频| 好吊妞视频免费在线观看| 少妇人妻精品一区二区三区| 蜜桃传媒视频麻豆第一区| 日本欧美一区二区三区在线播| 99久久精品午夜一区二| 欧美有码黄片免费在线视频| 九九热视频经典在线观看| 成人午夜在线视频观看| 亚洲一区二区三区四区| 色综合久久中文综合网| 色偷偷亚洲女人天堂观看| 97人摸人人澡人人人超碰| 精品人妻一区二区三区四区久久| 成年人黄片大全在线观看| 偷拍偷窥女厕一区二区视频| 亚洲精品一二三区不卡| 国产欧美日韩精品成人专区| 91日韩在线视频观看| 欧美激情视频一区二区三区| 欧美六区视频在线观看| 在线懂色一区二区三区精品| 夫妻性生活黄色录像视频| 国产精品免费福利在线| 九九视频通过这里有精品| 中文字幕日韩无套内射| 九九久久精品久久久精品| 日本精品视频一二三区| 日韩精品在线观看完整版| 日本理论片午夜在线观看| 日本午夜免费福利视频| 乱女午夜精品一区二区三区| 中文字日产幕码三区国产| 91国自产精品中文字幕亚洲| 99视频精品免费视频播放| 国产人妻精品区一区二区三区| 国产亚洲精品香蕉视频播放| 国产精品涩涩成人一区二区三区|