天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式元搜索數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2018-04-19 09:58

  本文選題:信息爆炸 + 爬蟲技術; 參考:《華中科技大學》2014年碩士論文


【摘要】:網(wǎng)絡媒體的普及,提供了越來越多的信息發(fā)布平臺。每天,各色各樣的網(wǎng)站都在源源不斷地制造新的內(nèi)容,這些內(nèi)容通過網(wǎng)絡的形式在人群中四處傳播。信息產(chǎn)生的速度已經(jīng)遠遠超過人們消費它的速度。由此帶來的結(jié)果是,信息無處不在,但是人們卻缺乏一種行之有效的收集方式,大量數(shù)據(jù)并未被加以利用而浪費掉。這種信息四處泛濫而人們卻無法有效獲取到自己需要信息的矛盾將長期存在著。慶幸的是,爬蟲技術的出現(xiàn)和搜索引擎的普及,可以極大地緩解這類矛盾。 本文研究與實現(xiàn)的是一套分布式的元搜索數(shù)據(jù)采集系統(tǒng)。它的目標在于快速大量地獲取到涉及產(chǎn)品質(zhì)量安全的網(wǎng)絡信息,從而為進行質(zhì)量安全的預警與監(jiān)控提供數(shù)據(jù)分析的基礎。它基于Master/Slave的主從分布式架構(gòu),主控節(jié)點與采集節(jié)點有著不同的分工:主控節(jié)點主要負責抓取任務的定義與調(diào)度管理,采集節(jié)點負責網(wǎng)頁數(shù)據(jù)的請求與獲取。節(jié)點間通過網(wǎng)絡通信進行數(shù)據(jù)的交換,主控節(jié)點將定義好的任務按照一定的調(diào)度策略分配給不同的采集節(jié)點,采集節(jié)點收到分配的任務之后,,啟動爬蟲程序下載網(wǎng)頁,然后通過XQuery模板對獲得的網(wǎng)頁進行解析,再將結(jié)構(gòu)化信息統(tǒng)一保存于HBase數(shù)據(jù)庫中。同時,采集節(jié)點會對自己的運行狀態(tài)進行統(tǒng)計,并提供外部接口給主控節(jié)點進行調(diào)用,從而實現(xiàn)對下載行為的控制。考慮到網(wǎng)頁數(shù)據(jù)的分散性以及抓取成本的控制,本文提出采用元搜索技術手段,將現(xiàn)有的主流搜索引擎的數(shù)據(jù)作為本次數(shù)據(jù)抓取的入口,通過綜合不同引擎的數(shù)據(jù),為用戶提供更全面更有針對性的數(shù)據(jù)。 本文最后完成系統(tǒng)的搭建與部署,整個程序運行穩(wěn)定,通過一些實驗對系統(tǒng)的功能特性以及數(shù)據(jù)采集情況進行測試,并對結(jié)果進行了分析,從而驗證了系統(tǒng)的可行性,同時對系統(tǒng)存在的不足提出改進建議。
[Abstract]:With the popularity of network media, more and more information publishing platforms are provided.Every day, a wide variety of websites create new content that spreads through the Internet.Information has been generated much faster than people consume it.As a result, information is everywhere, but people lack an effective way to collect it, and a lot of data is not used and wasted.This kind of information flooding and people can not effectively access to their own information will exist for a long time.Fortunately, the emergence of crawler technology and the popularity of search engines, can greatly alleviate such contradictions.This paper studies and implements a distributed meta-search data acquisition system.Its goal is to obtain network information about product quality and safety quickly and in large quantities, thus providing the basis of data analysis for early warning and monitoring of quality and safety.It is based on the master-slave distributed architecture of Master/Slave. The master node and the acquisition node have different division of labor: the master node is mainly responsible for the definition and scheduling management of the grab task, and the acquisition node is responsible for the request and acquisition of the web page data.The main control node distributes the defined tasks to different collection nodes according to a certain scheduling strategy. After receiving the assigned task, the acquisition node starts the crawler program to download the web page.Then the web pages are parsed by XQuery template, and the structured information is stored in the HBase database.At the same time, the collection node will count its own running state, and provide external interface to the main control node to call, so as to control the download behavior.Considering the dispersion of web page data and the cost control of crawling, this paper proposes to use meta-search technology to use the existing mainstream search engine data as the entry point of this data capture, by synthesizing the data of different engines.Provide users with more comprehensive and targeted data.Finally, the system is constructed and deployed, and the whole program runs stably. The functional characteristics and data acquisition of the system are tested through some experiments, and the results are analyzed to verify the feasibility of the system.At the same time, some suggestions to improve the system are put forward.
【學位授予單位】:華中科技大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP274.2;TP391.3

【相似文獻】

相關期刊論文 前10條

1 陳勃紅;壓頻轉(zhuǎn)換式數(shù)據(jù)采集系統(tǒng)[J];沈陽大學學報;2003年04期

2 賈湘楠;施工數(shù)據(jù)采集系統(tǒng)在跨海大橋建設中的應用[J];石家莊鐵道學院學報;2005年S1期

3 趙俊紅,瞿中;數(shù)據(jù)采集系統(tǒng)的計數(shù)邏輯研究[J];計算機工程與設計;2005年02期

4 郭亮;葉海華;吉海彥;;大氣探測器數(shù)據(jù)采集系統(tǒng)的開發(fā)[J];微計算機信息;2006年13期

5 陳睿;王歡;李炳法;文揚;;煙草制造行業(yè)中的數(shù)據(jù)采集系統(tǒng)[J];計算機應用;2007年S1期

6 孫漢明;董靜薇;李欣;;掌形識別數(shù)據(jù)采集系統(tǒng)介紹[J];電子產(chǎn)品世界;2007年11期

7 儲躍偉;姚曉東;;汽車電動空調(diào)的數(shù)據(jù)采集系統(tǒng)的研究[J];微計算機信息;2009年26期

8 黃志一;周園春;常青玲;沈志宏;侯元生;閻保平;;可定制移動數(shù)據(jù)采集系統(tǒng)的研究和實現(xiàn)[J];計算機系統(tǒng)應用;2009年11期

9 彭敏;;基于嵌入式的數(shù)據(jù)采集系統(tǒng)設計[J];信息技術;2010年09期

10 王永志;林燕;李忠軍;;全國礦業(yè)權實地核查屬性數(shù)據(jù)采集系統(tǒng)[J];國土資源情報;2010年10期

相關會議論文 前10條

1 劉力強;馬瑾;雷興林;;多通道、高速聲發(fā)射數(shù)據(jù)采集系統(tǒng)[A];第四屆全國構(gòu)造物理、第二屆全國高溫高壓聯(lián)合學術討論會論文摘要[C];1989年

2 嚴宗睿;陸勤夫;陳勇;;基于智能設備的海軍演習數(shù)據(jù)采集系統(tǒng)[A];2008年中國高校通信類院系學術研討會論文集(下冊)[C];2009年

3 武東升;郭達永;;卷接包車間數(shù)據(jù)采集系統(tǒng)現(xiàn)狀發(fā)展方向和應用的研究[A];河南省煙草學會2008年學術交流獲獎論文集(上)[C];2008年

4 張文棟;董海峰;;微型爆破緩沖抗高過載數(shù)據(jù)采集系統(tǒng)設計[A];新世紀 新機遇 新挑戰(zhàn)——知識創(chuàng)新和高新技術產(chǎn)業(yè)發(fā)展(上冊)[C];2001年

5 馮莉;曹寧翔;梁川;;基于以太網(wǎng)的示波器數(shù)據(jù)采集系統(tǒng)[A];中國儀器儀表學會第十一屆青年學術會議論文集[C];2009年

6 袁晴晴;周皓峰;陳宇達;施伯樂;;一個基于系統(tǒng)重建思想的數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)[A];第十八屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2001年

7 柴春生;;線性擬合在數(shù)據(jù)采集系統(tǒng)中的應用[A];2011航空試驗測試技術學術交流會論文集[C];2010年

8 袁學文;謝川林;高學燕;季云松;關有光;何均章;傅淑珍;周山;;384單元強快靶高集成度數(shù)據(jù)采集系統(tǒng)的設計與研制[A];中國工程物理研究院科技年報(2003)[C];2003年

9 王萬東;張偉;王洋;;出租車稅務數(shù)據(jù)采集系統(tǒng)在稅收征管工作中的應用[A];第十八屆中國(天津)’2004IT、網(wǎng)絡、信息技術、電子、儀器儀表創(chuàng)新學術會議論文集[C];2004年

10 李萬昌;王翔;黎源;;數(shù)據(jù)采集系統(tǒng)的構(gòu)建及軟件編制[A];2004全國測控、計量與儀器儀表學術年會論文集(下冊)[C];2004年

相關重要報紙文章 前10條

1 王志田邋通訊員 唐皖君;數(shù)據(jù)采集系統(tǒng)在大慶采八全面啟用[N];中國石油報;2007年

2 記者 鄭欣;福建移動 水文數(shù)據(jù)采集系統(tǒng)服務防旱[N];人民郵電;2009年

3 魯總;山東總隊啟用農(nóng)價手持數(shù)據(jù)采集系統(tǒng)[N];中國信息報;2012年

4 王戰(zhàn)芹;中鋼邢機自行研制“高速數(shù)據(jù)采集系統(tǒng)”[N];世界金屬導報;2008年

5 曹改英 曹紅茜;PDA雨量數(shù)據(jù)采集系統(tǒng)的研制及應用[N];黃河報;2008年

6 焦克強;邢鋼開發(fā)線材軋制生產(chǎn)線DCS數(shù)據(jù)采集系統(tǒng)[N];中國冶金報;2007年

7 ;iPAQ條碼數(shù)據(jù)采集系統(tǒng)[N];計算機世界;2002年

8 記者 陳青 何曉龍;西儀總廠井間地震裝備研制取得突破 井下多級數(shù)據(jù)采集系統(tǒng)使用效果顯著[N];中國石油報;2002年

9 記者 程瑞云 通訊員 陸陽;通鋼能源網(wǎng)絡系統(tǒng)實現(xiàn)預定功能目標[N];中國冶金報;2007年

10 北京 蔡德聰 孫宇瑞;BS2系列微功耗數(shù)據(jù)采集系統(tǒng)[N];電子報;2001年

相關博士學位論文 前4條

1 田楷云;地球物理勘探設備中數(shù)據(jù)采集部分若干關鍵技術研究[D];中國科學技術大學;2015年

2 向冬;基于CC的工業(yè)數(shù)據(jù)采集系統(tǒng)開發(fā)方法研究[D];西北工業(yè)大學;2006年

3 趙志剛;大面積高分辨率數(shù)字X射線探測器關鍵技術的研究[D];華中科技大學;2010年

4 劉列峰;一種可擴展的大規(guī)模地球物理勘探數(shù)據(jù)采集系統(tǒng)研究[D];中國科學技術大學;2014年

相關碩士學位論文 前10條

1 范昊;小型水質(zhì)數(shù)據(jù)采集系統(tǒng)及改進的kNN預警算法研究[D];浙江大學;2015年

2 候彬彬;存儲式井下數(shù)據(jù)采集系統(tǒng)設計[D];西安石油大學;2015年

3 付敏;基于分布式光纖振動傳感的采集系統(tǒng)分析[D];復旦大學;2014年

4 聶小偉;基于ARM與GPRS的油煙機數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)[D];華中師范大學;2015年

5 王s

本文編號:1772622


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1772622.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶8e0a8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com