分布式微博信息采集平臺的設(shè)計與實(shí)現(xiàn)
發(fā)布時間:2017-08-19 10:12
本文關(guān)鍵詞:分布式微博信息采集平臺的設(shè)計與實(shí)現(xiàn)
更多相關(guān)文章: 分布式 可用性 數(shù)據(jù)采集 數(shù)據(jù)解析 XQuery模板
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡(luò)和移動網(wǎng)絡(luò)的高速發(fā)展,對于海量數(shù)據(jù)的收集、分析、應(yīng)用和預(yù)測已經(jīng)成為各個領(lǐng)域的研究熱點(diǎn)。目前,對海量數(shù)據(jù)的采集主要是整個網(wǎng)絡(luò)范圍的采集,比如各種搜索引擎,或者是單機(jī)模式的采集,這樣的數(shù)據(jù)采集方案沒有針對性或者性能較差。因此,分布式的垂直采集方案由此產(chǎn)生。 本文設(shè)計并實(shí)現(xiàn)了基于分布式模型的微博數(shù)據(jù)采集系統(tǒng)。數(shù)據(jù)采集采用模擬瀏覽器登陸后抓取頁面以及解析頁面的設(shè)計方案,考慮到可擴(kuò)展性,系統(tǒng)架構(gòu)采用Master/Slave的分布式模型。整個系統(tǒng)包括控制節(jié)點(diǎn)和工作節(jié)點(diǎn)兩大部分。1)控制節(jié)點(diǎn)負(fù)責(zé)任務(wù)調(diào)度、任務(wù)狀態(tài)檢測和爬取數(shù)據(jù)的存儲,其中任務(wù)調(diào)度模塊采用基于優(yōu)先級的FIFO算法實(shí)現(xiàn),任務(wù)狀態(tài)通過周期性的心跳機(jī)制檢測,而數(shù)據(jù)存儲采用批量數(shù)據(jù)存儲方案。2)工作節(jié)點(diǎn)主要負(fù)責(zé)任務(wù)執(zhí)行、任務(wù)狀態(tài)匯報和任務(wù)申請。任務(wù)執(zhí)行使用HTTPClient工具進(jìn)行頁面數(shù)據(jù)抓取,然后使用XQuery模板對目標(biāo)數(shù)據(jù)進(jìn)行解析。任務(wù)狀態(tài)匯報基于工作節(jié)點(diǎn)周期性地向控制節(jié)點(diǎn)匯報本地任務(wù)的執(zhí)行狀態(tài)信息,便于控制節(jié)點(diǎn)對全局的管理。而任務(wù)申請模塊采用線程池飽和運(yùn)行策略決定任務(wù)申請個數(shù)。 經(jīng)過功能測試之后本系統(tǒng)現(xiàn)在已經(jīng)能夠正常穩(wěn)定運(yùn)行,在性能方面還有待提升,之后還需要在一些設(shè)計和實(shí)現(xiàn)方面做出有效調(diào)整和改進(jìn),,使其能夠更加穩(wěn)定高效地工作。
【關(guān)鍵詞】:分布式 可用性 數(shù)據(jù)采集 數(shù)據(jù)解析 XQuery模板
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-6
- 目錄6-8
- 1 緒論8-11
- 1.1 研究背景與意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9
- 1.3 項(xiàng)目來源及研究內(nèi)容9-10
- 1.4 論文結(jié)構(gòu)10-11
- 2 相關(guān)技術(shù)簡介11-17
- 2.1 分布式系統(tǒng)概述11
- 2.2 分布式系統(tǒng)間通信11-13
- 2.3 網(wǎng)頁抓取與解析技術(shù)13-16
- 2.4 本章小結(jié)16-17
- 3 信息采集平臺分析與設(shè)計17-30
- 3.1 信息采集平臺需求分析17-18
- 3.2 信息采集平臺框架設(shè)計18-19
- 3.3 分布式平臺模塊設(shè)計19-27
- 3.4 數(shù)據(jù)庫設(shè)計27-29
- 3.5 本章小結(jié)29-30
- 4 實(shí)現(xiàn)與測試30-53
- 4.1 控制節(jié)點(diǎn)實(shí)現(xiàn)30-39
- 4.2 工作節(jié)點(diǎn)實(shí)現(xiàn)39-47
- 4.3 信息采集平臺測試與應(yīng)用47-52
- 4.4 本章小結(jié)52-53
- 5 總結(jié)與展望53-55
- 5.1 論文工作總結(jié)53
- 5.2 系統(tǒng)展望53-55
- 致謝55-56
- 參考文獻(xiàn)56-57
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 楊公平,曾廣周,盧朝霞;移動Agent系統(tǒng)中的排隊機(jī)制研究[J];計算機(jī)學(xué)報;2005年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 李寧;基于HDFS的小文件存儲模型研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
2 范欣欣;分布式微博信息采集平臺的設(shè)計與實(shí)現(xiàn)[D];華中科技大學(xué);2014年
本文編號:700126
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/700126.html
最近更新
教材專著