分布式數(shù)據(jù)采集分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-01-20 19:25
隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式地增長(zhǎng),而越來(lái)越多有價(jià)值的網(wǎng)絡(luò)數(shù)據(jù)信息卻無(wú)法被傳統(tǒng)的搜索引擎實(shí)時(shí)獲取到,例如:電商商品訂單數(shù)量、商品評(píng)價(jià)信息、OTA酒店間夜信息以及微博評(píng)論信息等。而這些未被收錄到傳統(tǒng)搜索引擎的數(shù)據(jù)信息對(duì)于現(xiàn)代企業(yè)的投資決策以及科研機(jī)構(gòu)的社會(huì)科學(xué)方向的研究卻有著巨大的意義和價(jià)值。在傳統(tǒng)搜索引擎已經(jīng)無(wú)法滿足現(xiàn)代企業(yè)、科研機(jī)構(gòu)甚至個(gè)人投資者對(duì)網(wǎng)絡(luò)數(shù)據(jù)的全面性、及時(shí)性、個(gè)性化的需求的背景下,如何高效獲取互聯(lián)網(wǎng)熱點(diǎn)信息以及如何分析處理這些差異化、精細(xì)化的數(shù)據(jù)已成為一種迫切的需求。針對(duì)上述問(wèn)題,本文設(shè)計(jì)并實(shí)現(xiàn)了一種分布式數(shù)據(jù)采集分析系統(tǒng)。該系統(tǒng)以虛擬化技術(shù)提供底層虛擬服務(wù)器支持,其上搭建基于Storm和Hadoop的大數(shù)據(jù)處理平臺(tái),作為數(shù)據(jù)采集分析的系統(tǒng)處理架構(gòu)。其中,在實(shí)時(shí)分布式處理平臺(tái)Storm中,設(shè)計(jì)并實(shí)現(xiàn)了模塊化的數(shù)據(jù)采集功能單元:URL構(gòu)建模塊、反爬策略調(diào)度模塊、數(shù)據(jù)標(biāo)記與解析模塊以及數(shù)據(jù)格式化模塊,此功能單元為互聯(lián)網(wǎng)數(shù)據(jù)采集處理前端;以NoSQL型數(shù)據(jù)庫(kù)(HBase和Redis)作為數(shù)據(jù)庫(kù)中間件,連接后端數(shù)據(jù)分析處理平臺(tái);后端數(shù)據(jù)分析處理平臺(tái)Hadoop以數(shù)...
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
工作空間
如圖 4.2 所示為工程列表功能頁(yè)面,主要負(fù)責(zé)網(wǎng)站項(xiàng)目添加,服務(wù)啟動(dòng)時(shí)間設(shè)置以及項(xiàng)目運(yùn)行前提條件選擇等功能。圖4.2 工程列表工程列表功能頁(yè)面參數(shù)介紹,如表 4.2 工程列表參數(shù)所示。表4.2 工程列表參數(shù)參數(shù) 功能wid 所屬的工作空間 Idpid 項(xiàng)目 IDname 項(xiàng)目名字description 項(xiàng)目描述datasource 項(xiàng)目啟動(dòng)連接 redis 的數(shù)據(jù)庫(kù)名稱schedule 服務(wù)定時(shí)啟動(dòng)時(shí)間選擇precondition 項(xiàng)目運(yùn)行的前提條件選擇操作 刪除此條配置信息如圖 4.3 所示為任務(wù)列表功能頁(yè)面,主要負(fù)責(zé)任務(wù) ID 添加,項(xiàng)目名稱添加,URL信息生成配置,是否自動(dòng)生成 URL、URL 是否參與循環(huán)和是否使用代理等數(shù)據(jù)采集相關(guān)的配置信息。此處關(guān)于反爬策略模塊的可配置選項(xiàng),只有“是否使用 IP 代理”可以進(jìn)行參數(shù)選擇,其他的三種反爬方式均為自動(dòng)開啟狀態(tài)無(wú)需在配置界面中進(jìn)行手動(dòng)配置。這樣設(shè)計(jì)和實(shí)現(xiàn)的原因是,實(shí)際測(cè)試過(guò)程中發(fā)現(xiàn),通過(guò) IP 代理請(qǐng)求網(wǎng)頁(yè)并爬取數(shù)據(jù)的過(guò)程中
第四章 分布式數(shù)據(jù)采集分析系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)23圖4.3 任務(wù)列表任務(wù)列表功能頁(yè)面參數(shù)介紹,如表 4.3 任務(wù)列表參數(shù)所示。表4.3 任務(wù)列表參數(shù)參數(shù) 功能wid 任務(wù)所屬的工作空間 IDpid 任務(wù)所屬的項(xiàng)目 IDtid 任務(wù) IDname 任務(wù)名稱description 任務(wù)描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否參與循環(huán)proxy_open 是否使用代理請(qǐng)求操作 刪除此條配置信息如圖 4.4 所示為數(shù)據(jù)列表功能頁(yè)面,主要負(fù)責(zé)存儲(chǔ)數(shù)據(jù)庫(kù)選擇,存儲(chǔ)在 HBase 中的行健參數(shù),數(shù)據(jù)處理方式和循環(huán)任務(wù) ID 選擇等功能。圖4.4 數(shù)據(jù)列表
【參考文獻(xiàn)】:
期刊論文
[1]基于電力大數(shù)據(jù)的多維聚合技術(shù)研究[J]. 張莉娜,吳偉,程旭明,胡勇. 數(shù)字技術(shù)與應(yīng)用. 2017(08)
[2]大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析[J]. 陳付梅,韓德志,畢坤,戴永濤. 計(jì)算機(jī)應(yīng)用. 2017(03)
[3]網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究[J]. 鄒科文,李達(dá),鄧婷敏,李嘉振,陳義明. 電腦知識(shí)與技術(shù). 2016(07)
[4]Web垂直搜索引擎實(shí)現(xiàn)過(guò)程的研究[J]. 張弘弦,田玉玲. 現(xiàn)代電子技術(shù). 2016(08)
[5]互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J]. 李海艦,田躍新,李文杰. 中國(guó)工業(yè)經(jīng)濟(jì). 2014(10)
[6]數(shù)字資源Web應(yīng)用服務(wù)器的失效檢測(cè)[J]. 佘靜濤,王醒宇. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2014(07)
[7]node-webkit:HTML5桌面應(yīng)用運(yùn)行環(huán)境[J]. 王文睿. 程序員. 2014 (01)
[8]移動(dòng)云服務(wù)的數(shù)據(jù)安全與隱私保護(hù)綜述[J]. 李瑞軒,董新華,辜希武,周灣灣,王聰. 通信學(xué)報(bào). 2013(12)
[9]正則表達(dá)式在Web信息抽取中的應(yīng)用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(06)
[10]NoSQL非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展及應(yīng)用初探[J]. 黃賢立. 福建電腦. 2010(07)
碩士論文
[1]基于實(shí)時(shí)數(shù)據(jù)流處理的http數(shù)據(jù)分析可視化系統(tǒng)[D]. 潘冬.電子科技大學(xué) 2016
[2]基于微信公眾平臺(tái)的照片沖印系統(tǒng)開發(fā)[D]. 孫朝陽(yáng).西安電子科技大學(xué) 2016
[3]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 田丹.北京交通大學(xué) 2015
[4]山東大學(xué)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 姜朋.山東大學(xué) 2015
[5]一種基于Storm和Mongodb的分布式實(shí)時(shí)日志數(shù)據(jù)存儲(chǔ)與處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)及應(yīng)用[D]. 曾明宇.浙江大學(xué) 2015
[6]基于Storm云平臺(tái)的地圖道路匹配算法研究[D]. 朱炳宇.云南大學(xué) 2013
[7]云計(jì)算研究及Hadoop應(yīng)用程序的開發(fā)與測(cè)試[D]. 施巖.北京郵電大學(xué) 2011
[8]數(shù)據(jù)挖掘技術(shù)在煤礦安全生產(chǎn)管理信息系統(tǒng)中的研究與應(yīng)用[D]. 程韋.北方工業(yè)大學(xué) 2009
[9]基于中文信息檢索的文本預(yù)處理研究[D]. 何金鳳.電子科技大學(xué) 2008
本文編號(hào):2989638
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
工作空間
如圖 4.2 所示為工程列表功能頁(yè)面,主要負(fù)責(zé)網(wǎng)站項(xiàng)目添加,服務(wù)啟動(dòng)時(shí)間設(shè)置以及項(xiàng)目運(yùn)行前提條件選擇等功能。圖4.2 工程列表工程列表功能頁(yè)面參數(shù)介紹,如表 4.2 工程列表參數(shù)所示。表4.2 工程列表參數(shù)參數(shù) 功能wid 所屬的工作空間 Idpid 項(xiàng)目 IDname 項(xiàng)目名字description 項(xiàng)目描述datasource 項(xiàng)目啟動(dòng)連接 redis 的數(shù)據(jù)庫(kù)名稱schedule 服務(wù)定時(shí)啟動(dòng)時(shí)間選擇precondition 項(xiàng)目運(yùn)行的前提條件選擇操作 刪除此條配置信息如圖 4.3 所示為任務(wù)列表功能頁(yè)面,主要負(fù)責(zé)任務(wù) ID 添加,項(xiàng)目名稱添加,URL信息生成配置,是否自動(dòng)生成 URL、URL 是否參與循環(huán)和是否使用代理等數(shù)據(jù)采集相關(guān)的配置信息。此處關(guān)于反爬策略模塊的可配置選項(xiàng),只有“是否使用 IP 代理”可以進(jìn)行參數(shù)選擇,其他的三種反爬方式均為自動(dòng)開啟狀態(tài)無(wú)需在配置界面中進(jìn)行手動(dòng)配置。這樣設(shè)計(jì)和實(shí)現(xiàn)的原因是,實(shí)際測(cè)試過(guò)程中發(fā)現(xiàn),通過(guò) IP 代理請(qǐng)求網(wǎng)頁(yè)并爬取數(shù)據(jù)的過(guò)程中
第四章 分布式數(shù)據(jù)采集分析系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)23圖4.3 任務(wù)列表任務(wù)列表功能頁(yè)面參數(shù)介紹,如表 4.3 任務(wù)列表參數(shù)所示。表4.3 任務(wù)列表參數(shù)參數(shù) 功能wid 任務(wù)所屬的工作空間 IDpid 任務(wù)所屬的項(xiàng)目 IDtid 任務(wù) IDname 任務(wù)名稱description 任務(wù)描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否參與循環(huán)proxy_open 是否使用代理請(qǐng)求操作 刪除此條配置信息如圖 4.4 所示為數(shù)據(jù)列表功能頁(yè)面,主要負(fù)責(zé)存儲(chǔ)數(shù)據(jù)庫(kù)選擇,存儲(chǔ)在 HBase 中的行健參數(shù),數(shù)據(jù)處理方式和循環(huán)任務(wù) ID 選擇等功能。圖4.4 數(shù)據(jù)列表
【參考文獻(xiàn)】:
期刊論文
[1]基于電力大數(shù)據(jù)的多維聚合技術(shù)研究[J]. 張莉娜,吳偉,程旭明,胡勇. 數(shù)字技術(shù)與應(yīng)用. 2017(08)
[2]大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析[J]. 陳付梅,韓德志,畢坤,戴永濤. 計(jì)算機(jī)應(yīng)用. 2017(03)
[3]網(wǎng)絡(luò)爬蟲針對(duì)“反爬”網(wǎng)站的爬取策略研究[J]. 鄒科文,李達(dá),鄧婷敏,李嘉振,陳義明. 電腦知識(shí)與技術(shù). 2016(07)
[4]Web垂直搜索引擎實(shí)現(xiàn)過(guò)程的研究[J]. 張弘弦,田玉玲. 現(xiàn)代電子技術(shù). 2016(08)
[5]互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J]. 李海艦,田躍新,李文杰. 中國(guó)工業(yè)經(jīng)濟(jì). 2014(10)
[6]數(shù)字資源Web應(yīng)用服務(wù)器的失效檢測(cè)[J]. 佘靜濤,王醒宇. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2014(07)
[7]node-webkit:HTML5桌面應(yīng)用運(yùn)行環(huán)境[J]. 王文睿. 程序員. 2014 (01)
[8]移動(dòng)云服務(wù)的數(shù)據(jù)安全與隱私保護(hù)綜述[J]. 李瑞軒,董新華,辜希武,周灣灣,王聰. 通信學(xué)報(bào). 2013(12)
[9]正則表達(dá)式在Web信息抽取中的應(yīng)用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(06)
[10]NoSQL非關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展及應(yīng)用初探[J]. 黃賢立. 福建電腦. 2010(07)
碩士論文
[1]基于實(shí)時(shí)數(shù)據(jù)流處理的http數(shù)據(jù)分析可視化系統(tǒng)[D]. 潘冬.電子科技大學(xué) 2016
[2]基于微信公眾平臺(tái)的照片沖印系統(tǒng)開發(fā)[D]. 孫朝陽(yáng).西安電子科技大學(xué) 2016
[3]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 田丹.北京交通大學(xué) 2015
[4]山東大學(xué)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 姜朋.山東大學(xué) 2015
[5]一種基于Storm和Mongodb的分布式實(shí)時(shí)日志數(shù)據(jù)存儲(chǔ)與處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)及應(yīng)用[D]. 曾明宇.浙江大學(xué) 2015
[6]基于Storm云平臺(tái)的地圖道路匹配算法研究[D]. 朱炳宇.云南大學(xué) 2013
[7]云計(jì)算研究及Hadoop應(yīng)用程序的開發(fā)與測(cè)試[D]. 施巖.北京郵電大學(xué) 2011
[8]數(shù)據(jù)挖掘技術(shù)在煤礦安全生產(chǎn)管理信息系統(tǒng)中的研究與應(yīng)用[D]. 程韋.北方工業(yè)大學(xué) 2009
[9]基于中文信息檢索的文本預(yù)處理研究[D]. 何金鳳.電子科技大學(xué) 2008
本文編號(hào):2989638
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2989638.html
最近更新
教材專著