分布式數(shù)據(jù)采集分析系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2021-01-20 19:25
隨著互聯(lián)網(wǎng)+時代的到來,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)爆炸式地增長,而越來越多有價值的網(wǎng)絡(luò)數(shù)據(jù)信息卻無法被傳統(tǒng)的搜索引擎實時獲取到,例如:電商商品訂單數(shù)量、商品評價信息、OTA酒店間夜信息以及微博評論信息等。而這些未被收錄到傳統(tǒng)搜索引擎的數(shù)據(jù)信息對于現(xiàn)代企業(yè)的投資決策以及科研機構(gòu)的社會科學方向的研究卻有著巨大的意義和價值。在傳統(tǒng)搜索引擎已經(jīng)無法滿足現(xiàn)代企業(yè)、科研機構(gòu)甚至個人投資者對網(wǎng)絡(luò)數(shù)據(jù)的全面性、及時性、個性化的需求的背景下,如何高效獲取互聯(lián)網(wǎng)熱點信息以及如何分析處理這些差異化、精細化的數(shù)據(jù)已成為一種迫切的需求。針對上述問題,本文設(shè)計并實現(xiàn)了一種分布式數(shù)據(jù)采集分析系統(tǒng)。該系統(tǒng)以虛擬化技術(shù)提供底層虛擬服務器支持,其上搭建基于Storm和Hadoop的大數(shù)據(jù)處理平臺,作為數(shù)據(jù)采集分析的系統(tǒng)處理架構(gòu)。其中,在實時分布式處理平臺Storm中,設(shè)計并實現(xiàn)了模塊化的數(shù)據(jù)采集功能單元:URL構(gòu)建模塊、反爬策略調(diào)度模塊、數(shù)據(jù)標記與解析模塊以及數(shù)據(jù)格式化模塊,此功能單元為互聯(lián)網(wǎng)數(shù)據(jù)采集處理前端;以NoSQL型數(shù)據(jù)庫(HBase和Redis)作為數(shù)據(jù)庫中間件,連接后端數(shù)據(jù)分析處理平臺;后端數(shù)據(jù)分析處理平臺Hadoop以數(shù)...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
工作空間
如圖 4.2 所示為工程列表功能頁面,主要負責網(wǎng)站項目添加,服務啟動時間設(shè)置以及項目運行前提條件選擇等功能。圖4.2 工程列表工程列表功能頁面參數(shù)介紹,如表 4.2 工程列表參數(shù)所示。表4.2 工程列表參數(shù)參數(shù) 功能wid 所屬的工作空間 Idpid 項目 IDname 項目名字description 項目描述datasource 項目啟動連接 redis 的數(shù)據(jù)庫名稱schedule 服務定時啟動時間選擇precondition 項目運行的前提條件選擇操作 刪除此條配置信息如圖 4.3 所示為任務列表功能頁面,主要負責任務 ID 添加,項目名稱添加,URL信息生成配置,是否自動生成 URL、URL 是否參與循環(huán)和是否使用代理等數(shù)據(jù)采集相關(guān)的配置信息。此處關(guān)于反爬策略模塊的可配置選項,只有“是否使用 IP 代理”可以進行參數(shù)選擇,其他的三種反爬方式均為自動開啟狀態(tài)無需在配置界面中進行手動配置。這樣設(shè)計和實現(xiàn)的原因是,實際測試過程中發(fā)現(xiàn),通過 IP 代理請求網(wǎng)頁并爬取數(shù)據(jù)的過程中
第四章 分布式數(shù)據(jù)采集分析系統(tǒng)詳細設(shè)計與實現(xiàn)23圖4.3 任務列表任務列表功能頁面參數(shù)介紹,如表 4.3 任務列表參數(shù)所示。表4.3 任務列表參數(shù)參數(shù) 功能wid 任務所屬的工作空間 IDpid 任務所屬的項目 IDtid 任務 IDname 任務名稱description 任務描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否參與循環(huán)proxy_open 是否使用代理請求操作 刪除此條配置信息如圖 4.4 所示為數(shù)據(jù)列表功能頁面,主要負責存儲數(shù)據(jù)庫選擇,存儲在 HBase 中的行健參數(shù),數(shù)據(jù)處理方式和循環(huán)任務 ID 選擇等功能。圖4.4 數(shù)據(jù)列表
【參考文獻】:
期刊論文
[1]基于電力大數(shù)據(jù)的多維聚合技術(shù)研究[J]. 張莉娜,吳偉,程旭明,胡勇. 數(shù)字技術(shù)與應用. 2017(08)
[2]大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析[J]. 陳付梅,韓德志,畢坤,戴永濤. 計算機應用. 2017(03)
[3]網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究[J]. 鄒科文,李達,鄧婷敏,李嘉振,陳義明. 電腦知識與技術(shù). 2016(07)
[4]Web垂直搜索引擎實現(xiàn)過程的研究[J]. 張弘弦,田玉玲. 現(xiàn)代電子技術(shù). 2016(08)
[5]互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J]. 李海艦,田躍新,李文杰. 中國工業(yè)經(jīng)濟. 2014(10)
[6]數(shù)字資源Web應用服務器的失效檢測[J]. 佘靜濤,王醒宇. 計算機系統(tǒng)應用. 2014(07)
[7]node-webkit:HTML5桌面應用運行環(huán)境[J]. 王文睿. 程序員. 2014 (01)
[8]移動云服務的數(shù)據(jù)安全與隱私保護綜述[J]. 李瑞軒,董新華,辜希武,周灣灣,王聰. 通信學報. 2013(12)
[9]正則表達式在Web信息抽取中的應用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學學報(自然科學版). 2011(06)
[10]NoSQL非關(guān)系型數(shù)據(jù)庫的發(fā)展及應用初探[J]. 黃賢立. 福建電腦. 2010(07)
碩士論文
[1]基于實時數(shù)據(jù)流處理的http數(shù)據(jù)分析可視化系統(tǒng)[D]. 潘冬.電子科技大學 2016
[2]基于微信公眾平臺的照片沖印系統(tǒng)開發(fā)[D]. 孫朝陽.西安電子科技大學 2016
[3]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 田丹.北京交通大學 2015
[4]山東大學輿情分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 姜朋.山東大學 2015
[5]一種基于Storm和Mongodb的分布式實時日志數(shù)據(jù)存儲與處理系統(tǒng)的設(shè)計與實現(xiàn)及應用[D]. 曾明宇.浙江大學 2015
[6]基于Storm云平臺的地圖道路匹配算法研究[D]. 朱炳宇.云南大學 2013
[7]云計算研究及Hadoop應用程序的開發(fā)與測試[D]. 施巖.北京郵電大學 2011
[8]數(shù)據(jù)挖掘技術(shù)在煤礦安全生產(chǎn)管理信息系統(tǒng)中的研究與應用[D]. 程韋.北方工業(yè)大學 2009
[9]基于中文信息檢索的文本預處理研究[D]. 何金鳳.電子科技大學 2008
本文編號:2989638
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
工作空間
如圖 4.2 所示為工程列表功能頁面,主要負責網(wǎng)站項目添加,服務啟動時間設(shè)置以及項目運行前提條件選擇等功能。圖4.2 工程列表工程列表功能頁面參數(shù)介紹,如表 4.2 工程列表參數(shù)所示。表4.2 工程列表參數(shù)參數(shù) 功能wid 所屬的工作空間 Idpid 項目 IDname 項目名字description 項目描述datasource 項目啟動連接 redis 的數(shù)據(jù)庫名稱schedule 服務定時啟動時間選擇precondition 項目運行的前提條件選擇操作 刪除此條配置信息如圖 4.3 所示為任務列表功能頁面,主要負責任務 ID 添加,項目名稱添加,URL信息生成配置,是否自動生成 URL、URL 是否參與循環(huán)和是否使用代理等數(shù)據(jù)采集相關(guān)的配置信息。此處關(guān)于反爬策略模塊的可配置選項,只有“是否使用 IP 代理”可以進行參數(shù)選擇,其他的三種反爬方式均為自動開啟狀態(tài)無需在配置界面中進行手動配置。這樣設(shè)計和實現(xiàn)的原因是,實際測試過程中發(fā)現(xiàn),通過 IP 代理請求網(wǎng)頁并爬取數(shù)據(jù)的過程中
第四章 分布式數(shù)據(jù)采集分析系統(tǒng)詳細設(shè)計與實現(xiàn)23圖4.3 任務列表任務列表功能頁面參數(shù)介紹,如表 4.3 任務列表參數(shù)所示。表4.3 任務列表參數(shù)參數(shù) 功能wid 任務所屬的工作空間 IDpid 任務所屬的項目 IDtid 任務 IDname 任務名稱description 任務描述urlpattern URL 配置urlgenerate 是否生成 URLisloop URL 是否參與循環(huán)proxy_open 是否使用代理請求操作 刪除此條配置信息如圖 4.4 所示為數(shù)據(jù)列表功能頁面,主要負責存儲數(shù)據(jù)庫選擇,存儲在 HBase 中的行健參數(shù),數(shù)據(jù)處理方式和循環(huán)任務 ID 選擇等功能。圖4.4 數(shù)據(jù)列表
【參考文獻】:
期刊論文
[1]基于電力大數(shù)據(jù)的多維聚合技術(shù)研究[J]. 張莉娜,吳偉,程旭明,胡勇. 數(shù)字技術(shù)與應用. 2017(08)
[2]大數(shù)據(jù)環(huán)境下的分布式數(shù)據(jù)流處理關(guān)鍵技術(shù)探析[J]. 陳付梅,韓德志,畢坤,戴永濤. 計算機應用. 2017(03)
[3]網(wǎng)絡(luò)爬蟲針對“反爬”網(wǎng)站的爬取策略研究[J]. 鄒科文,李達,鄧婷敏,李嘉振,陳義明. 電腦知識與技術(shù). 2016(07)
[4]Web垂直搜索引擎實現(xiàn)過程的研究[J]. 張弘弦,田玉玲. 現(xiàn)代電子技術(shù). 2016(08)
[5]互聯(lián)網(wǎng)思維與傳統(tǒng)企業(yè)再造[J]. 李海艦,田躍新,李文杰. 中國工業(yè)經(jīng)濟. 2014(10)
[6]數(shù)字資源Web應用服務器的失效檢測[J]. 佘靜濤,王醒宇. 計算機系統(tǒng)應用. 2014(07)
[7]node-webkit:HTML5桌面應用運行環(huán)境[J]. 王文睿. 程序員. 2014 (01)
[8]移動云服務的數(shù)據(jù)安全與隱私保護綜述[J]. 李瑞軒,董新華,辜希武,周灣灣,王聰. 通信學報. 2013(12)
[9]正則表達式在Web信息抽取中的應用[J]. 胡軍偉,秦奕青,張偉. 北京信息科技大學學報(自然科學版). 2011(06)
[10]NoSQL非關(guān)系型數(shù)據(jù)庫的發(fā)展及應用初探[J]. 黃賢立. 福建電腦. 2010(07)
碩士論文
[1]基于實時數(shù)據(jù)流處理的http數(shù)據(jù)分析可視化系統(tǒng)[D]. 潘冬.電子科技大學 2016
[2]基于微信公眾平臺的照片沖印系統(tǒng)開發(fā)[D]. 孫朝陽.西安電子科技大學 2016
[3]網(wǎng)站文本數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 田丹.北京交通大學 2015
[4]山東大學輿情分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 姜朋.山東大學 2015
[5]一種基于Storm和Mongodb的分布式實時日志數(shù)據(jù)存儲與處理系統(tǒng)的設(shè)計與實現(xiàn)及應用[D]. 曾明宇.浙江大學 2015
[6]基于Storm云平臺的地圖道路匹配算法研究[D]. 朱炳宇.云南大學 2013
[7]云計算研究及Hadoop應用程序的開發(fā)與測試[D]. 施巖.北京郵電大學 2011
[8]數(shù)據(jù)挖掘技術(shù)在煤礦安全生產(chǎn)管理信息系統(tǒng)中的研究與應用[D]. 程韋.北方工業(yè)大學 2009
[9]基于中文信息檢索的文本預處理研究[D]. 何金鳳.電子科技大學 2008
本文編號:2989638
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2989638.html
最近更新
教材專著