天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 物流管理論文 >

基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)

發(fā)布時間:2018-06-24 16:04

  本文選題:Storm + 實時計算。 參考:《上海交通大學》2015年碩士論文


【摘要】:以Storm、Spark等為代表的實時計算技術是目前大數(shù)據(jù)處理領域的一個研究熱點。本文以實驗室承擔的某省交通物流云計算平臺建設項目為背景,該平臺包括基于批處理的大數(shù)據(jù)分析服務和基于流式計算系統(tǒng)Storm所構建的實時數(shù)據(jù)處理服務。然而,Storm在實際應用中仍然存在一些問題:例如,默認調度器所采用的輪詢分配策略將導致工作節(jié)點間出現(xiàn)負載不均衡;同時默認調度器單一的調度策略不能滿足靈活多變的業(yè)務需求;而Nimbus控制節(jié)點存在的單點失效問題,容易導致Storm集群中出現(xiàn)任務提交、分配的失敗。針對上述問題,本文通過分析交通物流云計算平臺中實時數(shù)據(jù)處理的需求,在研究流式計算系統(tǒng)Storm和相關技術的基礎上,設計并實現(xiàn)了一個基于Storm的大數(shù)據(jù)實時分析系統(tǒng)。該系統(tǒng)為物流企業(yè)的Saa S應用提供實時的數(shù)據(jù)分析處理服務,并解決了Storm中默認調度器工作節(jié)點任務分配不均勻、調度策略單一和Nimbus控制節(jié)點單點失效的問題。測試及應用的情況表明,該系統(tǒng)是可行且有效的。與同類型的系統(tǒng)相比,本文工作具有以下特點:1)為了提高系統(tǒng)的性能,針對Storm中默認調度器工作節(jié)點任務分配不均勻、調度策略單一等問題,提出了基于節(jié)點資源監(jiān)控的RBS(Resource Based Schedule)任務調度算法和支持單節(jié)點的SNS(Single Node Schedule)任務調度算法。并在RBS算法和SNS算法的基礎上,設計并實現(xiàn)了相應的Topology任務調度器。實驗情況表明,基于RBS算法的任務調度器可根據(jù)工作節(jié)點資源的使用情況,將工作進程調度到資源利用率較低的節(jié)點上;而基于SNS算法的調度器可將一些只執(zhí)行簡單運算并且沒有太多中間狀態(tài)的Topology的多個工作進程調度到一個單一的物理節(jié)點上運行。2)為了提高系統(tǒng)的可用性,針對Storm中控制節(jié)點的單點失效問題提出了解決方案。該方案通過Zookeeper協(xié)調服務實現(xiàn)主控制節(jié)點選舉和主從控制節(jié)點之間的狀態(tài)同步。實驗表明,由三個節(jié)點組成的控制節(jié)點集群,當主控制節(jié)點宕機時,某個從控制節(jié)點能夠順利選為主節(jié)點,保證Topology任務可不中斷地運行。3)在上述工作的基礎上,設計并實現(xiàn)了一個基于Storm的實時大數(shù)據(jù)分析系統(tǒng),為物流企業(yè)的Saas應用提供實時的大數(shù)據(jù)分析服務。該系統(tǒng)包括流計算應用開發(fā)環(huán)境和流計算應用運行環(huán)境。流計算應用運行環(huán)境包括:基于Storm的流計算應用任務運行環(huán)境,包括:輸入流組件、基于Ganglia監(jiān)控服務的Topology任務調度器、基于Zookeeper協(xié)調服務的控制節(jié)點集群協(xié)調器、持久化輸出組件;流計算應用的數(shù)據(jù)輸入/輸出服務運行環(huán)境,包括:數(shù)據(jù)采集與預處理器、Kafka中間件、No SQL數(shù)據(jù)庫;應用開發(fā)環(huán)境包括集成開發(fā)工具、測試工具和部署工具:集成開發(fā)工具以Eclipse為基礎,為應用開發(fā)人員提供數(shù)據(jù)采集與預處理器API庫、輸入流組件API庫、持久化輸出組件API庫等;測試工具在封裝單機版storm基礎上,為流計算應用提供模擬運行環(huán)境。
[Abstract]:The real-time computing technology represented by Storm, Spark and so on is a research hotspot in the field of large data processing. This paper is based on the construction project of a provincial traffic logistics cloud computing platform, which includes batch processing based large data analysis service and real-time data processing based on flow computing system Storm. However, there are still some problems in the practical application of Storm: for example, the polling allocation strategy used by the default scheduler will lead to a load imbalance between the work nodes; at the same time, the default scheduler single scheduling strategy can not meet the flexible business needs; and the single point failure problem existing in the Nimbus control node is easy. In view of the problems mentioned above, this paper designs and implements a real-time analysis system of large data based on Storm based on the analysis of the demand of real-time data processing in the traffic logistics cloud computing platform, based on the analysis of the requirements of the real-time data processing in the traffic logistics cloud computing platform. This system is a logistics enterprise for the logistics enterprise. The system is based on the Storm based real-time analysis system for the logistics enterprises. The Saa S application provides real-time data analysis and processing services, and solves the problem of uneven assignment of task nodes in the default scheduler, single scheduling strategy and single point failure of Nimbus control nodes in Storm. The test and application show that the system is feasible and effective. Compared with the same type system, the work has a good performance. Characteristics: 1) in order to improve the performance of the system, the task scheduling algorithm based on RBS (Resource Based Schedule) based on node resource monitoring and SNS (Single Node Schedule) task scheduling algorithm based on node resource monitoring is proposed in order to improve the performance of the default scheduler work node in Storm, and the SNS (Single Node Schedule) task scheduling algorithm supporting single node is proposed. And RBS algorithm and SNS. On the basis of the algorithm, the corresponding Topology task scheduler is designed and implemented. The experiment shows that the task scheduler based on the RBS algorithm can schedule the working process to a node with lower resource utilization according to the usage of the working node resources; and the SNS algorithm based regulator can only perform simple operations and do not. In order to improve the availability of the Topology, a solution to the single point failure of the control nodes in Storm is proposed in order to improve the availability of the system. This scheme implements the state of the main control node election and the state of the master slave nodes through the Zookeeper coordination service. The experiment shows that the control node cluster consists of three nodes. When the main control node is down, one of the nodes can choose the main node from the control node and the Topology task can run.3 without interruption. On the basis of the above work, a real-time large data analysis system based on Storm is designed and implemented, which is the Saa of the logistics enterprise. The s application provides real-time large data analysis services. The system includes the flow computing application development environment and the flow computing application running environment. The flow computing application running environment includes the Storm based flow computing application task running environment, including the input stream components, the Topology task scheduler based on the Ganglia monitoring service, and the Zookeeper coordination suit. Control node cluster coordinator, persistent output component; data input / output service running environment for flow computing applications, including data acquisition and preprocessor, Kafka middleware, No SQL database; application development environment including integrated development tools, test tools and department tools: integrated development tools are based on Eclipse and are applied to applications The server provides a data collection and preprocessor API library, an input stream component API library, a persistent output component API library, etc. the test tool provides an analog running environment for streaming computing applications on the basis of a package single version of storm.
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.52

【相似文獻】

相關期刊論文 前10條

1 李磊;;黑龍江郵政數(shù)據(jù)分析系統(tǒng)研究[J];林業(yè)科技情報;2011年04期

2 陳起榕;陳新亮;曹世彪;;一種新的數(shù)據(jù)分析系統(tǒng)前端展示方案[J];郵電設計技術;2012年10期

3 孟慶超;李永亮;;智能數(shù)據(jù)分析系統(tǒng)研究[J];現(xiàn)代商貿工業(yè);2008年11期

4 郭靜;;鋼鐵企業(yè)能源數(shù)據(jù)分析系統(tǒng)的構建[J];昆明理工大學學報(理工版);2009年05期

5 哈文雷;;基于云計算的油田數(shù)據(jù)分析系統(tǒng)[J];中國新技術新產(chǎn)品;2013年17期

6 黃麗麗;陳華輝;;博客數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[J];寧波大學學報(理工版);2008年03期

7 田月潔;焦波;謝金洲;;中藥不良反應數(shù)據(jù)分析系統(tǒng)的設計與應用[J];中國藥物警戒;2007年04期

8 毛蘭斌;;基于機電結構檢測的可靠性數(shù)據(jù)分析系統(tǒng)設計[J];中國高新技術企業(yè);2008年08期

9 毛羽芳;王銳明;;天津市工商行政管理局數(shù)據(jù)分析系統(tǒng)的建設[J];信息系統(tǒng)工程;2010年07期

10 章璐;;人民幣跨境結算業(yè)務數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[J];中國金融電腦;2013年01期

相關會議論文 前7條

1 顧紅生;;淺談汽車行業(yè)競品數(shù)據(jù)分析系統(tǒng)解決方案[A];第八屆中國汽車設計與研發(fā)高峰論壇論文集[C];2013年

2 辛建峰;辛陽;;數(shù)據(jù)分析系統(tǒng)中的自定義量度方案設計實現(xiàn)[A];2011年通信與信息技術新進展——第八屆中國通信學會學術年會論文集[C];2011年

3 尚屹;朱琦;;國家持久性有機污染物數(shù)據(jù)分析系統(tǒng)研究[A];2008中國環(huán)境科學學會學術年會優(yōu)秀論文集(下卷)[C];2008年

4 鄭慧娟;周嘉元;李斌;;水電站生產(chǎn)數(shù)據(jù)分析系統(tǒng)及其現(xiàn)場應用[A];中國水力發(fā)電工程學會信息化專委會2010年學術交流會論文集[C];2010年

5 張永忠;趙靜;;基于事件檢測算法的交通數(shù)據(jù)分析系統(tǒng)[A];2008全國第十三屆自動化應用技術學術交流會論文集[C];2008年

6 王治國;王薇;訾凱;任鵬;;臨床檢驗方法確認與性能驗證數(shù)據(jù)分析系統(tǒng)(MVS)的開發(fā)與應用[A];中華醫(yī)學會第九次全國檢驗醫(yī)學學術會議暨中國醫(yī)院協(xié)會臨床檢驗管理專業(yè)委員會第六屆全國臨床檢驗實驗室管理學術會議論文匯編[C];2011年

7 董剛;孫建林;譚耘宇;;建立梅鋼熱軋數(shù)據(jù)分析系統(tǒng)[A];自動化技術與冶金流程節(jié)能減排——全國冶金自動化信息網(wǎng)2008年會論文集[C];2008年

相關重要報紙文章 前8條

1 記者 劉慧敏;開發(fā)區(qū)一企業(yè)研發(fā)成功“消費行為數(shù)據(jù)分析系統(tǒng)”[N];寧波日報;2009年

2 別志銘;基于云的大數(shù)據(jù)分析系統(tǒng)[N];網(wǎng)絡世界;2013年

3 袁毅;蘇州:數(shù)據(jù)分析系統(tǒng)精準問診城市交通[N];人民公安報·交通安全周刊;2011年

4 紹興職業(yè)技術學院 沈華峰 寧波大學信息科學與工程學院 朱雙東;基于可縮放矢量圖形數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[N];中國計算機報;2010年

5 記者 董科;轉型客戶服務 打造全新競爭力[N];期貨日報;2010年

6 江蘇省淮安市漣水地稅局 周躍 黃呂勝 童政;應完善稅收數(shù)據(jù)分析系統(tǒng)提升使用效能[N];中國稅務報;2013年

7 陶利軍;路橋當好企業(yè)經(jīng)濟分析師[N];中國工商報;2007年

8 本報記者 鞏國強;汛潮的“賣點”[N];山西經(jīng)濟日報;2004年

相關碩士學位論文 前10條

1 夷臻;學生事務數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D];蘇州大學;2015年

2 李永秋;智能化體檢數(shù)據(jù)分析系統(tǒng)設計與實現(xiàn)[D];山東大學;2014年

3 翟羽佳;萊蕪供電公司經(jīng)營數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D];山東大學;2015年

4 張磊磊;高考錄取數(shù)據(jù)分析系統(tǒng)前端界面模塊的設計與實現(xiàn)[D];山東大學;2015年

5 韓繼軍;金卡科技公司業(yè)務數(shù)據(jù)分析系統(tǒng)設計與實現(xiàn)[D];大連理工大學;2015年

6 張志祥;某數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2015年

7 龍少杭;基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D];上海交通大學;2015年

8 馮偉;基于云計算的海量數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D];上海交通大學;2012年

9 王浩;內蒙聯(lián)通公司基礎數(shù)字數(shù)據(jù)分析系統(tǒng)的設計與開發(fā)[D];復旦大學;2011年

10 周曉敏;鋼鐵企業(yè)化驗報告數(shù)據(jù)分析系統(tǒng)[D];電子科技大學;2011年

,

本文編號:2062087

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/wuliuguanlilunwen/2062087.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶8fb5f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com