天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

寄遞大數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2018-09-07 10:39
【摘要】:隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,網(wǎng)上購物以其方便、快捷的特點受到越來越多用戶的青睞,隨之帶來寄遞數(shù)據(jù)量的激增。海量的寄遞數(shù)據(jù)給企業(yè)帶來了新的挑戰(zhàn)。企業(yè)傳統(tǒng)的分析系統(tǒng)是將數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)中,這種系統(tǒng)架構(gòu)在分析海量寄遞數(shù)據(jù)時,會遇到瓶頸。而且,隨著數(shù)據(jù)量的增長,這種系統(tǒng)的擴展代價昂貴。因此,本課題致力于構(gòu)建一種全新的寄遞數(shù)據(jù)分析系統(tǒng)。本文的研究內(nèi)容主要包括以下幾個方面:(1)學(xué)習(xí)和研究現(xiàn)有的大數(shù)據(jù)處理技術(shù),F(xiàn)有的大數(shù)據(jù)處理技術(shù)以批量計算和流式計算兩種模式為主導(dǎo),通過對比分析,本文選取Hadoop和Storm作為本系統(tǒng)分析計算的核心組件。通過對Hadoop、Hive、Flume、Kafka、Storm等開源軟件的學(xué)習(xí),深入理解大數(shù)據(jù)處理技術(shù)的兩種模式。(2)分析現(xiàn)有“安監(jiān)”系統(tǒng)瓶頸,提出本系統(tǒng)的建設(shè)目標(biāo),F(xiàn)有“安監(jiān)”系統(tǒng)的瓶頸,主要集中在一些較為復(fù)雜的分析統(tǒng)計功能的性能上。當(dāng)面單數(shù)據(jù)的量達(dá)到5000(萬)條時,業(yè)務(wù)量運行查詢統(tǒng)計、業(yè)務(wù)量趨勢預(yù)測等較為復(fù)雜查詢統(tǒng)計功能的分析時間超過500秒,系統(tǒng)超時。本系統(tǒng)的建設(shè)目標(biāo)是通過構(gòu)建新分析系統(tǒng),克服“安監(jiān)”系統(tǒng)分析瓶頸,并在新系統(tǒng)上實現(xiàn)上述復(fù)雜的分析統(tǒng)計功能。(3)給出本系統(tǒng)的架構(gòu)設(shè)計,并根據(jù)架構(gòu)設(shè)計對系統(tǒng)進(jìn)行實現(xiàn)。系統(tǒng)包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)存儲與分析模塊和數(shù)據(jù)展示模塊等4個模塊。數(shù)據(jù)采集模塊是系統(tǒng)建設(shè)的基礎(chǔ)。其中“安監(jiān)”系統(tǒng)采用的是Log4j記錄系統(tǒng)日志。寄遞大數(shù)據(jù)分析系統(tǒng)使用Flume日志收集工具將日志文件進(jìn)行采集,并統(tǒng)一寫入HDFS中。針對“安監(jiān)”系統(tǒng)數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫)中的結(jié)構(gòu)化數(shù)據(jù),本系統(tǒng)采用Java程序定期抽取。針對實時采集數(shù)據(jù),本系統(tǒng)采用Flume將Log4j日志消息直接推入Kafka中。數(shù)據(jù)預(yù)處理模塊是系統(tǒng)重要組部本分之一。本系統(tǒng)通過數(shù)據(jù)預(yù)處理模塊將數(shù)據(jù)處理成“干凈”可靠的數(shù)據(jù)。數(shù)據(jù)存儲和分析模塊是系統(tǒng)的核心模塊。針對業(yè)務(wù)需求,本文系統(tǒng)使用Hive、MapReduce和Storm這3種不同的數(shù)據(jù)分析處理技術(shù)對數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)展示模塊是將系統(tǒng)結(jié)果進(jìn)行展示。此模塊采用了主流J2EE架構(gòu)和MVC編程模式進(jìn)行設(shè)計和實現(xiàn),可向用戶提供友好的展示界面。(4)搭建系統(tǒng)環(huán)境,并對本系統(tǒng)進(jìn)行測試和驗證。本課題搭建了一個20個節(jié)點機器的Hadoop集群和5個節(jié)點機器節(jié)點的Storm集群,對系統(tǒng)進(jìn)行測試和驗證。實驗表明,當(dāng)面單數(shù)據(jù)的規(guī)模為5000(萬)時,系統(tǒng)的分析處理時間減少到100秒左右,完全滿足設(shè)計要求。本課題設(shè)計并實現(xiàn)了寄遞大數(shù)據(jù)分析系統(tǒng),克服傳統(tǒng)的關(guān)系數(shù)據(jù)庫分析系統(tǒng)對海量寄遞數(shù)據(jù)分析的性能瓶頸問題。并通過實驗,證明了該系統(tǒng)在分析海量的寄遞數(shù)據(jù)方面具有明顯優(yōu)勢。
[Abstract]:With the continuous development of network and information technology, online shopping is favored by more and more users because of its convenience and quickness, which brings about a surge in the amount of data sent and delivered. Massive data delivery brings new challenges to enterprises. The traditional enterprise analysis system stores the data in the relational data. Moreover, as the amount of data grows, the expansion of the system is costly. Therefore, this subject is devoted to the construction of a new data analysis system. The research contents of this paper mainly include the following aspects: (1) study and study the existing big data processing technology. The existing big data processing technology is dominated by two modes: batch computing and flow computing. Through comparison and analysis, this paper selects Hadoop and Storm as the core components of the analysis and calculation of the system. Through the study of open source software such as Hadoop,Hive,Flume,Kafka,Storm, we deeply understand the two modes of big data's processing technology. (2) analyze the bottleneck of the existing "safety supervision" system, and put forward the construction goal of this system. The bottleneck of the existing safety monitoring system is mainly focused on the performance of some complicated statistical functions. When the number of single data reaches 5000, the analysis time of the more complex query statistical functions, such as running query statistics, forecasting the trend of traffic and so on, exceeds 500 seconds, and the system times out. The goal of this system is to overcome the bottleneck of "safety supervision" system analysis by building a new analysis system, and to realize the complex analysis and statistics function mentioned above on the new system. (3) the architecture design of the system is given. The system is implemented according to the architecture design. The system includes four modules: data acquisition module, data preprocessing module, data storage and analysis module and data display module. Data acquisition module is the foundation of system construction. One of the "safety monitoring" system is the use of Log4j logging system. Big data analysis system uses Flume log collection tool to collect log files and write them into HDFS. In view of the structured data in the database of "safety supervision" system (relational database), the system adopts Java program to extract regularly. In view of the real-time data acquisition, the system adopts Flume to push the Log4j log message directly into the Kafka. Data preprocessing module is one of the important parts of the system. The system processes the data into clean and reliable data through the data preprocessing module. Data storage and analysis module is the core module of the system. According to the business requirements, this paper uses three different data analysis and processing techniques, Hive,MapReduce and Storm, to analyze the data. The data display module displays the system results. This module uses the mainstream J2EE architecture and MVC programming mode to design and implement, can provide a friendly display interface to users. (4) build the system environment, and test and verify the system. In this paper, a Hadoop cluster with 20 nodes and a Storm cluster with 5 nodes are built, and the system is tested and verified. The experimental results show that when the scale of single data is 5000, the analysis and processing time of the system is reduced to about 100 seconds, which fully meets the design requirements. In order to overcome the bottleneck problem of traditional relational database analysis system, this paper designs and implements the analysis system of sending big data. Through experiments, it is proved that the system has obvious advantages in analyzing massive data.
【學(xué)位授予單位】:中國科學(xué)院大學(xué)(中國科學(xué)院工程管理與信息技術(shù)學(xué)院)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 代美;陳林;趙惠燕;程登發(fā);;掃描昆蟲雷達(dá)數(shù)據(jù)分析系統(tǒng)的設(shè)計和研究[J];計算機工程與設(shè)計;2009年03期

2 李磊;;黑龍江郵政數(shù)據(jù)分析系統(tǒng)研究[J];林業(yè)科技情報;2011年04期

3 陳起榕;陳新亮;曹世彪;;一種新的數(shù)據(jù)分析系統(tǒng)前端展示方案[J];郵電設(shè)計技術(shù);2012年10期

4 孟慶超;李永亮;;智能數(shù)據(jù)分析系統(tǒng)研究[J];現(xiàn)代商貿(mào)工業(yè);2008年11期

5 郭靜;;鋼鐵企業(yè)能源數(shù)據(jù)分析系統(tǒng)的構(gòu)建[J];昆明理工大學(xué)學(xué)報(理工版);2009年05期

6 哈文雷;;基于云計算的油田數(shù)據(jù)分析系統(tǒng)[J];中國新技術(shù)新產(chǎn)品;2013年17期

7 黃麗麗;陳華輝;;博客數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[J];寧波大學(xué)學(xué)報(理工版);2008年03期

8 田月潔;焦波;謝金洲;;中藥不良反應(yīng)數(shù)據(jù)分析系統(tǒng)的設(shè)計與應(yīng)用[J];中國藥物警戒;2007年04期

9 毛蘭斌;;基于機電結(jié)構(gòu)檢測的可靠性數(shù)據(jù)分析系統(tǒng)設(shè)計[J];中國高新技術(shù)企業(yè);2008年08期

10 毛羽芳;王銳明;;天津市工商行政管理局?jǐn)?shù)據(jù)分析系統(tǒng)的建設(shè)[J];信息系統(tǒng)工程;2010年07期

相關(guān)會議論文 前7條

1 顧紅生;;淺談汽車行業(yè)競品數(shù)據(jù)分析系統(tǒng)解決方案[A];第八屆中國汽車設(shè)計與研發(fā)高峰論壇論文集[C];2013年

2 辛建峰;辛陽;;數(shù)據(jù)分析系統(tǒng)中的自定義量度方案設(shè)計實現(xiàn)[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年

3 尚屹;朱琦;;國家持久性有機污染物數(shù)據(jù)分析系統(tǒng)研究[A];2008中國環(huán)境科學(xué)學(xué)會學(xué)術(shù)年會優(yōu)秀論文集(下卷)[C];2008年

4 鄭慧娟;周嘉元;李斌;;水電站生產(chǎn)數(shù)據(jù)分析系統(tǒng)及其現(xiàn)場應(yīng)用[A];中國水力發(fā)電工程學(xué)會信息化專委會2010年學(xué)術(shù)交流會論文集[C];2010年

5 張永忠;趙靜;;基于事件檢測算法的交通數(shù)據(jù)分析系統(tǒng)[A];2008全國第十三屆自動化應(yīng)用技術(shù)學(xué)術(shù)交流會論文集[C];2008年

6 王治國;王薇;訾凱;任鵬;;臨床檢驗方法確認(rèn)與性能驗證數(shù)據(jù)分析系統(tǒng)(MVS)的開發(fā)與應(yīng)用[A];中華醫(yī)學(xué)會第九次全國檢驗醫(yī)學(xué)學(xué)術(shù)會議暨中國醫(yī)院協(xié)會臨床檢驗管理專業(yè)委員會第六屆全國臨床檢驗實驗室管理學(xué)術(shù)會議論文匯編[C];2011年

7 董剛;孫建林;譚耘宇;;建立梅鋼熱軋數(shù)據(jù)分析系統(tǒng)[A];自動化技術(shù)與冶金流程節(jié)能減排——全國冶金自動化信息網(wǎng)2008年會論文集[C];2008年

相關(guān)重要報紙文章 前8條

1 記者 劉慧敏;開發(fā)區(qū)一企業(yè)研發(fā)成功“消費行為數(shù)據(jù)分析系統(tǒng)”[N];寧波日報;2009年

2 別志銘;基于云的大數(shù)據(jù)分析系統(tǒng)[N];網(wǎng)絡(luò)世界;2013年

3 袁毅;蘇州:數(shù)據(jù)分析系統(tǒng)精準(zhǔn)問診城市交通[N];人民公安報·交通安全周刊;2011年

4 紹興職業(yè)技術(shù)學(xué)院 沈華峰 寧波大學(xué)信息科學(xué)與工程學(xué)院 朱雙東;基于可縮放矢量圖形數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[N];中國計算機報;2010年

5 記者 董科;轉(zhuǎn)型客戶服務(wù) 打造全新競爭力[N];期貨日報;2010年

6 江蘇省淮安市漣水地稅局 周躍 黃呂勝 童政;應(yīng)完善稅收數(shù)據(jù)分析系統(tǒng)提升使用效能[N];中國稅務(wù)報;2013年

7 陶利軍;路橋當(dāng)好企業(yè)經(jīng)濟分析師[N];中國工商報;2007年

8 本報記者 鞏國強;汛潮的“賣點”[N];山西經(jīng)濟日報;2004年

相關(guān)碩士學(xué)位論文 前10條

1 夷臻;學(xué)生事務(wù)數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D];蘇州大學(xué);2015年

2 李永秋;智能化體檢數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)[D];山東大學(xué);2014年

3 翟羽佳;萊蕪供電公司經(jīng)營數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D];山東大學(xué);2015年

4 張磊磊;高考錄取數(shù)據(jù)分析系統(tǒng)前端界面模塊的設(shè)計與實現(xiàn)[D];山東大學(xué);2015年

5 韓繼軍;金卡科技公司業(yè)務(wù)數(shù)據(jù)分析系統(tǒng)設(shè)計與實現(xiàn)[D];大連理工大學(xué);2015年

6 張志祥;某數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2015年

7 龍少杭;基于Storm的實時大數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D];上海交通大學(xué);2015年

8 余夢然;面向商務(wù)智能的公共交通數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D];西安電子科技大學(xué);2014年

9 張鵬宇;中國聯(lián)通ERP用戶感知業(yè)務(wù)監(jiān)控數(shù)據(jù)分析系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2015年

10 廖寧平;石化企業(yè)數(shù)據(jù)分析系統(tǒng)的開發(fā)及運營管理中的應(yīng)用[D];浙江工業(yè)大學(xué);2014年

,

本文編號:2228026

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2228026.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶62168***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com