基于Spark的情報(bào)大數(shù)據(jù)可視化分析
本文關(guān)鍵詞:基于Spark的情報(bào)大數(shù)據(jù)可視化分析 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: Spark 大數(shù)據(jù)可視化 社區(qū)分析 情報(bào)分析 圖計(jì)算
【摘要】:信息化時(shí)代數(shù)據(jù)量激增,同時(shí)由于情報(bào)部門等特殊需求部門多年來(lái)對(duì)信息的積累,存儲(chǔ)了大量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),由于受技術(shù)水平、創(chuàng)新意識(shí)、支撐保障等諸多因素影響,出現(xiàn)不同程度的信息壁壘,信息共享度、利用率不高,如何利用這些情報(bào)數(shù)據(jù)掌握社會(huì)動(dòng)向、分析事態(tài)的演化趨勢(shì),進(jìn)而提前預(yù)警預(yù)測(cè),并為決策者提出決策性的建議,尚有大量知識(shí)需要研究。大數(shù)據(jù)技術(shù)經(jīng)過(guò)多年的發(fā)展和完善已經(jīng)趨于成熟,使用大數(shù)據(jù)技術(shù)進(jìn)行情報(bào)分析,可有效的利用數(shù)據(jù),為決策者提供可靠的指引。通過(guò)對(duì)信息的采集、整合并輔以大數(shù)據(jù)技術(shù),大力推進(jìn)相關(guān)部門的信息化建設(shè)。利用Spark運(yùn)行在內(nèi)存中的特點(diǎn),為使用者提供高效的、交互式的查詢和計(jì)算,快速展現(xiàn)數(shù)據(jù)內(nèi)在信息,提高情報(bào)機(jī)關(guān)工作效率。本系統(tǒng)以Spark、Hadoop大數(shù)據(jù)技術(shù)為基礎(chǔ),面向特殊應(yīng)用信息庫(kù)、各情報(bào)資源信息庫(kù)等已有數(shù)據(jù)庫(kù)或其他多種類型數(shù)據(jù)文件,輔以GraphX圖計(jì)算框架、SparkRDD、SparkSQL等工具,進(jìn)行快速、高效的信息查詢和多種圖形化展示,并為使用者提供對(duì)社區(qū)人群的分析、通話分析、人員關(guān)聯(lián)查詢等多種功能。本文主要工作內(nèi)容如下:1、研究情報(bào)系統(tǒng)業(yè)務(wù)模型,以及情報(bào)、特殊部門的具體需求分析,研究Spark、Hadoop大數(shù)據(jù)分析與存儲(chǔ)技術(shù)、基于J2EE的前端系統(tǒng)、分布式消息系統(tǒng)以及數(shù)據(jù)清洗和數(shù)據(jù)庫(kù)使用等,并設(shè)計(jì)了情報(bào)大數(shù)據(jù)分析系統(tǒng)的一種實(shí)現(xiàn)方法。2、開(kāi)發(fā)前端系統(tǒng)使用J2EE技術(shù)架構(gòu),搭載Spring、SpringMVC、Mybatis三大框架作為前端展示系統(tǒng)。其中視圖層采用FreeMarker、JQuery EasyUI、ECharts等組件提供多種形式、直觀的數(shù)據(jù)展示。使用Oracle數(shù)據(jù)庫(kù),為面端組件、用戶名、密碼等信息提供持久化服務(wù)。3、分布式計(jì)算和傳輸系統(tǒng)開(kāi)發(fā)。前端展示系統(tǒng)通過(guò)Apache Kafka集群與Spark集群進(jìn)行實(shí)時(shí)交互。Spark集群主要負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行計(jì)算、分析。通過(guò)使用Spark RDD、SparkSQL、GrpahX、GraphFrame等工具進(jìn)行社區(qū)發(fā)現(xiàn)、重點(diǎn)人員查找、話單分析、人群分析等功能,并將結(jié)果通過(guò)Kafka集群實(shí)時(shí)的反饋給前端展示系統(tǒng)。4、數(shù)據(jù)清洗和導(dǎo)入工作。數(shù)據(jù)存儲(chǔ)采用分布式系統(tǒng)存儲(chǔ),并支持多種數(shù)據(jù)來(lái)源的導(dǎo)入,如關(guān)系型數(shù)據(jù)庫(kù)、文本文檔、CSV文件等。經(jīng)過(guò)數(shù)據(jù)清洗后統(tǒng)一存放在HDFS系統(tǒng)中。通過(guò)Sqoop實(shí)現(xiàn)對(duì)存儲(chǔ)系統(tǒng)定時(shí)更新的功能,在固定時(shí)間間隔將外部數(shù)據(jù)導(dǎo)入到存儲(chǔ)系統(tǒng)中,保證數(shù)據(jù)的實(shí)時(shí)有效性。大數(shù)據(jù)分析系統(tǒng)通過(guò)將分散在不同業(yè)務(wù)部門的信息通過(guò)匯總、提取、計(jì)算實(shí)現(xiàn)了部門之間的信息交換,打破信息壁壘,并提供高效、直觀、多樣的數(shù)據(jù)可視化處理,為情報(bào)機(jī)關(guān)工作效率和能力的提高發(fā)揮積極作用。
[Abstract]:At the same time, due to the accumulation of information by intelligence departments and other special needs departments over the years, a large number of structured, semi-structured data are stored, due to the level of technology, innovation awareness. Many factors, such as support and security, appear different degree of information barriers, information sharing degree, low utilization rate, how to use these information data to grasp the social trends and analyze the evolving trend of the situation. There is still a lot of knowledge to study. Big data technology has matured after many years of development and improvement. Big data technology is used to carry out information analysis. Data can be used effectively to provide reliable guidance for decision makers. Through the collection of information, integration and supplemented by big data technology. Vigorously promote the information construction of relevant departments, make use of the characteristics of Spark running in memory, provide users with efficient, interactive query and calculation, and quickly display the internal information of the data. This system is based on the technology of Sparku Hadoop big data and faces the special application information database. The existing databases or other kinds of data files, such as information base of intelligence resources, are carried out quickly with tools such as SparkRDDD Spark SQL, a framework for calculating GraphX diagrams. Efficient information query and a variety of graphical display, and provide users with community crowd analysis, call analysis, personnel association query and other functions. The main work of this paper is as follows: 1. This paper studies the business model of information system, as well as the analysis of the specific requirements of intelligence and special departments, and studies the analysis and storage technology of Spark Hadoop big data, the front-end system based on J2EE. Distributed message system, data cleaning and database usage, etc., and designed an implementation method of intelligence big data analysis system. The front-end system uses J2EE technology architecture and carries Spring. Spring MVC / Mybatis is used as the front end display system, in which the view layer adopts FreeMarker JQuery EasyUI. ECharts and other components provide a variety of forms of visual data display. Use Oracle database to provide persistence services for facet components, user names, passwords and other information. Distributed computing and transmission system development. The front-end display system through Apache Kafka cluster and Spark cluster real-time interaction. Spark cluster is mainly responsible for data calculation. Analysis. Through the use of Spark RDDN Spark SQL Grpah XN GraphFrame and other tools for community discovery, key people to find, voice analysis. Crowd analysis and other functions, and the results through the Kafka cluster real-time feedback to the front-end display system. 4, data cleaning and import work. Data storage using distributed system storage. And supports the import of various data sources, such as relational databases, text documents. After data cleaning, the CSV file is stored in the HDFS system. Through Sqoop, the storage system is updated periodically, and the external data is imported into the storage system at fixed time intervals. To ensure the real-time validity of the data. Big data analysis system through the aggregation of information scattered in different business departments through extraction, computing to achieve information exchange between departments, break down information barriers, and provide efficiency. Visual and diversified data visualization plays an active role in improving the efficiency and ability of intelligence agencies.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 董慶華;;數(shù)據(jù)可視化技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用探討[J];山西農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年S1期
2 姚遠(yuǎn);;數(shù)據(jù)可視化技術(shù)實(shí)現(xiàn)流程探討[J];軟件導(dǎo)刊;2010年05期
3 趙巾幗;羅慶云;;基于網(wǎng)絡(luò)的數(shù)據(jù)可視化研究與實(shí)現(xiàn)[J];大慶師范學(xué)院學(xué)報(bào);2010年06期
4 任思雨;;數(shù)字時(shí)代數(shù)據(jù)可視化的類型及其特征[J];傳播與版權(quán);2014年03期
5 陳建軍,于志強(qiáng),朱昀;數(shù)據(jù)可視化技術(shù)及其應(yīng)用[J];紅外與激光工程;2001年05期
6 劉勘,周曉崢,周洞汝;數(shù)據(jù)可視化的研究與發(fā)展[J];計(jì)算機(jī)工程;2002年08期
7 劉緒崇,鄧蘇,楊強(qiáng),陳衛(wèi)東;基于數(shù)據(jù)管技術(shù)的證券數(shù)據(jù)可視化[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年06期
8 肖湘萍,尹志喜;數(shù)據(jù)可視化在流場(chǎng)數(shù)值模擬中的應(yīng)用研究[J];華北工學(xué)院學(xué)報(bào);2004年02期
9 任永功;于戈;;數(shù)據(jù)可視化技術(shù)的研究與進(jìn)展[J];計(jì)算機(jī)科學(xué);2004年12期
10 韓麗娜;;數(shù)據(jù)可視化技術(shù)及其應(yīng)用展望[J];煤礦現(xiàn)代化;2005年06期
相關(guān)會(huì)議論文 前10條
1 劉勘;周洞汝;;大型數(shù)據(jù)庫(kù)中的數(shù)據(jù)可視化技術(shù)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 袁永菊;;數(shù)據(jù)可視化技術(shù)在飛機(jī)改裝中的應(yīng)用研究[A];探索 創(chuàng)新 交流(第4集)——第四屆中國(guó)航空學(xué)會(huì)青年科技論壇文集[C];2010年
3 石昊蘇;韓麗娜;;數(shù)據(jù)可視化技術(shù)及其應(yīng)用展望[A];全國(guó)自動(dòng)化新技術(shù)學(xué)術(shù)交流會(huì)會(huì)議論文集(一)[C];2005年
4 夏菁;劉真;胡越琦;陳為;彭帝超;;基于超圖的骨生物數(shù)據(jù)可視化研究[A];第五屆全國(guó)幾何設(shè)計(jì)與計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
5 陳進(jìn)生;羅月童;;輪廓樹(shù)及其在體數(shù)據(jù)可視化中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
6 羅雄飛;廖再飛;劉偉;;流程工業(yè)多尺度數(shù)據(jù)可視化系統(tǒng)的設(shè)計(jì)與應(yīng)用[A];2009中國(guó)過(guò)程系統(tǒng)工程年會(huì)暨中國(guó)mes年會(huì)論文集[C];2009年
7 謝跟蹤;陳文惠;鄭達(dá)賢;;基于Map Info的福建省經(jīng)濟(jì)數(shù)據(jù)可視化研究[A];地圖學(xué)與GIS學(xué)術(shù)討論會(huì)論文集[C];2002年
8 王延紅;王宏亮;林成地;高菲;;基于VisIt的Fluent程序結(jié)果數(shù)據(jù)可視化[A];第十六屆全國(guó)流體力學(xué)數(shù)值方法研討會(huì)2013論文集[C];2013年
9 宋秀紅;張維石;;基于RAD的網(wǎng)站用戶瀏覽數(shù)據(jù)可視化工具研究[A];全國(guó)第十五屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2003年
10 周楊;徐青;藍(lán)朝楨;李建勝;;深空探測(cè)地理數(shù)據(jù)可視化[A];第十四屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前4條
1 國(guó)家統(tǒng)計(jì)局教育中心 寧紅;數(shù)據(jù)可視化對(duì)服務(wù)型統(tǒng)計(jì)建設(shè)的啟示[N];中國(guó)信息報(bào);2013年
2 北京永洪商智科技有限公司 何春濤;一周實(shí)現(xiàn)大數(shù)據(jù)可視化分析[N];中國(guó)計(jì)算機(jī)報(bào);2014年
3 本報(bào)記者 于杰;讓POI數(shù)據(jù)可視化[N];中國(guó)計(jì)算機(jī)報(bào);2014年
4 邱燕娜;從汶川地震話位置智能[N];中國(guó)計(jì)算機(jī)報(bào);2008年
相關(guān)博士學(xué)位論文 前7條
1 任永功;面向聚類的數(shù)據(jù)可視化方法及相關(guān)技術(shù)研究[D];東北大學(xué);2006年
2 馬仁安;基于微機(jī)的三維地震數(shù)據(jù)可視化技術(shù)研究[D];南京理工大學(xué);2004年
3 華崗;地震體數(shù)據(jù)可視化與分析研究[D];浙江大學(xué);2011年
4 周璐;復(fù)雜向量場(chǎng)數(shù)據(jù)可視化技術(shù)研究與實(shí)現(xiàn)[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年
5 梁秀霞;醫(yī)學(xué)影像數(shù)據(jù)可視化中若干問(wèn)題研究[D];山東大學(xué);2006年
6 常鳳香;基于生物電阻抗測(cè)量原理的經(jīng)絡(luò)診斷數(shù)據(jù)可視化方法研究[D];燕山大學(xué);2012年
7 蔣志方;城市空氣質(zhì)量預(yù)測(cè)模型與數(shù)據(jù)可視化方法研究[D];山東大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 曾悠;大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可視化概念研究[D];浙江大學(xué);2014年
2 石雪萍;網(wǎng)易“數(shù)讀”專欄報(bào)道特色研究[D];河北大學(xué);2015年
3 陳欣;《21世紀(jì)經(jīng)濟(jì)報(bào)道—飛笛金融圈》金融新聞的數(shù)據(jù)可視化研究[D];河北大學(xué);2015年
4 張健;基于WebGIS的農(nóng)業(yè)地理數(shù)據(jù)可視化技術(shù)研究及應(yīng)用[D];浙江大學(xué);2015年
5 龔旭超;基于webGL的交互繪制應(yīng)用研究[D];浙江大學(xué);2015年
6 臧若蒙;面向車輛監(jiān)控系統(tǒng)的海量數(shù)據(jù)可視化研究[D];大連海事大學(xué);2015年
7 劉迪珊;試驗(yàn)數(shù)據(jù)云平臺(tái)中數(shù)據(jù)可視化的設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2014年
8 朱會(huì)國(guó);直觀高效的體數(shù)據(jù)可視化方法的設(shè)計(jì)與研究[D];合肥工業(yè)大學(xué);2014年
9 呂佩吾;火電廠生產(chǎn)運(yùn)行數(shù)據(jù)可視化平臺(tái)的研究與實(shí)現(xiàn)[D];華北電力大學(xué);2015年
10 陳丁;海洋水文數(shù)據(jù)可視化關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2015年
,本文編號(hào):1365448
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1365448.html