基于Spark的情報大數(shù)據(jù)可視化分析
本文關(guān)鍵詞:基于Spark的情報大數(shù)據(jù)可視化分析 出處:《山東大學》2017年碩士論文 論文類型:學位論文
更多相關(guān)文章: Spark 大數(shù)據(jù)可視化 社區(qū)分析 情報分析 圖計算
【摘要】:信息化時代數(shù)據(jù)量激增,同時由于情報部門等特殊需求部門多年來對信息的積累,存儲了大量結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),由于受技術(shù)水平、創(chuàng)新意識、支撐保障等諸多因素影響,出現(xiàn)不同程度的信息壁壘,信息共享度、利用率不高,如何利用這些情報數(shù)據(jù)掌握社會動向、分析事態(tài)的演化趨勢,進而提前預警預測,并為決策者提出決策性的建議,尚有大量知識需要研究。大數(shù)據(jù)技術(shù)經(jīng)過多年的發(fā)展和完善已經(jīng)趨于成熟,使用大數(shù)據(jù)技術(shù)進行情報分析,可有效的利用數(shù)據(jù),為決策者提供可靠的指引。通過對信息的采集、整合并輔以大數(shù)據(jù)技術(shù),大力推進相關(guān)部門的信息化建設。利用Spark運行在內(nèi)存中的特點,為使用者提供高效的、交互式的查詢和計算,快速展現(xiàn)數(shù)據(jù)內(nèi)在信息,提高情報機關(guān)工作效率。本系統(tǒng)以Spark、Hadoop大數(shù)據(jù)技術(shù)為基礎(chǔ),面向特殊應用信息庫、各情報資源信息庫等已有數(shù)據(jù)庫或其他多種類型數(shù)據(jù)文件,輔以GraphX圖計算框架、SparkRDD、SparkSQL等工具,進行快速、高效的信息查詢和多種圖形化展示,并為使用者提供對社區(qū)人群的分析、通話分析、人員關(guān)聯(lián)查詢等多種功能。本文主要工作內(nèi)容如下:1、研究情報系統(tǒng)業(yè)務模型,以及情報、特殊部門的具體需求分析,研究Spark、Hadoop大數(shù)據(jù)分析與存儲技術(shù)、基于J2EE的前端系統(tǒng)、分布式消息系統(tǒng)以及數(shù)據(jù)清洗和數(shù)據(jù)庫使用等,并設計了情報大數(shù)據(jù)分析系統(tǒng)的一種實現(xiàn)方法。2、開發(fā)前端系統(tǒng)使用J2EE技術(shù)架構(gòu),搭載Spring、SpringMVC、Mybatis三大框架作為前端展示系統(tǒng)。其中視圖層采用FreeMarker、JQuery EasyUI、ECharts等組件提供多種形式、直觀的數(shù)據(jù)展示。使用Oracle數(shù)據(jù)庫,為面端組件、用戶名、密碼等信息提供持久化服務。3、分布式計算和傳輸系統(tǒng)開發(fā)。前端展示系統(tǒng)通過Apache Kafka集群與Spark集群進行實時交互。Spark集群主要負責對數(shù)據(jù)進行計算、分析。通過使用Spark RDD、SparkSQL、GrpahX、GraphFrame等工具進行社區(qū)發(fā)現(xiàn)、重點人員查找、話單分析、人群分析等功能,并將結(jié)果通過Kafka集群實時的反饋給前端展示系統(tǒng)。4、數(shù)據(jù)清洗和導入工作。數(shù)據(jù)存儲采用分布式系統(tǒng)存儲,并支持多種數(shù)據(jù)來源的導入,如關(guān)系型數(shù)據(jù)庫、文本文檔、CSV文件等。經(jīng)過數(shù)據(jù)清洗后統(tǒng)一存放在HDFS系統(tǒng)中。通過Sqoop實現(xiàn)對存儲系統(tǒng)定時更新的功能,在固定時間間隔將外部數(shù)據(jù)導入到存儲系統(tǒng)中,保證數(shù)據(jù)的實時有效性。大數(shù)據(jù)分析系統(tǒng)通過將分散在不同業(yè)務部門的信息通過匯總、提取、計算實現(xiàn)了部門之間的信息交換,打破信息壁壘,并提供高效、直觀、多樣的數(shù)據(jù)可視化處理,為情報機關(guān)工作效率和能力的提高發(fā)揮積極作用。
[Abstract]:At the same time, due to the accumulation of information by intelligence departments and other special needs departments over the years, a large number of structured, semi-structured data are stored, due to the level of technology, innovation awareness. Many factors, such as support and security, appear different degree of information barriers, information sharing degree, low utilization rate, how to use these information data to grasp the social trends and analyze the evolving trend of the situation. There is still a lot of knowledge to study. Big data technology has matured after many years of development and improvement. Big data technology is used to carry out information analysis. Data can be used effectively to provide reliable guidance for decision makers. Through the collection of information, integration and supplemented by big data technology. Vigorously promote the information construction of relevant departments, make use of the characteristics of Spark running in memory, provide users with efficient, interactive query and calculation, and quickly display the internal information of the data. This system is based on the technology of Sparku Hadoop big data and faces the special application information database. The existing databases or other kinds of data files, such as information base of intelligence resources, are carried out quickly with tools such as SparkRDDD Spark SQL, a framework for calculating GraphX diagrams. Efficient information query and a variety of graphical display, and provide users with community crowd analysis, call analysis, personnel association query and other functions. The main work of this paper is as follows: 1. This paper studies the business model of information system, as well as the analysis of the specific requirements of intelligence and special departments, and studies the analysis and storage technology of Spark Hadoop big data, the front-end system based on J2EE. Distributed message system, data cleaning and database usage, etc., and designed an implementation method of intelligence big data analysis system. The front-end system uses J2EE technology architecture and carries Spring. Spring MVC / Mybatis is used as the front end display system, in which the view layer adopts FreeMarker JQuery EasyUI. ECharts and other components provide a variety of forms of visual data display. Use Oracle database to provide persistence services for facet components, user names, passwords and other information. Distributed computing and transmission system development. The front-end display system through Apache Kafka cluster and Spark cluster real-time interaction. Spark cluster is mainly responsible for data calculation. Analysis. Through the use of Spark RDDN Spark SQL Grpah XN GraphFrame and other tools for community discovery, key people to find, voice analysis. Crowd analysis and other functions, and the results through the Kafka cluster real-time feedback to the front-end display system. 4, data cleaning and import work. Data storage using distributed system storage. And supports the import of various data sources, such as relational databases, text documents. After data cleaning, the CSV file is stored in the HDFS system. Through Sqoop, the storage system is updated periodically, and the external data is imported into the storage system at fixed time intervals. To ensure the real-time validity of the data. Big data analysis system through the aggregation of information scattered in different business departments through extraction, computing to achieve information exchange between departments, break down information barriers, and provide efficiency. Visual and diversified data visualization plays an active role in improving the efficiency and ability of intelligence agencies.
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 董慶華;;數(shù)據(jù)可視化技術(shù)在農(nóng)業(yè)領(lǐng)域的應用探討[J];山西農(nóng)業(yè)大學學報(自然科學版);2007年S1期
2 姚遠;;數(shù)據(jù)可視化技術(shù)實現(xiàn)流程探討[J];軟件導刊;2010年05期
3 趙巾幗;羅慶云;;基于網(wǎng)絡的數(shù)據(jù)可視化研究與實現(xiàn)[J];大慶師范學院學報;2010年06期
4 任思雨;;數(shù)字時代數(shù)據(jù)可視化的類型及其特征[J];傳播與版權(quán);2014年03期
5 陳建軍,于志強,朱昀;數(shù)據(jù)可視化技術(shù)及其應用[J];紅外與激光工程;2001年05期
6 劉勘,周曉崢,周洞汝;數(shù)據(jù)可視化的研究與發(fā)展[J];計算機工程;2002年08期
7 劉緒崇,鄧蘇,楊強,陳衛(wèi)東;基于數(shù)據(jù)管技術(shù)的證券數(shù)據(jù)可視化[J];計算機工程與設計;2003年06期
8 肖湘萍,尹志喜;數(shù)據(jù)可視化在流場數(shù)值模擬中的應用研究[J];華北工學院學報;2004年02期
9 任永功;于戈;;數(shù)據(jù)可視化技術(shù)的研究與進展[J];計算機科學;2004年12期
10 韓麗娜;;數(shù)據(jù)可視化技術(shù)及其應用展望[J];煤礦現(xiàn)代化;2005年06期
相關(guān)會議論文 前10條
1 劉勘;周洞汝;;大型數(shù)據(jù)庫中的數(shù)據(jù)可視化技術(shù)[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2001年
2 袁永菊;;數(shù)據(jù)可視化技術(shù)在飛機改裝中的應用研究[A];探索 創(chuàng)新 交流(第4集)——第四屆中國航空學會青年科技論壇文集[C];2010年
3 石昊蘇;韓麗娜;;數(shù)據(jù)可視化技術(shù)及其應用展望[A];全國自動化新技術(shù)學術(shù)交流會會議論文集(一)[C];2005年
4 夏菁;劉真;胡越琦;陳為;彭帝超;;基于超圖的骨生物數(shù)據(jù)可視化研究[A];第五屆全國幾何設計與計算學術(shù)會議論文集[C];2011年
5 陳進生;羅月童;;輪廓樹及其在體數(shù)據(jù)可視化中的應用[A];全國第21屆計算機技術(shù)與應用學術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集[C];2010年
6 羅雄飛;廖再飛;劉偉;;流程工業(yè)多尺度數(shù)據(jù)可視化系統(tǒng)的設計與應用[A];2009中國過程系統(tǒng)工程年會暨中國mes年會論文集[C];2009年
7 謝跟蹤;陳文惠;鄭達賢;;基于Map Info的福建省經(jīng)濟數(shù)據(jù)可視化研究[A];地圖學與GIS學術(shù)討論會論文集[C];2002年
8 王延紅;王宏亮;林成地;高菲;;基于VisIt的Fluent程序結(jié)果數(shù)據(jù)可視化[A];第十六屆全國流體力學數(shù)值方法研討會2013論文集[C];2013年
9 宋秀紅;張維石;;基于RAD的網(wǎng)站用戶瀏覽數(shù)據(jù)可視化工具研究[A];全國第十五屆計算機科學與技術(shù)應用學術(shù)會議論文集[C];2003年
10 周楊;徐青;藍朝楨;李建勝;;深空探測地理數(shù)據(jù)可視化[A];第十四屆全國圖象圖形學學術(shù)會議論文集[C];2008年
相關(guān)重要報紙文章 前4條
1 國家統(tǒng)計局教育中心 寧紅;數(shù)據(jù)可視化對服務型統(tǒng)計建設的啟示[N];中國信息報;2013年
2 北京永洪商智科技有限公司 何春濤;一周實現(xiàn)大數(shù)據(jù)可視化分析[N];中國計算機報;2014年
3 本報記者 于杰;讓POI數(shù)據(jù)可視化[N];中國計算機報;2014年
4 邱燕娜;從汶川地震話位置智能[N];中國計算機報;2008年
相關(guān)博士學位論文 前7條
1 任永功;面向聚類的數(shù)據(jù)可視化方法及相關(guān)技術(shù)研究[D];東北大學;2006年
2 馬仁安;基于微機的三維地震數(shù)據(jù)可視化技術(shù)研究[D];南京理工大學;2004年
3 華崗;地震體數(shù)據(jù)可視化與分析研究[D];浙江大學;2011年
4 周璐;復雜向量場數(shù)據(jù)可視化技術(shù)研究與實現(xiàn)[D];中國人民解放軍國防科學技術(shù)大學;2000年
5 梁秀霞;醫(yī)學影像數(shù)據(jù)可視化中若干問題研究[D];山東大學;2006年
6 常鳳香;基于生物電阻抗測量原理的經(jīng)絡診斷數(shù)據(jù)可視化方法研究[D];燕山大學;2012年
7 蔣志方;城市空氣質(zhì)量預測模型與數(shù)據(jù)可視化方法研究[D];山東大學;2011年
相關(guān)碩士學位論文 前10條
1 曾悠;大數(shù)據(jù)時代背景下的數(shù)據(jù)可視化概念研究[D];浙江大學;2014年
2 石雪萍;網(wǎng)易“數(shù)讀”專欄報道特色研究[D];河北大學;2015年
3 陳欣;《21世紀經(jīng)濟報道—飛笛金融圈》金融新聞的數(shù)據(jù)可視化研究[D];河北大學;2015年
4 張健;基于WebGIS的農(nóng)業(yè)地理數(shù)據(jù)可視化技術(shù)研究及應用[D];浙江大學;2015年
5 龔旭超;基于webGL的交互繪制應用研究[D];浙江大學;2015年
6 臧若蒙;面向車輛監(jiān)控系統(tǒng)的海量數(shù)據(jù)可視化研究[D];大連海事大學;2015年
7 劉迪珊;試驗數(shù)據(jù)云平臺中數(shù)據(jù)可視化的設計與實現(xiàn)[D];西安電子科技大學;2014年
8 朱會國;直觀高效的體數(shù)據(jù)可視化方法的設計與研究[D];合肥工業(yè)大學;2014年
9 呂佩吾;火電廠生產(chǎn)運行數(shù)據(jù)可視化平臺的研究與實現(xiàn)[D];華北電力大學;2015年
10 陳丁;海洋水文數(shù)據(jù)可視化關(guān)鍵技術(shù)研究[D];解放軍信息工程大學;2015年
,本文編號:1365448
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1365448.html