基于Hadoop平臺的氣象數(shù)據(jù)挖掘研究
[Abstract]:With the rapid development of Internet, computing and storage technology, the meteorological data stored by meteorological departments is increasing day by day. The new meteorological data in China reach the order of PB every year, and the types of meteorological data are relatively complex. This makes the traditional data storage and processing technology can not solve the needs of current users. At present, many research teams at home and abroad are committed to summing up and analyzing these massive data, and mining out the meteorological laws or patterns of practical significance. In recent years, cloud computing technology, as a new product in the field of Internet, provides a new opportunity for mass data storage and processing. Cloud computing technology has significant advantages in the field of massive data mining technology, and has been widely used. The overall idea of cloud computing is to use network interconnection technology to connect several computers together to achieve centralized management and unified scheduling of resources, which is equivalent to the formation of a resource pool. Hadoop technology, as a solution to deal with data in cloud computing software platform, has the characteristics of high fault tolerance, high throughput, low cost and so on. Hadoop technology transports traditional data mining technology to Hadoop cloud platform. The process of low cost and high efficiency data mining has been realized, which has become a trend in the research direction of meteorological data mining. In this paper, the data mining method based on Hadoop platform and the characteristics of meteorological data are deeply studied. In view of some shortcomings of the existing Hadoop classification data mining methods, combined with the advantages of Hadoop cloud platform in dealing with massive data, An improved classification algorithm based on MapReduce is proposed. For this reason, this paper mainly does the following research: (1) aiming at the large-scale characteristics of meteorological data, In this paper, Hadoop platform is used to preprocess the meteorological original data set and calculate the correlation coefficient between any two feature attributes, and the prediction attributes are selected by using correlation analysis technology. To a certain extent, the complexity of model training is reduced. (2) the advantages and disadvantages of typical meteorological data mining classification algorithms are analyzed. According to the association characteristics of meteorological data, this paper adopts the Bayesian network classification algorithm. In order to solve the uncertainty and relevance of things, it is more suitable for meteorological data analysis than other classification algorithms. (3) in the training process of Bayesian classification model, the accuracy evaluation is adopted. Iterative training is used for the model that does not meet the accuracy requirements, and the model parameters are constantly modified in order to obtain a better classification model, and the classification experiment of the test set is carried out. The experimental results show that the improved algorithm has a certain improvement in computational efficiency and performance compared with the existing algorithms.
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 黃源,張福炎;數(shù)據(jù)挖掘及其技術(shù)實現(xiàn)[J];計算機應用與軟件;2001年12期
2 香麗蕓;淺談數(shù)據(jù)挖掘及其應用[J];昌吉師專學報;2001年02期
3 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計算機時代;2001年11期
4 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
5 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計算機科學;2001年07期
6 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識別與人工智能;2001年01期
7 朱建平,張潤楚;數(shù)據(jù)挖掘的發(fā)展及其特點[J];統(tǒng)計與決策;2002年07期
8 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場;2002年11期
9 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機的“慧眼”[J];中國計算機用戶;2002年48期
10 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計算機工程與應用;2002年14期
相關會議論文 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應用[A];紀念中國農(nóng)業(yè)工程學會成立30周年暨中國農(nóng)業(yè)工程學會2009年學術(shù)年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術(shù)學術(shù)會議論文集[C];2011年
4 關清平;沉培輝;;概率網(wǎng)絡在數(shù)據(jù)挖掘上的應用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學術(shù)年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術(shù)情報學會學術(shù)年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務中的應用[A];中南六。▍^(qū))自動化學會第24屆學術(shù)年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關系管理的應用[A];計算機技術(shù)與應用進展·2007——全國第18屆計算機技術(shù)與應用(CACIS)學術(shù)會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經(jīng)驗交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2001年
相關重要報紙文章 前10條
1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術(shù)學院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡世界》記者 王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網(wǎng)絡世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點[N];中國電子報;2002年
7 本報記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領中國信息化新浪潮[N];中國電子報;2003年
8 本報記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎工程[N];解放軍報;2005年
10 本報記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年
相關博士學位論文 前10條
1 于自強;海量流數(shù)據(jù)挖掘相關問題研究[D];山東大學;2015年
2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復旦大學;2011年
3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復旦大學;2013年
5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應用[D];電子科技大學;2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟貿(mào)易大學;2010年
7 何偉全;云南高校學生意外傷害因素關聯(lián)規(guī)則挖掘及風險管控體系研究[D];昆明理工大學;2015年
8 段功豪;基于多結(jié)構(gòu)數(shù)據(jù)挖掘的滑坡災害預測模型研究[D];中國地質(zhì)大學;2016年
9 白曉明;基于數(shù)據(jù)挖掘的復合材料宏—細觀力學模型研究[D];哈爾濱工業(yè)大學;2016年
10 藍永豪(LAM Wing Ho);基于數(shù)據(jù)挖掘技術(shù)分析當代中醫(yī)名家痤瘡驗方經(jīng)驗研究[D];南京中醫(yī)藥大學;2016年
相關碩士學位論文 前10條
1 孫靖;基于Hadoop平臺的氣象數(shù)據(jù)挖掘研究[D];北京郵電大學;2016年
2 祖曉暉;基于數(shù)據(jù)挖掘的智慧健康服務平臺設計與實現(xiàn)[D];南京郵電大學;2017年
3 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經(jīng)濟貿(mào)易大學;2007年
4 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復旦大學;2011年
5 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應用研究[D];昆明理工大學;2015年
6 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應用平臺設計[D];江南大學;2015年
7 劉學建;數(shù)據(jù)挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年
8 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預測研究與應用[D];江南大學;2015年
9 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學院;2015年
10 陳丹;移動互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設計與實現(xiàn)應用研究[D];華南理工大學;2015年
,本文編號:2480254
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2480254.html