大數(shù)據(jù)技術(shù)在電力營銷系統(tǒng)中的應(yīng)用研究
本文選題:Spark + FCM聚類算法 ; 參考:《華北電力大學(xué)》2017年碩士論文
【摘要】:隨著電力企業(yè)的快速發(fā)展,電網(wǎng)數(shù)據(jù)不斷積累,呈現(xiàn)出爆炸式增長的趨勢。怎樣從這些數(shù)據(jù)中挖掘出價(jià)值數(shù)據(jù),已經(jīng)成為智能電網(wǎng)建設(shè)和電力企業(yè)發(fā)展的關(guān)鍵,而大數(shù)據(jù)相關(guān)技術(shù)的飛速發(fā)展為電網(wǎng)數(shù)據(jù)帶來新機(jī)遇。在當(dāng)下主流的大數(shù)據(jù)技術(shù)中,相比Hadoop平臺,Spark平臺更加優(yōu)異的迭代工作負(fù)載性能、RDD數(shù)據(jù)集的高速計(jì)算能力以及HDFS的強(qiáng)大存儲能力在海量的電力數(shù)據(jù)挖掘中都表現(xiàn)出極大的優(yōu)勢。本文利用Spark平臺與關(guān)聯(lián)規(guī)則挖掘技術(shù)結(jié)合的優(yōu)勢,根據(jù)電力企業(yè)對數(shù)據(jù)分析的實(shí)際需求,研究分析了Z-score標(biāo)準(zhǔn)化和FCM聚類算法,結(jié)合兩者設(shè)計(jì)出電力數(shù)據(jù)預(yù)處理流程,驗(yàn)證了數(shù)據(jù)預(yù)處理的有效性,并運(yùn)用稀疏矩陣和FCM聚類算法改進(jìn)了FFP-growth算法,應(yīng)用于Spark平臺下的電力營銷系統(tǒng)中。本文主要完成了以下三方面工作:第一,研究實(shí)際處理電網(wǎng)數(shù)據(jù)中遇到的問題,并針對這些問題提出解決方法,根據(jù)Z-score標(biāo)準(zhǔn)化和FCM聚類算法的結(jié)合提出大數(shù)據(jù)預(yù)處理的新流程;第二,研究了FP-growth關(guān)聯(lián)規(guī)則挖掘算法,根據(jù)傳統(tǒng)FP-Growth算法的不足對其進(jìn)行改進(jìn),引入稀疏矩陣存儲減少一次數(shù)據(jù)庫掃描得到頻繁項(xiàng)集,節(jié)省了數(shù)據(jù)庫掃描時(shí)間,并設(shè)計(jì)了在Spark平臺下改進(jìn)的FFP-growth算法并行化模型,對數(shù)據(jù)進(jìn)行二次分類,避免單個(gè)事務(wù)集過大的問題;第三,搭建Spark平臺,設(shè)計(jì)并實(shí)現(xiàn)電力營銷系統(tǒng),將數(shù)據(jù)預(yù)處理技術(shù)和改進(jìn)的FFP-Growth關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用到電力營銷數(shù)據(jù)分析系統(tǒng)中,實(shí)例驗(yàn)證了重新設(shè)計(jì)的數(shù)據(jù)預(yù)處理流程和改進(jìn)的并行關(guān)聯(lián)規(guī)則挖掘算法在電力營銷數(shù)據(jù)分析中的有效性。
[Abstract]:With the rapid development of power enterprises, power grid data accumulation, showing an explosive growth trend. How to excavate the value data from these data has become the key to the construction of smart grid and the development of electric power enterprises, and the rapid development of big data technology brings new opportunities for power grid data. In the current mainstream big data technology, the iterative workload performance of Hadoop platform is better than that of Hadoop platform. The high speed computing power of RDD data set and the powerful storage capacity of HDFS all show great advantages in massive power data mining. This paper makes use of the advantage of combining Spark platform with association rule mining technology, according to the actual demand of data analysis in electric power enterprises, studies and analyzes the Z-score standardization and FCM clustering algorithm, and designs the power data preprocessing flow combining the two technologies. The validity of data preprocessing is verified, and the FFP-growth algorithm is improved by using sparse matrix and FCM clustering algorithm, which is applied to the electric power marketing system based on Spark platform. This paper mainly completes the following three aspects of work: first, study the problems encountered in the actual processing of power grid data, and propose solutions to these problems, according to the combination of Z-score standardization and FCM clustering algorithm proposed big data pre-processing new flow; Secondly, the FP-growth association rule mining algorithm is studied, which is improved according to the shortcomings of the traditional FP-Growth algorithm. The sparse matrix storage is introduced to reduce the frequent itemsets of database scanning, which saves the scanning time of the database. And designed an improved FFP-growth algorithm parallelization model under the Spark platform, the data is classified twice to avoid the problem of a single transaction set too large. Thirdly, build the Spark platform, design and implement the electric power marketing system. The data preprocessing technology and the improved FFP-Growth association rule mining technology are applied to the power marketing data analysis system. Examples show that the redesigned data preprocessing process and the improved parallel association rule mining algorithm are effective in power marketing data analysis.
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:F426.61;TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭華峰;趙建民;潘修強(qiáng);;自適應(yīng)抑制式模糊C-回歸模型算法[J];計(jì)算機(jī)科學(xué);2015年02期
2 習(xí)偉;李鵬;郭曉斌;許愛東;蔣愈勇;張利強(qiáng);吳玉生;;多維時(shí)間序列關(guān)聯(lián)分析方法在電力設(shè)備故障預(yù)測中的應(yīng)用[J];電網(wǎng)與清潔能源;2014年12期
3 李楊;;智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀及困境探討[J];硅谷;2014年14期
4 孫柏林;;“大數(shù)據(jù)”技術(shù)及其在電力行業(yè)中的應(yīng)用[J];電氣時(shí)代;2013年08期
5 朱淑真;左風(fēng)朝;;基于社會網(wǎng)絡(luò)分析的P2P網(wǎng)絡(luò)挖掘[J];科技信息;2012年35期
6 蘆佳;衛(wèi)強(qiáng);陳兵;;基于RFID技術(shù)的防偽平臺的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年05期
7 邱望仁;劉曉東;張振宇;;基于AFS拓?fù)浜虯FCM的模糊聚類分析[J];模糊系統(tǒng)與數(shù)學(xué);2010年04期
8 孫大朋;;改進(jìn)的模糊聚類算法在入侵檢測中的研究[J];計(jì)算機(jī)與數(shù)字工程;2010年03期
9 楊森;曹寶香;;基于SOA的分布式構(gòu)件庫系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
10 陳竹;戴愛德;王月粉;;JSON數(shù)據(jù)交換語言在Mashup Web服務(wù)下的應(yīng)用[J];國土資源信息化;2009年05期
相關(guān)重要報(bào)紙文章 前1條
1 劉軍 ;呂俊峰;;大數(shù)據(jù)時(shí)代及數(shù)據(jù)挖掘的應(yīng)用[N];國家電網(wǎng)報(bào);2012年
相關(guān)博士學(xué)位論文 前3條
1 楊靜;基于結(jié)構(gòu)方程模型的因果發(fā)現(xiàn)研究[D];合肥工業(yè)大學(xué);2013年
2 陳曉云;文本挖掘若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2005年
3 王越;分布式關(guān)聯(lián)規(guī)則挖掘的方法研究[D];重慶大學(xué);2003年
相關(guān)碩士學(xué)位論文 前10條
1 黎楚乾;基于大數(shù)據(jù)的信息物理融合系統(tǒng)的分析與設(shè)計(jì)方法[D];廣東工業(yè)大學(xué);2015年
2 張敏超;基于半監(jiān)督多標(biāo)簽學(xué)習(xí)的文獻(xiàn)自動鏈接方法研究與實(shí)現(xiàn)[D];西北大學(xué);2014年
3 李興;基于Hadoop的并行K-prototypes聚類算法的研究與設(shè)計(jì)[D];北京工業(yè)大學(xué);2014年
4 羅云;互聯(lián)網(wǎng)海量信息中熱點(diǎn)信息主題的自動發(fā)現(xiàn)[D];華南理工大學(xué);2013年
5 馬晶晶;基于云計(jì)算及關(guān)聯(lián)規(guī)則挖掘技術(shù)的氣象數(shù)據(jù)挖掘研究[D];內(nèi)蒙古工業(yè)大學(xué);2013年
6 饒瑩心;數(shù)據(jù)挖掘技術(shù)在招生決策系統(tǒng)中的應(yīng)用[D];華東理工大學(xué);2013年
7 白帆;基于增量分區(qū)的社交網(wǎng)絡(luò)數(shù)據(jù)管理與維護(hù)研究[D];東北大學(xué);2012年
8 周虹;基于自適應(yīng)粒子群的k-中心聚類算法研究[D];長沙理工大學(xué);2012年
9 邢昕;灰色神經(jīng)網(wǎng)絡(luò)改進(jìn)算法及其應(yīng)用研究[D];華中科技大學(xué);2011年
10 謝瀟;粗糙集屬性約簡算法在電力市場中的研究及應(yīng)用[D];華北電力大學(xué);2011年
,本文編號:1790530
本文鏈接:http://sikaile.net/kejilunwen/dianlidianqilunwen/1790530.html