大數(shù)據(jù)處理技術(shù)在用電行為分析中的應(yīng)用研究
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TM73;TP311.13
【圖文】:
與簇心的距離),進(jìn)行對(duì)比,將該數(shù)據(jù)點(diǎn)分至距離該數(shù)據(jù)點(diǎn)最近上計(jì)算重心的方法調(diào)整聚類中心(將聚類中心移動(dòng)至中心位置),是否收斂,如果沒有收斂,反復(fù)迭代執(zhí)行,迭代后需要比較兩次置,如果移動(dòng)位置小于某個(gè)值或者未移動(dòng)表明算法收斂。當(dāng)所有示算法已經(jīng)結(jié)束。doop 分布式系統(tǒng)oop 是一個(gè)基于分布式的基本系統(tǒng)框架,該框架由 Apache 基金會(huì)。該框架的實(shí)現(xiàn)需要大量的計(jì)算機(jī)做支撐,采用數(shù)量上的優(yōu)勢(shì)去儲(chǔ)和高效的數(shù)據(jù)計(jì)算。因此在設(shè)計(jì)上 Hadoop 分布式系統(tǒng)主要由MapReduce[7]計(jì)算框架和 HDFS[36]存儲(chǔ)框架。FS 采用 master/slave 架構(gòu),在整個(gè) HDFS 集群中不僅包括許多存e 節(jié)點(diǎn),并且有且僅有一個(gè)單獨(dú)的負(fù)責(zé)文件系統(tǒng)的命名空間和文件NameNode 節(jié)點(diǎn)。DataNode 節(jié)點(diǎn)向 NameNode 節(jié)點(diǎn)報(bào)告所其實(shí)際據(jù)。具體框架如圖 2-1 所示。
圖 2- 2 Spark RDD 編程模型.1 分布式文件系統(tǒng)Hadoop 分布式文件系統(tǒng)(HDFS)可以在普通的硬件上進(jìn)行部署,它可以布式的存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)硬件群中。此外 HDFS 容錯(cuò)性高,可以在廉價(jià)的進(jìn)行部署。在數(shù)據(jù)訪問方面,HDFS 可以滿足流式數(shù)據(jù)訪問功能,并且吞滿足大規(guī)模數(shù)據(jù)的訪問。HDFS 具有以下明顯優(yōu)勢(shì):(1)硬件錯(cuò)誤檢測(cè):每一份數(shù)據(jù)默認(rèn)存儲(chǔ) 3 份。此外每當(dāng)服務(wù)器硬件發(fā)HDFS 能夠進(jìn)行快速檢測(cè),并且根據(jù)備份數(shù)據(jù)快速自動(dòng)恢復(fù)損失的數(shù)據(jù)塊(2)流式數(shù)據(jù)訪問:HDFS 采用流式數(shù)據(jù)訪問,并且修改了部分可移植操口的語義,操作兼容性更強(qiáng),同時(shí)也提高了數(shù)據(jù)訪問吞吐量。(3)大規(guī)模數(shù)據(jù)集:在存儲(chǔ)大規(guī)模數(shù)據(jù)方面,HDFS 采用數(shù)據(jù)塊的方式。的文件快,僅靠一個(gè)單獨(dú)的 HDFS 實(shí)例便可以進(jìn)行支撐。(4)簡(jiǎn)單的一致性模型:HDFS 采取最簡(jiǎn)單的“一次寫入多次讀取”策略文件一旦經(jīng)過創(chuàng)建、寫入和關(guān)閉,那么這個(gè)文件就會(huì)被“鎖定”,也就是禁
圖 2-3 Spark 運(yùn)行框架 Spark 應(yīng)用框架park 在 SparkCore 引用引擎的基礎(chǔ)上,目前已經(jīng)形成了比較完善的生態(tài)括 Spark SQL,Spark String,Spark MLib,Spark GraphX 和 Spark R 等1) Spark SQL[38]:sql 查詢工具,實(shí)現(xiàn)本地和 HDFS 中相關(guān)文件的讀向 RDD 的文件轉(zhuǎn)化,通過 Sparkcore 的計(jì)算,在數(shù)據(jù)倉庫中進(jìn)行注冊(cè)現(xiàn)通過 sql 語句對(duì)分布式存儲(chǔ)的數(shù)據(jù)的查詢操作。2) Spark Streaming:此為流式計(jì)算框架。把數(shù)據(jù)流轉(zhuǎn)化為 RDD,然處理,減少了計(jì)算量。3) Spark MLlib:機(jī)器學(xué)習(xí)的處理方案。該解決方案采用 Spark 的 R模型,效率高,并且支持決策樹、樸素貝葉斯、奇異值分解等機(jī)器學(xué)習(xí)4) Spark GraphX[39]:圖并行計(jì)算框架。GraphX 對(duì) RDD 的抽象進(jìn)的擴(kuò)展,最核心的部分是有向多重圖:RDPG(Resilient Distributed P)。GraphX 在提供具有獨(dú)立操作符的 Table 和 Graph 兩種視圖,靈活5) SparkR:Spark R 提供 RDD 的程序接口,實(shí)現(xiàn)了在多臺(tái)機(jī)器內(nèi)存
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭曉利;于陽;;基于云計(jì)算的家庭智能用電策略[J];電力系統(tǒng)自動(dòng)化;2015年17期
2 張斌;莊池杰;胡軍;陳水明;張明明;王科;曾嶸;;結(jié)合降維技術(shù)的電力負(fù)荷曲線集成聚類算法[J];中國電機(jī)工程學(xué)報(bào);2015年15期
3 盧小賓;王濤;;Google三大云計(jì)算技術(shù)對(duì)海量數(shù)據(jù)分析流程的技術(shù)改進(jìn)優(yōu)化研究[J];圖書情報(bào)工作;2015年03期
4 胡長華;;基于大用戶用電行為分析的錯(cuò)峰管理系統(tǒng)研究與設(shè)計(jì)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2014年21期
5 張素香;劉建明;趙丙鎮(zhèn);曹津平;;基于云計(jì)算的居民用電行為分析模型研究[J];電網(wǎng)技術(shù);2013年06期
6 宋亞奇;周國亮;朱永利;;智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J];電網(wǎng)技術(shù);2013年04期
7 何永秀;王冰;熊威;張婷;劉洋洋;;基于模糊綜合評(píng)價(jià)的居民智能用電行為分析與互動(dòng)機(jī)制設(shè)計(jì)[J];電網(wǎng)技術(shù);2012年10期
8 劉正偉;文中領(lǐng);張海濤;;云計(jì)算和云數(shù)據(jù)管理技術(shù)[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期
9 李培強(qiáng);李欣然;陳輝華;唐外文;;基于模糊聚類的電力負(fù)荷特性的分類與綜合[J];中國電機(jī)工程學(xué)報(bào);2005年24期
10 王熙照,王亞東,湛燕,袁方;學(xué)習(xí)特征權(quán)值對(duì)K-均值聚類算法的優(yōu)化[J];計(jì)算機(jī)研究與發(fā)展;2003年06期
本文編號(hào):2804120
本文鏈接:http://sikaile.net/kejilunwen/dianlilw/2804120.html