大數(shù)據(jù)處理技術(shù)在用電行為分析中的應(yīng)用研究
【學(xué)位授予單位】:華北電力大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TM73;TP311.13
【圖文】:
與簇心的距離),進行對比,將該數(shù)據(jù)點分至距離該數(shù)據(jù)點最近上計算重心的方法調(diào)整聚類中心(將聚類中心移動至中心位置),是否收斂,如果沒有收斂,反復(fù)迭代執(zhí)行,迭代后需要比較兩次置,如果移動位置小于某個值或者未移動表明算法收斂。當所有示算法已經(jīng)結(jié)束。doop 分布式系統(tǒng)oop 是一個基于分布式的基本系統(tǒng)框架,該框架由 Apache 基金會。該框架的實現(xiàn)需要大量的計算機做支撐,采用數(shù)量上的優(yōu)勢去儲和高效的數(shù)據(jù)計算。因此在設(shè)計上 Hadoop 分布式系統(tǒng)主要由MapReduce[7]計算框架和 HDFS[36]存儲框架。FS 采用 master/slave 架構(gòu),在整個 HDFS 集群中不僅包括許多存e 節(jié)點,并且有且僅有一個單獨的負責文件系統(tǒng)的命名空間和文件NameNode 節(jié)點。DataNode 節(jié)點向 NameNode 節(jié)點報告所其實際據(jù)。具體框架如圖 2-1 所示。
圖 2- 2 Spark RDD 編程模型.1 分布式文件系統(tǒng)Hadoop 分布式文件系統(tǒng)(HDFS)可以在普通的硬件上進行部署,它可以布式的存儲在計算機存儲硬件群中。此外 HDFS 容錯性高,可以在廉價的進行部署。在數(shù)據(jù)訪問方面,HDFS 可以滿足流式數(shù)據(jù)訪問功能,并且吞滿足大規(guī)模數(shù)據(jù)的訪問。HDFS 具有以下明顯優(yōu)勢:(1)硬件錯誤檢測:每一份數(shù)據(jù)默認存儲 3 份。此外每當服務(wù)器硬件發(fā)HDFS 能夠進行快速檢測,并且根據(jù)備份數(shù)據(jù)快速自動恢復(fù)損失的數(shù)據(jù)塊(2)流式數(shù)據(jù)訪問:HDFS 采用流式數(shù)據(jù)訪問,并且修改了部分可移植操口的語義,操作兼容性更強,同時也提高了數(shù)據(jù)訪問吞吐量。(3)大規(guī)模數(shù)據(jù)集:在存儲大規(guī)模數(shù)據(jù)方面,HDFS 采用數(shù)據(jù)塊的方式。的文件快,僅靠一個單獨的 HDFS 實例便可以進行支撐。(4)簡單的一致性模型:HDFS 采取最簡單的“一次寫入多次讀取”策略文件一旦經(jīng)過創(chuàng)建、寫入和關(guān)閉,那么這個文件就會被“鎖定”,也就是禁
圖 2-3 Spark 運行框架 Spark 應(yīng)用框架park 在 SparkCore 引用引擎的基礎(chǔ)上,目前已經(jīng)形成了比較完善的生態(tài)括 Spark SQL,Spark String,Spark MLib,Spark GraphX 和 Spark R 等1) Spark SQL[38]:sql 查詢工具,實現(xiàn)本地和 HDFS 中相關(guān)文件的讀向 RDD 的文件轉(zhuǎn)化,通過 Sparkcore 的計算,在數(shù)據(jù)倉庫中進行注冊現(xiàn)通過 sql 語句對分布式存儲的數(shù)據(jù)的查詢操作。2) Spark Streaming:此為流式計算框架。把數(shù)據(jù)流轉(zhuǎn)化為 RDD,然處理,減少了計算量。3) Spark MLlib:機器學(xué)習(xí)的處理方案。該解決方案采用 Spark 的 R模型,效率高,并且支持決策樹、樸素貝葉斯、奇異值分解等機器學(xué)習(xí)4) Spark GraphX[39]:圖并行計算框架。GraphX 對 RDD 的抽象進的擴展,最核心的部分是有向多重圖:RDPG(Resilient Distributed P)。GraphX 在提供具有獨立操作符的 Table 和 Graph 兩種視圖,靈活5) SparkR:Spark R 提供 RDD 的程序接口,實現(xiàn)了在多臺機器內(nèi)存
【參考文獻】
相關(guān)期刊論文 前10條
1 郭曉利;于陽;;基于云計算的家庭智能用電策略[J];電力系統(tǒng)自動化;2015年17期
2 張斌;莊池杰;胡軍;陳水明;張明明;王科;曾嶸;;結(jié)合降維技術(shù)的電力負荷曲線集成聚類算法[J];中國電機工程學(xué)報;2015年15期
3 盧小賓;王濤;;Google三大云計算技術(shù)對海量數(shù)據(jù)分析流程的技術(shù)改進優(yōu)化研究[J];圖書情報工作;2015年03期
4 胡長華;;基于大用戶用電行為分析的錯峰管理系統(tǒng)研究與設(shè)計[J];現(xiàn)代計算機(專業(yè)版);2014年21期
5 張素香;劉建明;趙丙鎮(zhèn);曹津平;;基于云計算的居民用電行為分析模型研究[J];電網(wǎng)技術(shù);2013年06期
6 宋亞奇;周國亮;朱永利;;智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J];電網(wǎng)技術(shù);2013年04期
7 何永秀;王冰;熊威;張婷;劉洋洋;;基于模糊綜合評價的居民智能用電行為分析與互動機制設(shè)計[J];電網(wǎng)技術(shù);2012年10期
8 劉正偉;文中領(lǐng);張海濤;;云計算和云數(shù)據(jù)管理技術(shù)[J];計算機研究與發(fā)展;2012年S1期
9 李培強;李欣然;陳輝華;唐外文;;基于模糊聚類的電力負荷特性的分類與綜合[J];中國電機工程學(xué)報;2005年24期
10 王熙照,王亞東,湛燕,袁方;學(xué)習(xí)特征權(quán)值對K-均值聚類算法的優(yōu)化[J];計算機研究與發(fā)展;2003年06期
本文編號:2804120
本文鏈接:http://sikaile.net/kejilunwen/dianlilw/2804120.html