融合降維和負(fù)荷聚類的高效電力用戶分類方法
發(fā)布時(shí)間:2021-01-12 16:03
隨著智能電表的不斷推廣,電力行業(yè)積累的數(shù)據(jù)也逐漸呈海量趨勢。電網(wǎng)業(yè)務(wù)的多元化,也促進(jìn)了數(shù)據(jù)挖掘研究在電力行業(yè)的發(fā)展。電力用戶分類是眾多電力行業(yè)應(yīng)用的基礎(chǔ),科學(xué)合理的電力用戶分類有利于分時(shí)電價(jià)、負(fù)荷預(yù)測、移峰填谷等應(yīng)用的進(jìn)一步發(fā)展。傳統(tǒng)的電力用戶分類在用電習(xí)慣多元化的今天,已經(jīng)顯現(xiàn)出了一些弊端。應(yīng)用海量負(fù)荷數(shù)據(jù)對(duì)電力用戶進(jìn)行分類,能夠充分利用電力用戶的用電特征,對(duì)用戶進(jìn)行更好合理的劃分。根據(jù)對(duì)電力用戶分類方法的總結(jié),本文做了以下工作:1)分析了課題研究的背景與意義,分析了目前國內(nèi)外對(duì)于電力用戶分類方法的研究現(xiàn)狀以及存在的一些問題。并在此基礎(chǔ)上提出了改進(jìn)的思路。2)介紹了本文中所涉及到的一些相關(guān)理論知識(shí),分析對(duì)比了大數(shù)據(jù)平臺(tái)Hadoop和Spark。梳理了 Spark MLlib中降維算法和聚類算法,并進(jìn)行了分析對(duì)比。最終根據(jù)電力用戶分類的具體需求,確定了主成分分析算法和k-means算法作為本文中實(shí)現(xiàn)電力用戶分類的具體算法。3)充分利用Spark平臺(tái)和Spark MLlib的優(yōu)勢,設(shè)計(jì)了一種融合降維和負(fù)荷聚類的高效電力用戶分類方法。詳細(xì)地介紹了本方法的實(shí)現(xiàn)流程與具體算法的原理及實(shí)現(xiàn)過程。...
【文章來源】:華北電力大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?Spark?MLlib算法結(jié)構(gòu)??Spark?R實(shí)現(xiàn)了?R語言中Spark的輕松使用,允許開發(fā)者利用R?shell來對(duì)大??規(guī)模數(shù)據(jù)集進(jìn)行分析和交互式地允許任務(wù)
,;??(3)對(duì)每個(gè)RDD進(jìn)行聚類運(yùn)算,完成了?Map操作后,對(duì)每個(gè)新生成的??RDD進(jìn)行規(guī)約操作。將聚類到同一個(gè)簇中的點(diǎn)放在一起,并且根據(jù)這些點(diǎn)重新??計(jì)算每個(gè)族的新的聚類中心;??(4)比較新的聚類中心點(diǎn)和前一個(gè)聚類中心點(diǎn)之間的距離,如果收斂到指??定閾值或者達(dá)到k-means最大運(yùn)行次數(shù),則結(jié)束聚類操作;如果不滿足則回到??第(2)步,繼續(xù)后面的步驟。??(5)得到最后的聚類結(jié)果,將結(jié)果存到HDFS中。??Spark中的k-means算法實(shí)現(xiàn)過程如圖3-2所示,其中中間部分白色有標(biāo)數(shù)??字的點(diǎn)為樣本數(shù)據(jù)點(diǎn),深藍(lán)色實(shí)心點(diǎn)為每個(gè)簇的中心點(diǎn)。首先Spark從分布式??文件系統(tǒng)中讀取耑要進(jìn)行聚類的數(shù)據(jù)點(diǎn),再利用k-meansll算法確定初始聚類中??心。利用Map操作來對(duì)數(shù)據(jù)進(jìn)行映射,將初始聚類中心和待聚類的數(shù)據(jù)點(diǎn)聯(lián)系??起來。然后利用Reduce操作對(duì)數(shù)據(jù)進(jìn)行規(guī)約,并計(jì)算得到新的聚類中心。如果??聚類結(jié)果不符合要求,再重復(fù)按照Map和Reduce操作的過程對(duì)聚類操作進(jìn)行??迭代運(yùn)算,直至聚類結(jié)果滿足要求。對(duì)數(shù)據(jù)點(diǎn)進(jìn)行k-means聚類后的結(jié)果,將??被保存在分布式文件系統(tǒng)中。?????
Zookeeper?3.4.6,Hbase?0.98.6,Hive?2.1.1,Scala?2.11.1],?Spark?1.6.3。Spark?采??用YARN模式進(jìn)行部署。??實(shí)驗(yàn)平臺(tái)架構(gòu)圖與運(yùn)算組件如圖4-1所示。??I?Executor?i??1漏__漏??SparkContext?_?、:?’??''?mssBtkm??一?.、,.d??■?^;1十:、■>?—??’癸?Executor??圖4-1實(shí)驗(yàn)平臺(tái)架構(gòu)圖及運(yùn)算組件??先將負(fù)荷數(shù)據(jù)存儲(chǔ)在HDFS中,然后通過運(yùn)行驅(qū)動(dòng)程序來創(chuàng)建SparkContext,??準(zhǔn)備Spark的運(yùn)行環(huán)境。SparkContext與集群管理模塊直接進(jìn)行通信,再通過集??群管理模塊將任務(wù)發(fā)送給各個(gè)從節(jié)點(diǎn),再由Executor來執(zhí)行,各個(gè)節(jié)點(diǎn)之間的??任務(wù)獨(dú)立。在執(zhí)行的過程中,Executor?qū)⒅虚g結(jié)果暫存在內(nèi)存中。當(dāng)任務(wù)執(zhí)行完??之后,再將運(yùn)算結(jié)果返回,并根據(jù)需要決定是否將其存儲(chǔ)到HDFS中。當(dāng)所有操??作完成后,驅(qū)動(dòng)程序?qū)ⅲ樱穑幔颍耄茫铮睿簦澹絷P(guān)閉。
【參考文獻(xiàn)】:
期刊論文
[1]一種結(jié)合降維技術(shù)的負(fù)荷曲線雙層聚類算法[J]. 寧光濤,陳明帆,林強(qiáng),周航,黃亮,高玉潔. 自動(dòng)化與儀器儀表. 2018(05)
[2]基于Spark平臺(tái)和并行隨機(jī)森林回歸算法的短期電力負(fù)荷預(yù)測[J]. 劉琪琛,雷景生,郝珈瑋,黃燕剛,李強(qiáng),羅海波. 電力建設(shè). 2017(10)
[3]面向售電側(cè)改革的用戶分層聚類與套餐推薦方法[J]. 孫毅,顧瑋,李彬,崔燦,孫辰軍,鄭愛霞. 電網(wǎng)技術(shù). 2018(02)
[4]基于Spark的電力調(diào)度數(shù)據(jù)整合模型[J]. 曲朝陽,陳賀新,胡可為,劉耀偉,獨(dú)健鴻. 計(jì)算機(jī)工程與應(yīng)用. 2017(19)
[5]基于Spark的電力設(shè)備在線監(jiān)測數(shù)據(jù)可視化方法[J]. 曲朝陽,熊澤宇,顏佳,辛鵬,曲楠. 電工電能新技術(shù). 2016(11)
[6]大數(shù)據(jù)平臺(tái)在電力系統(tǒng)中的應(yīng)用研究[J]. 曹皖誠,湯少卿,尤鋆. 江蘇科技信息. 2016(29)
[7]基于聚類分析的用戶分類和用電行為分析[J]. 徐良軍,張笑第,王立軍. 山西電力. 2016(04)
[8]基于云模型和模糊聚類的電力負(fù)荷模式提取方法[J]. 宋易陽,李存斌,祁之強(qiáng). 電網(wǎng)技術(shù). 2014(12)
[9]基于實(shí)際負(fù)荷曲線的電力用戶分類技術(shù)研究[J]. 馮曉蒲,張鐵峰. 電力科學(xué)與工程. 2010(09)
[10]基于用戶日負(fù)荷曲線的用電行業(yè)分類與綜合方法[J]. 李欣然,姜學(xué)皎,錢軍,陳輝華,宋軍英,黃良剛. 電力系統(tǒng)自動(dòng)化. 2010(10)
碩士論文
[1]基于改進(jìn)k均值聚類算法的電力負(fù)荷模式識(shí)別方法研究[D]. 胡陽春.電子科技大學(xué) 2018
[2]基于數(shù)據(jù)挖掘的電力負(fù)荷特性與用戶分類研究[D]. 李晶.北京郵電大學(xué) 2016
[3]基于Hadoop平臺(tái)的電力大客戶用電時(shí)序數(shù)據(jù)分類研究[D]. 蔣佳軍.華南理工大學(xué) 2015
[4]大用戶直購電環(huán)境下的用戶分類與電力網(wǎng)絡(luò)成本分?jǐn)俒D]. 周盈.浙江大學(xué) 2015
[5]基于模糊c均值聚類的分類分時(shí)電價(jià)研究[D]. 羅伶.山東大學(xué) 2013
本文編號(hào):2973090
【文章來源】:華北電力大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?Spark?MLlib算法結(jié)構(gòu)??Spark?R實(shí)現(xiàn)了?R語言中Spark的輕松使用,允許開發(fā)者利用R?shell來對(duì)大??規(guī)模數(shù)據(jù)集進(jìn)行分析和交互式地允許任務(wù)
,;??(3)對(duì)每個(gè)RDD進(jìn)行聚類運(yùn)算,完成了?Map操作后,對(duì)每個(gè)新生成的??RDD進(jìn)行規(guī)約操作。將聚類到同一個(gè)簇中的點(diǎn)放在一起,并且根據(jù)這些點(diǎn)重新??計(jì)算每個(gè)族的新的聚類中心;??(4)比較新的聚類中心點(diǎn)和前一個(gè)聚類中心點(diǎn)之間的距離,如果收斂到指??定閾值或者達(dá)到k-means最大運(yùn)行次數(shù),則結(jié)束聚類操作;如果不滿足則回到??第(2)步,繼續(xù)后面的步驟。??(5)得到最后的聚類結(jié)果,將結(jié)果存到HDFS中。??Spark中的k-means算法實(shí)現(xiàn)過程如圖3-2所示,其中中間部分白色有標(biāo)數(shù)??字的點(diǎn)為樣本數(shù)據(jù)點(diǎn),深藍(lán)色實(shí)心點(diǎn)為每個(gè)簇的中心點(diǎn)。首先Spark從分布式??文件系統(tǒng)中讀取耑要進(jìn)行聚類的數(shù)據(jù)點(diǎn),再利用k-meansll算法確定初始聚類中??心。利用Map操作來對(duì)數(shù)據(jù)進(jìn)行映射,將初始聚類中心和待聚類的數(shù)據(jù)點(diǎn)聯(lián)系??起來。然后利用Reduce操作對(duì)數(shù)據(jù)進(jìn)行規(guī)約,并計(jì)算得到新的聚類中心。如果??聚類結(jié)果不符合要求,再重復(fù)按照Map和Reduce操作的過程對(duì)聚類操作進(jìn)行??迭代運(yùn)算,直至聚類結(jié)果滿足要求。對(duì)數(shù)據(jù)點(diǎn)進(jìn)行k-means聚類后的結(jié)果,將??被保存在分布式文件系統(tǒng)中。?????
Zookeeper?3.4.6,Hbase?0.98.6,Hive?2.1.1,Scala?2.11.1],?Spark?1.6.3。Spark?采??用YARN模式進(jìn)行部署。??實(shí)驗(yàn)平臺(tái)架構(gòu)圖與運(yùn)算組件如圖4-1所示。??I?Executor?i??1漏__漏??SparkContext?_?、:?’??''?mssBtkm??一?.、,.d??■?^;1十:、■>?—??’癸?Executor??圖4-1實(shí)驗(yàn)平臺(tái)架構(gòu)圖及運(yùn)算組件??先將負(fù)荷數(shù)據(jù)存儲(chǔ)在HDFS中,然后通過運(yùn)行驅(qū)動(dòng)程序來創(chuàng)建SparkContext,??準(zhǔn)備Spark的運(yùn)行環(huán)境。SparkContext與集群管理模塊直接進(jìn)行通信,再通過集??群管理模塊將任務(wù)發(fā)送給各個(gè)從節(jié)點(diǎn),再由Executor來執(zhí)行,各個(gè)節(jié)點(diǎn)之間的??任務(wù)獨(dú)立。在執(zhí)行的過程中,Executor?qū)⒅虚g結(jié)果暫存在內(nèi)存中。當(dāng)任務(wù)執(zhí)行完??之后,再將運(yùn)算結(jié)果返回,并根據(jù)需要決定是否將其存儲(chǔ)到HDFS中。當(dāng)所有操??作完成后,驅(qū)動(dòng)程序?qū)ⅲ樱穑幔颍耄茫铮睿簦澹絷P(guān)閉。
【參考文獻(xiàn)】:
期刊論文
[1]一種結(jié)合降維技術(shù)的負(fù)荷曲線雙層聚類算法[J]. 寧光濤,陳明帆,林強(qiáng),周航,黃亮,高玉潔. 自動(dòng)化與儀器儀表. 2018(05)
[2]基于Spark平臺(tái)和并行隨機(jī)森林回歸算法的短期電力負(fù)荷預(yù)測[J]. 劉琪琛,雷景生,郝珈瑋,黃燕剛,李強(qiáng),羅海波. 電力建設(shè). 2017(10)
[3]面向售電側(cè)改革的用戶分層聚類與套餐推薦方法[J]. 孫毅,顧瑋,李彬,崔燦,孫辰軍,鄭愛霞. 電網(wǎng)技術(shù). 2018(02)
[4]基于Spark的電力調(diào)度數(shù)據(jù)整合模型[J]. 曲朝陽,陳賀新,胡可為,劉耀偉,獨(dú)健鴻. 計(jì)算機(jī)工程與應(yīng)用. 2017(19)
[5]基于Spark的電力設(shè)備在線監(jiān)測數(shù)據(jù)可視化方法[J]. 曲朝陽,熊澤宇,顏佳,辛鵬,曲楠. 電工電能新技術(shù). 2016(11)
[6]大數(shù)據(jù)平臺(tái)在電力系統(tǒng)中的應(yīng)用研究[J]. 曹皖誠,湯少卿,尤鋆. 江蘇科技信息. 2016(29)
[7]基于聚類分析的用戶分類和用電行為分析[J]. 徐良軍,張笑第,王立軍. 山西電力. 2016(04)
[8]基于云模型和模糊聚類的電力負(fù)荷模式提取方法[J]. 宋易陽,李存斌,祁之強(qiáng). 電網(wǎng)技術(shù). 2014(12)
[9]基于實(shí)際負(fù)荷曲線的電力用戶分類技術(shù)研究[J]. 馮曉蒲,張鐵峰. 電力科學(xué)與工程. 2010(09)
[10]基于用戶日負(fù)荷曲線的用電行業(yè)分類與綜合方法[J]. 李欣然,姜學(xué)皎,錢軍,陳輝華,宋軍英,黃良剛. 電力系統(tǒng)自動(dòng)化. 2010(10)
碩士論文
[1]基于改進(jìn)k均值聚類算法的電力負(fù)荷模式識(shí)別方法研究[D]. 胡陽春.電子科技大學(xué) 2018
[2]基于數(shù)據(jù)挖掘的電力負(fù)荷特性與用戶分類研究[D]. 李晶.北京郵電大學(xué) 2016
[3]基于Hadoop平臺(tái)的電力大客戶用電時(shí)序數(shù)據(jù)分類研究[D]. 蔣佳軍.華南理工大學(xué) 2015
[4]大用戶直購電環(huán)境下的用戶分類與電力網(wǎng)絡(luò)成本分?jǐn)俒D]. 周盈.浙江大學(xué) 2015
[5]基于模糊c均值聚類的分類分時(shí)電價(jià)研究[D]. 羅伶.山東大學(xué) 2013
本文編號(hào):2973090
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2973090.html
最近更新
教材專著