基于Spark框架的電力大數(shù)據(jù)清洗模型
本文選題:電力大數(shù)據(jù) 切入點(diǎn):數(shù)據(jù)清洗 出處:《電測(cè)與儀表》2017年14期 論文類(lèi)型:期刊論文
【摘要】:針對(duì)電力大數(shù)據(jù)清洗過(guò)程中的提取統(tǒng)一異常檢測(cè)模式困難、異常數(shù)據(jù)修正連續(xù)性及準(zhǔn)確性低下等問(wèn)題,提出了一種基于Spark框架的電力大數(shù)據(jù)清洗模型。首先基于改進(jìn)CURE聚類(lèi)算法獲取正常簇;其次,實(shí)現(xiàn)了正常簇的邊界樣本獲取方法,并設(shè)計(jì)了基于邊界樣本的異常識(shí)別算法;最后通過(guò)指數(shù)加權(quán)移動(dòng)平均數(shù)實(shí)現(xiàn)了異常數(shù)據(jù)修正。通過(guò)對(duì)某風(fēng)電場(chǎng)風(fēng)力發(fā)電監(jiān)測(cè)數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗實(shí)驗(yàn)分析,驗(yàn)證了清洗模型的高效性、準(zhǔn)確性。
[Abstract]:In view of the difficulty of extracting unified anomaly detection mode in the process of power big data cleaning, the correction continuity and accuracy of abnormal data are low, A power big data cleaning model based on Spark framework is proposed. Firstly, the improved CURE clustering algorithm is used to obtain the normal cluster; secondly, the boundary sample acquisition method of the normal cluster is implemented, and the anomaly recognition algorithm based on the boundary sample is designed. Finally, the correction of abnormal data is realized by exponentially weighted moving average, and the efficiency and accuracy of the cleaning model are verified by the experimental analysis of data cleaning for wind power generation monitoring data of a certain wind farm.
【作者單位】: 國(guó)網(wǎng)內(nèi)蒙古東部電力有限公司信息通信分公司;蘭州大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;
【分類(lèi)號(hào)】:TM76;TP311.13
【相似文獻(xiàn)】
相關(guān)會(huì)議論文 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個(gè)可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 崔運(yùn)釧;劉連忠;;一種可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
3 汪愛(ài)民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計(jì)和應(yīng)用[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國(guó)索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴(kuò)展的數(shù)據(jù)清洗框架[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險(xiǎn)貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動(dòng)態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
10 趙之慧;;專(zhuān)利數(shù)據(jù)加工[A];2014年中華全國(guó)專(zhuān)利代理人協(xié)會(huì)年會(huì)第五屆知識(shí)產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
相關(guān)重要報(bào)紙文章 前1條
1 中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨(dú)立的數(shù)據(jù)清洗服務(wù)[N];計(jì)算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲(chǔ)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 艾超;針對(duì)在線產(chǎn)品支撐數(shù)據(jù)的過(guò)濾和分析系統(tǒng)的研究與設(shè)計(jì)[D];電子科技大學(xué);2015年
5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年
6 王江;數(shù)據(jù)清洗技術(shù)研究及清洗框架的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2016年
7 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學(xué);2016年
8 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
9 盛丹丹;面向農(nóng)業(yè)領(lǐng)域知識(shí)庫(kù)構(gòu)建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國(guó)農(nóng)業(yè)科學(xué)院;2016年
10 鄭紀(jì)玲;數(shù)據(jù)清洗在構(gòu)建POI數(shù)據(jù)倉(cāng)庫(kù)中的研究與應(yīng)用[D];中國(guó)礦業(yè)大學(xué);2016年
,本文編號(hào):1591341
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1591341.html