基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用
本文關(guān)鍵詞:基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,在電子商務(wù)、科學(xué)研究、社交平臺等諸多領(lǐng)域,數(shù)據(jù)規(guī)模、數(shù)據(jù)種類正在極速增長,大數(shù)據(jù)的時(shí)代已然來臨。在電網(wǎng)領(lǐng)域,隨著物聯(lián)網(wǎng)的發(fā)展,傳感器的大量應(yīng)用,監(jiān)控采集到的數(shù)據(jù)也越來越龐大。由于數(shù)據(jù)規(guī)模大,數(shù)據(jù)類型多,數(shù)據(jù)處理時(shí)效性高,傳統(tǒng)的數(shù)據(jù)處理技術(shù)無法滿足技術(shù)要求。針對電網(wǎng)大數(shù)據(jù)的統(tǒng)計(jì)分析,急需大數(shù)據(jù)技術(shù)的支持。Spark是一個(gè)新興、高效的大數(shù)據(jù)計(jì)算框架,它提供有豐富的組件及API,支持流式數(shù)據(jù)的處理、圖計(jì)算、機(jī)器學(xué)習(xí)及SQL查詢。在電網(wǎng)大數(shù)據(jù)的統(tǒng)計(jì)分析中,涉及大表之間的關(guān)聯(lián)操作。Spark中采用join操作對兩表進(jìn)行關(guān)聯(lián),關(guān)聯(lián)過程中會有大量不符合條件的數(shù)據(jù)與Shuffle操作,導(dǎo)致join的效率不高。本文針對Spark中join操作的低效問題和電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)分析的實(shí)際應(yīng)用問題,首先,提出一種基于BloomFilter過濾再分區(qū)的算法,通過這種方式預(yù)先過濾掉大部分不符合條件的連接數(shù)據(jù),然后針對數(shù)據(jù)傾斜的問題進(jìn)行再分區(qū),充分發(fā)揮各節(jié)點(diǎn)的計(jì)算資源,最大程序上優(yōu)化join過程,從而提高程序的整體效率。最后,本文在國家電網(wǎng)重慶供電公司調(diào)控中心的統(tǒng)計(jì)業(yè)務(wù)需求背景下,結(jié)合Spark及Spark SQL提出了一個(gè)電網(wǎng)數(shù)據(jù)處理模型,通過與J2EE Web技術(shù)整合,實(shí)現(xiàn)了電網(wǎng)數(shù)據(jù)的采集、計(jì)算分析和展示。
【關(guān)鍵詞】:Spark Spark SQL 等值連接 電網(wǎng) 大數(shù)據(jù)
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TM76;TP311.13
【目錄】:
- 中文摘要3-4
- 英文摘要4-7
- 1 緒論7-14
- 1.1 研究背景與意義7-9
- 1.1.1 大數(shù)據(jù)產(chǎn)生背景7
- 1.1.2 大數(shù)據(jù)概念和特征7-8
- 1.1.3 大數(shù)據(jù)在智能電網(wǎng)調(diào)度中的應(yīng)用8-9
- 1.1.4 研究意義9
- 1.2 國內(nèi)外研究現(xiàn)狀9-12
- 1.3 本文的主要內(nèi)容12-13
- 1.4 本文結(jié)構(gòu)安排13
- 1.5 本章小結(jié)13-14
- 2 基礎(chǔ)理論及關(guān)鍵技術(shù)14-30
- 2.1 主流的大數(shù)據(jù)計(jì)算框架14-15
- 2.2 SPARK介紹15-23
- 2.2.1 Spark核心概念16-18
- 2.2.2 Spark的基本工作流程18
- 2.2.3 Spark任務(wù)調(diào)度18-20
- 2.2.4 Spark生態(tài)系統(tǒng)20-21
- 2.2.5 Spark部署方式21-23
- 2.3 SPARK SQL23-26
- 2.3.1 Spark SQL的運(yùn)行構(gòu)架24-25
- 2.3.2 Join實(shí)例示例25-26
- 2.4 SPARK分區(qū)的相關(guān)理論26-29
- 2.4.1 Shuffle分析26-27
- 2.4.2 BloomFilter27-28
- 2.4.3 一致性哈希思想28
- 2.4.4 水塘抽樣算法28-29
- 2.5 本章小結(jié)29-30
- 3 過濾再分區(qū)的大表等值連接算法30-43
- 3.1 問題背景30-31
- 3.2 SPARK分區(qū)31-32
- 3.2.1 Spark分區(qū)器31
- 3.2.2 業(yè)務(wù)數(shù)據(jù)的自定義分區(qū)31-32
- 3.3 過濾再分區(qū)算法設(shè)計(jì)32-35
- 3.3.1 過濾算法描述32-34
- 3.3.2 分區(qū)策略描述34-35
- 3.4 過濾再分區(qū)算法分析35-36
- 3.5 實(shí)驗(yàn)及其結(jié)果分析36-42
- 3.6 本章小結(jié)42-43
- 4 基于SPARK的國家電網(wǎng)統(tǒng)計(jì)模型設(shè)計(jì)與應(yīng)用43-53
- 4.1 智能電網(wǎng)調(diào)度數(shù)據(jù)中心系統(tǒng)結(jié)構(gòu)43-45
- 4.2 基于SPARK的電網(wǎng)統(tǒng)計(jì)架構(gòu)設(shè)計(jì)45-47
- 4.2.1 電網(wǎng)數(shù)據(jù)的處理過程46
- 4.2.2 電網(wǎng)數(shù)據(jù)的存儲設(shè)計(jì)46-47
- 4.3 電網(wǎng)調(diào)度數(shù)據(jù)計(jì)算設(shè)計(jì)47-50
- 4.3.1 電網(wǎng)調(diào)度數(shù)據(jù)的過濾48-49
- 4.3.2 電網(wǎng)調(diào)度數(shù)據(jù)的分區(qū)49-50
- 4.4 電網(wǎng)調(diào)度中心統(tǒng)計(jì)報(bào)表模塊中的應(yīng)用50-51
- 4.5 SPARK集群性能優(yōu)化51-52
- 4.6 本章小結(jié)52-53
- 5 總結(jié)與展望53-55
- 5.1 本文總結(jié)53
- 5.2 展望53-55
- 致謝55-56
- 參考文獻(xiàn)56-59
- 附錄 A. 作者在攻讀學(xué)位期間取得的科研成果目錄:59
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 Xin Lu;Bo Sun;Teng-fei Zhao;Lu-ning Wang;Cheng-cheng Liu;Xuan-hui Qu;;Microstructure and mechanical properties of spark plasma sintered Ti Mo alloys for dental applications[J];International Journal of Minerals Metallurgy and Materials;2014年05期
2 朱教群,梅炳初,何利萍,陳艷林;Synthesis of Ti_3SiC_2 by spark plasma sintering(SPS) of elemental powders[J];Transactions of Nonferrous Metals Society of China;2003年01期
3 彭道修;雪佛蘭SPARK安全氣囊電控原理和故障檢修[J];汽車維修與保養(yǎng);2004年09期
4 許劍光;張厚安;江國健;張寶林;李文蘭;;SiC whisker reinforced MoSi_2 composite prepared by spark plasma sintering from COSHS-ed powder[J];Transactions of Nonferrous Metals Society of China;2006年S2期
5 李剛;;Review of Determination of Minimum Ignition Energy of Combustible Gases or Dusts[J];Journal of Measurement Science and Instrumentation;2011年03期
6 ;Laser-induced spark ignition of H_2/O_2/Ar mixtures[J];Science in China(Series E:Technological Sciences);2007年06期
7 Bülent 銉ZDALYAN;Oguzhan DOGAN;;Effect of a semi electro-mechanical engine valve on performance and emissions in a single cylinder spark ignited engine[J];Journal of Zhejiang University-Science A(Applied Physics & Engineering);2012年08期
8 ;Characterization and wear behavior of WC-0.8Co coating on cast steel rolls by electro-spark deposition[J];International Journal of Minerals Metallurgy and Materials;2009年06期
9 N.Saheb;A.S.Hakeem;A.Khalil;N.Al-Aqeeli;T.Laoui;;Synthesis and spark plasma sintering of Al-Mg-Zr alloys[J];Journal of Central South University;2013年01期
10 ;激揚(yáng)時(shí)尚活力——雪佛蘭SPARK[J];汽車維修;2003年10期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 ;Study on the spark discharge plasma jet driven by nanosecond pulses[A];第十五屆全國等離子體科學(xué)技術(shù)會議會議摘要集[C];2011年
2 Osamu Fujiwara;;Effect of Approaching Contact Speed of Hand-Held Metal Piece on Characteristics of Discharge Current from Charged Human Body[A];第二屆貴州省自然科學(xué)優(yōu)秀學(xué)術(shù)論文評選獲獎?wù)撐募?007年)[C];2007年
3 ;β_1- but not β_2-adrenergic signaling accelerates the ryanodine receptor response to a single L-type Ca~(2+) channel in heart ceils[A];中國生理學(xué)會第23屆全國會員代表大會暨生理學(xué)學(xué)術(shù)大會論文摘要文集[C];2010年
4 Minghui Wang;Huajian Li;Wan Jiang;;Preparation of TiB_2/TiN Nano-composites by SP[A];中國材料大會2012第14分會場:先進(jìn)陶瓷材料論文集[C];2012年
中國重要報(bào)紙全文數(shù)據(jù)庫 前8條
1 楊娜;雪佛蘭SPARK詮釋微車[N];中國工業(yè)報(bào);2003年
2 ;雪佛蘭SPARK技術(shù)參數(shù)表[N];中國商報(bào);2003年
3 若冰;雪佛蘭Spark小車中的精靈[N];中國商報(bào);2003年
4 記者 姬旺芳;天水星火SPARK商標(biāo)獲“中國馳名商標(biāo)”[N];天水日報(bào);2010年
5 記者 曉瑗;新西蘭電信將更名為Spark[N];人民郵電;2014年
6 本報(bào)記者 那罡;微軟Spark計(jì)劃再添新成員[N];中國計(jì)算機(jī)報(bào);2009年
7 ;上汽通用五菱SPARK引發(fā)微車新熱浪[N];中國質(zhì)量報(bào);2003年
8 黃靜潔;08款SPARK樂馳上市 能否突圍微轎市場?[N];東方早報(bào);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王韜;基于Spark的聚類集成系統(tǒng)研究與設(shè)計(jì)[D];西南交通大學(xué);2015年
2 陳曉康;基于Spark 云計(jì)算平臺的改進(jìn)K近鄰算法研究[D];廣東工業(yè)大學(xué);2016年
3 牟善文;美國SPARK課程模式小學(xué)生體育課能量代謝特點(diǎn)及干預(yù)實(shí)驗(yàn)研究[D];首都體育學(xué)院;2016年
4 李爭獻(xiàn);基于Spark的移動終端信息推送系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2016年
5 趙洋;基于spark的網(wǎng)絡(luò)廣告交易計(jì)費(fèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
6 尚勃;Spark平臺下基于深度學(xué)習(xí)的網(wǎng)絡(luò)短文本情感分類研究[D];西安建筑科技大學(xué);2016年
7 王海華;Spark數(shù)據(jù)處理平臺中內(nèi)存數(shù)據(jù)空間管理技術(shù)研究[D];北京工業(yè)大學(xué);2016年
8 皮興杰;基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用[D];重慶大學(xué);2016年
9 王國鵬;上海市體育與健身課程與美國SPARK課程的比較研究[D];華東師范大學(xué);2011年
10 翁煬暉;SPARK課程在高校乒乓球公選課中的應(yīng)用研究[D];成都體育學(xué)院;2012年
本文關(guān)鍵詞:基于Spark的電網(wǎng)大數(shù)據(jù)統(tǒng)計(jì)中等值連接問題的優(yōu)化及其應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:506121
本文鏈接:http://sikaile.net/kejilunwen/dianlidianqilunwen/506121.html