基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù) 清洗 框架 Spark 流水線(xiàn)
【摘要】:大數(shù)據(jù)技術(shù)之中核心是數(shù)據(jù)分析,但在真正解決大數(shù)據(jù)問(wèn)題之時(shí),三分之二的工作量都是在大數(shù)據(jù)清洗,大數(shù)據(jù)清洗是開(kāi)始大數(shù)據(jù)處理的基礎(chǔ),所以,高效的大數(shù)據(jù)清洗技術(shù)不僅能有效地提高大數(shù)據(jù)質(zhì)量,也可以加快整體大數(shù)據(jù)處理的流程。本論文設(shè)計(jì)實(shí)現(xiàn)了一套基于Spark的大數(shù)據(jù)清洗框架,原理是充分利用Spark分布式計(jì)算能力,將彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets, RDDs)的操作,封裝成大數(shù)據(jù)清洗的任務(wù)單元,通過(guò)組合,串聯(lián)成完整的大數(shù)據(jù)清洗流水線(xiàn),實(shí)現(xiàn)大數(shù)據(jù)清洗。同時(shí)提出了多叉樹(shù)計(jì)算流結(jié)構(gòu),優(yōu)化大數(shù)據(jù)清洗流程。該框架能夠重用大數(shù)據(jù)清洗功能組件,靈活配置清洗流程,充分利用Spark的高速計(jì)算性能,實(shí)現(xiàn)高可擴(kuò)展性,滿(mǎn)足實(shí)際環(huán)境中復(fù)雜的大數(shù)據(jù)清洗需求,徹底解決大數(shù)據(jù)清洗問(wèn)題,加快整體大數(shù)據(jù)處理流程。實(shí)驗(yàn)證明,基于該大數(shù)據(jù)清洗框架,能夠極大降低清洗流程的耦合性,利用已有的清洗單元,靈活地實(shí)現(xiàn)復(fù)雜的大數(shù)據(jù)清洗,極大降低了大數(shù)據(jù)清洗的成本,最關(guān)鍵的是,利用Spark將大數(shù)據(jù)清洗提升到了一個(gè)新的性能水平,促進(jìn)了大數(shù)據(jù)處理應(yīng)用技術(shù)的發(fā)展。
【關(guān)鍵詞】:大數(shù)據(jù) 清洗 框架 Spark 流水線(xiàn)
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-23
- 1.1 大數(shù)據(jù)技術(shù)背景12-14
- 1.2 大數(shù)據(jù)清洗技術(shù)存在的問(wèn)題14-17
- 1.2.1 從Hadoop升級(jí)到Spark14-16
- 1.2.2 使用Spark大數(shù)據(jù)清洗問(wèn)題16-17
- 1.3 Spark-ETL大數(shù)據(jù)清洗框架17-22
- 1.3.1 框架介紹17
- 1.3.2 清洗框架下的現(xiàn)實(shí)問(wèn)題背景17-19
- 1.3.3 Spark-ETL原理19-22
- 1.4 論文結(jié)構(gòu)介紹22
- 1.5 本章小結(jié)22-23
- 第2章 相關(guān)技術(shù)分析23-34
- 2.1 Spark Application提交邏輯分析23-25
- 2.2 Spark交互模式25-31
- 2.2.1 Spark-Submit模式分析26-27
- 2.2.2 Spark-Shell模式分析27-28
- 2.2.3 Spark-JobServer模式分析28-31
- 2.3 Spark實(shí)現(xiàn)ETL功能分析31-32
- 2.4 本章小結(jié)32-34
- 第3章 清洗框架設(shè)計(jì)34-47
- 3.1 框架架構(gòu)設(shè)計(jì)34-35
- 3.2 Spark-ETL Server設(shè)計(jì)35-39
- 3.2.1 Spark-ETL Web Client設(shè)計(jì)36-37
- 3.2.2 Spark-ETL Job Server設(shè)計(jì)37-39
- 3.2.3 Spark-ETL Spark SQL設(shè)計(jì)39
- 3.3 Spark-ETL SDK設(shè)計(jì)39-41
- 3.3.1 Spark-ETL SparkJob接口40
- 3.3.2 Spark-ETL SharedRDD接口40-41
- 3.4 Spark-ETL Algorithms設(shè)計(jì)41-45
- 3.4.1 大數(shù)據(jù)清洗單元設(shè)計(jì)42-44
- 3.4.2 流水線(xiàn)配置設(shè)計(jì)44-45
- 3.5 本章小結(jié)45-47
- 第4章 關(guān)鍵技術(shù)分析與框架實(shí)現(xiàn)47-57
- 4.1 Server分析與實(shí)現(xiàn)47-50
- 4.1.1 Server基礎(chǔ)實(shí)現(xiàn)技術(shù)介紹47-48
- 4.1.2 Server消息返回機(jī)制48-50
- 4.2 SDK分析與實(shí)現(xiàn)50-52
- 4.3 Algorithms分析與實(shí)現(xiàn)52-55
- 4.3.1 清洗單元配置與實(shí)現(xiàn)52-54
- 4.3.2 多叉樹(shù)計(jì)算流54-55
- 4.4 其他問(wèn)題55-56
- 4.5 本章小結(jié)56-57
- 第5章 實(shí)驗(yàn)結(jié)果57-77
- 5.1 項(xiàng)目成果57-58
- 5.2 功能測(cè)試58-66
- 5.2.1 系統(tǒng)功能實(shí)驗(yàn)58-62
- 5.2.2 Algorithms功能設(shè)計(jì)實(shí)驗(yàn)62-66
- 5.3 系統(tǒng)性能實(shí)驗(yàn)66-76
- 5.3.1 Spark-ETL框架Job性能實(shí)驗(yàn)66-72
- 5.3.2 Spark-ETL多叉樹(shù)計(jì)算流對(duì)清洗效率的影響實(shí)驗(yàn)72-74
- 5.3.3 Spark-ETL與MapReduce性能對(duì)比74-76
- 5.4 本章小結(jié)76-77
- 第6章 總結(jié)與展望77-79
- 參考文獻(xiàn)79-82
- 致謝82
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計(jì)[J];微計(jì)算機(jī)應(yīng)用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計(jì)算機(jī)科學(xué);2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報(bào);2002年11期
5 鄧中國(guó),周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
6 唐懿芳,鐘達(dá)夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期
7 孟堅(jiān),董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機(jī)發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴(kuò)展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個(gè)可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2001年
2 崔運(yùn)釧;劉連忠;;一種可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2006年
3 汪愛(ài)民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計(jì)和應(yīng)用[A];全國(guó)冶金自動(dòng)化信息網(wǎng)2014年會(huì)論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對(duì)信息檢索質(zhì)量的影響及清洗方法[A];2011年中國(guó)索引學(xué)會(huì)年會(huì)暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴(kuò)展的數(shù)據(jù)清洗框架[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險(xiǎn)貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動(dòng)態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計(jì)與實(shí)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
10 趙之慧;;專(zhuān)利數(shù)據(jù)加工[A];2014年中華全國(guó)專(zhuān)利代理人協(xié)會(huì)年會(huì)第五屆知識(shí)產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 中國(guó)人民財(cái)產(chǎn)保險(xiǎn)股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨(dú)立的數(shù)據(jù)清洗服務(wù)[N];計(jì)算機(jī)世界;2009年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲(chǔ)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 艾超;針對(duì)在線(xiàn)產(chǎn)品支撐數(shù)據(jù)的過(guò)濾和分析系統(tǒng)的研究與設(shè)計(jì)[D];電子科技大學(xué);2015年
5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年
6 張聯(lián)超;基于本體的數(shù)據(jù)清洗系統(tǒng)框架研究[D];南京航空航天大學(xué);2008年
7 朱前磊;電子政務(wù)系統(tǒng)中海量數(shù)據(jù)清洗方法研究與應(yīng)用[D];東華大學(xué);2010年
8 吳俊;基于神經(jīng)網(wǎng)絡(luò)的電力負(fù)荷數(shù)據(jù)清洗模型研究[D];大連理工大學(xué);2010年
9 梁文斌;數(shù)據(jù)清洗技術(shù)的研究及其應(yīng)用[D];蘇州大學(xué);2005年
10 唐懿芳;基于聚類(lèi)模式的數(shù)據(jù)清洗技術(shù)[D];廣西師范大學(xué);2003年
,本文編號(hào):1082193
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1082193.html