基于大數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-08-21 06:40
本文關(guān)鍵詞:基于大數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 數(shù)據(jù)處理 云平臺(tái) 孤立點(diǎn)檢測(cè) Hadoop K-Medoids
【摘要】:隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,人們所接觸的數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng)。數(shù)據(jù)的不斷增長(zhǎng)在給人們帶來(lái)巨大價(jià)值的同時(shí),也給人們帶來(lái)了巨大的挑戰(zhàn),海量數(shù)據(jù)處理工作已經(jīng)成為當(dāng)今研究的熱點(diǎn)問(wèn)題。針對(duì)數(shù)據(jù)預(yù)處理方面的具體問(wèn)題,傳統(tǒng)的算法無(wú)論是從效率上,還是從計(jì)算復(fù)雜度上都無(wú)法滿(mǎn)足海量數(shù)據(jù)的處理需要。云計(jì)算的發(fā)展為大數(shù)據(jù)的處理提供了新的解決方案。云計(jì)算技術(shù)通過(guò)使存儲(chǔ)和計(jì)算能力均勻的分布到集群中的多個(gè)存儲(chǔ)和計(jì)算節(jié)點(diǎn)上,從而實(shí)現(xiàn)了對(duì)超大數(shù)據(jù)集的巨大的存儲(chǔ)和計(jì)算能力。同時(shí),各個(gè)企業(yè)研發(fā)各自的云平臺(tái)用于數(shù)據(jù)處理、分析數(shù)據(jù)已經(jīng)成為主流趨勢(shì)。本文在對(duì)海量數(shù)據(jù)處理進(jìn)行具體研究的基礎(chǔ)上,提出了可定制的數(shù)據(jù)轉(zhuǎn)換平臺(tái)方案來(lái)簡(jiǎn)化數(shù)據(jù)處理。為了保證數(shù)據(jù)質(zhì)量,需要對(duì)數(shù)據(jù)集中的孤立點(diǎn)進(jìn)行檢測(cè)。因傳統(tǒng)算法在聚類(lèi)過(guò)程中時(shí)間復(fù)雜度較高,本文提出了一種將傳統(tǒng)聚類(lèi)算法并行化設(shè)計(jì)的孤立點(diǎn)檢測(cè)方案。在數(shù)據(jù)規(guī)則引擎設(shè)計(jì)方案中,設(shè)計(jì)了“動(dòng)作流”的方式來(lái)抽象化數(shù)據(jù)處理動(dòng)作,允許用戶(hù)根據(jù)實(shí)際需要自定義數(shù)據(jù)處理的流程與方式。設(shè)計(jì)并實(shí)現(xiàn)了“輸入-處理-輸出”語(yǔ)句形式的配置文件來(lái)代替?zhèn)鹘y(tǒng)的SQL語(yǔ)句和代碼編寫(xiě),減少了人力的耗費(fèi)。在孤立點(diǎn)檢測(cè)方案中,將傳統(tǒng)的K-Medoids聚類(lèi)算法進(jìn)行并行化設(shè)計(jì),使得K-Medoids算法滿(mǎn)足處理大數(shù)據(jù)集的需要,同時(shí)設(shè)計(jì)并實(shí)現(xiàn)了基于距離和的孤立點(diǎn)檢測(cè)方法,使得用戶(hù)無(wú)需進(jìn)行參數(shù)設(shè)置就可進(jìn)行數(shù)據(jù)集中孤立點(diǎn)的檢測(cè)。通過(guò)實(shí)驗(yàn)證明,改進(jìn)的孤立點(diǎn)檢測(cè)算法大大提升了孤立點(diǎn)檢測(cè)的效率和準(zhǔn)確性。本文的數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎方案適合于海量數(shù)據(jù)的處理工作,節(jié)約了大量的代碼編寫(xiě)時(shí)間,并設(shè)計(jì)實(shí)現(xiàn)了基于距離和的孤立點(diǎn)檢測(cè)算法進(jìn)行孤立點(diǎn)的檢測(cè)處理,具有較好的實(shí)用價(jià)值。
【關(guān)鍵詞】:數(shù)據(jù)處理 云平臺(tái) 孤立點(diǎn)檢測(cè) Hadoop K-Medoids
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.09
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-12
- 1.1 課題研究背景8-9
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 分布式數(shù)據(jù)處理9
- 1.2.2 數(shù)據(jù)清洗9-10
- 1.2.3 孤立點(diǎn)檢測(cè)10-11
- 1.3 論文主要工作11
- 1.4 論文組織結(jié)構(gòu)11-12
- 第二章 數(shù)據(jù)處理相關(guān)技術(shù)12-24
- 2.1 云計(jì)算12-13
- 2.1.1 云計(jì)算的關(guān)鍵技術(shù)12
- 2.1.2 云計(jì)算服務(wù)模式12-13
- 2.1.3 云計(jì)算平臺(tái)13
- 2.2 分布式處理13-15
- 2.3 Hadoop平臺(tái)簡(jiǎn)介15-19
- 2.3.1 HDFS文件系統(tǒng)15-17
- 2.3.2 MapReduce編程模型17-18
- 2.3.3 HBase數(shù)據(jù)庫(kù)18-19
- 2.4 聚類(lèi)分析19-22
- 2.4.1 聚類(lèi)方法簡(jiǎn)介20
- 2.4.2 K-Means算法與K-Medoids算法20-21
- 2.4.3 距離度量21-22
- 2.5 孤立點(diǎn)檢測(cè)技術(shù)22-23
- 2.6 本章小結(jié)23-24
- 第三章 數(shù)據(jù)轉(zhuǎn)換平臺(tái)總體設(shè)計(jì)24-40
- 3.1 基于大數(shù)據(jù)的分析評(píng)估系統(tǒng)簡(jiǎn)介24-26
- 3.1.1 系統(tǒng)結(jié)構(gòu)簡(jiǎn)介24-25
- 3.1.2 各功能層分析說(shuō)明25-26
- 3.2 數(shù)據(jù)轉(zhuǎn)換平臺(tái)設(shè)計(jì)26-28
- 3.3 數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎28-33
- 3.4 孤立點(diǎn)檢測(cè)模塊33-39
- 3.4.1 模塊設(shè)計(jì)思路34
- 3.4.2 模塊整體方案設(shè)計(jì)34-37
- 3.4.3 K-Medoids聚類(lèi)算法37-39
- 3.5 本章小結(jié)39-40
- 第四章 功能模塊的設(shè)計(jì)與實(shí)現(xiàn)40-64
- 4.1 數(shù)據(jù)抽取模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)40-43
- 4.1.1 數(shù)據(jù)抽取配置40
- 4.1.2 數(shù)據(jù)抽取配置文件解析40-42
- 4.1.3 抽取數(shù)據(jù)存入HDFS42-43
- 4.2 數(shù)據(jù)處理模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)43-47
- 4.2.1 數(shù)據(jù)處理配置43
- 4.2.2 數(shù)據(jù)處理配置文件的解析43-44
- 4.2.3 數(shù)據(jù)處理的并行化算法44-47
- 4.3 數(shù)據(jù)存儲(chǔ)模塊詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)47-49
- 4.3.1 MySql數(shù)據(jù)庫(kù)存儲(chǔ)47-48
- 4.3.2 HBase數(shù)據(jù)庫(kù)存儲(chǔ)48-49
- 4.4 孤立點(diǎn)檢測(cè)模塊詳細(xì)設(shè)計(jì)49-51
- 4.4.1 K-Medoids算法并行化思路49-50
- 4.4.2 基于MapReduce的K-Medoids算法流程50-51
- 4.4.3 孤立點(diǎn)檢測(cè)算法的并行化51
- 4.5 孤立點(diǎn)檢測(cè)模塊的實(shí)現(xiàn)51-57
- 4.5.1 K-Medoids算法并行化實(shí)現(xiàn)51-56
- 4.5.2 孤立點(diǎn)檢測(cè)算法的實(shí)現(xiàn)56-57
- 4.6 數(shù)據(jù)轉(zhuǎn)換平臺(tái)功能測(cè)試57-63
- 4.6.1 實(shí)驗(yàn)環(huán)境57
- 4.6.2 數(shù)據(jù)轉(zhuǎn)換規(guī)則引擎功能測(cè)試57-60
- 4.6.3 孤立點(diǎn)檢測(cè)模塊功能測(cè)試60-63
- 4.7 本章小結(jié)63-64
- 第五章 總結(jié)與展望64-66
- 5.1 總結(jié)64
- 5.2 展望64-66
- 致謝66-67
- 參考文獻(xiàn)67-69
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳麗娜;;孤立點(diǎn)挖掘研究[J];內(nèi)江科技;2009年03期
2 王越;劉亞輝;徐傳運(yùn);;孤立點(diǎn)用戶(hù)意義分析在質(zhì)量管理中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用;2009年11期
3 陸聲鏈,林士敏,黃萬(wàn)華;基于相似系數(shù)和的孤立點(diǎn)檢測(cè)算法[J];安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
4 陸聲鏈,林士敏;基于距離的孤立點(diǎn)檢測(cè)及其應(yīng)用[J];計(jì)算機(jī)與數(shù)字工程;2004年05期
5 汪加才;張金城;江效堯;;一種有效的可視化孤立點(diǎn)發(fā)現(xiàn)與預(yù)測(cè)新途徑[J];計(jì)算機(jī)科學(xué);2007年06期
6 姜晗;賈l,
本文編號(hào):711403
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/711403.html
最近更新
教材專(zhuān)著