大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關鍵問題研究
本文關鍵詞:大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關鍵問題研究
更多相關文章: 大數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)不一致性 Map-Reduce K-medoids 聚類算法
【摘要】:大數(shù)據(jù)時代悄然而至,數(shù)據(jù)質(zhì)量也引起人們的關注。在提高數(shù)據(jù)質(zhì)量方面,很重要的一部分是解決數(shù)據(jù)不一致性問題。當分布在多個節(jié)點的數(shù)據(jù)集成時,若提供的數(shù)據(jù)出現(xiàn)重疊,容易引起數(shù)據(jù)不一致性的問題。如何從若干個不一致的數(shù)據(jù)中獲得理想的數(shù)據(jù)答案在數(shù)據(jù)清洗中就顯得至關重要。本文給出了多種聚類分析的“樣本差異性”和“類簇差異性”指標,系統(tǒng)分析了現(xiàn)有聚類算法:基于聯(lián)通性的,基于質(zhì)心的,基于密度的等聚類算法,并把聚類算法應用于解決數(shù)據(jù)的不一致性問題。隨著信息時代的快速發(fā)展,數(shù)據(jù)呈現(xiàn)規(guī)模性、多樣性、高速性和價值性等多種特性。面對這些海量數(shù)據(jù),常常陷入“數(shù)據(jù)豐富,信息貧乏”的尷尬境地。本文研究了Map-Reduce算法框架和Hadoop這一開源的分布式項目,結合現(xiàn)有的基于Map-Reduce的算法在不同領域的應用,提出了基于Map-Reduce的聚類算法,有效解決大數(shù)據(jù)環(huán)境下的數(shù)據(jù)不一致性問題。本文重點分析了K-means和K-medoids聚類算法,針對算法的不足,提出了E-medoids聚類算法,改進了聚類算法在解決字符型數(shù)據(jù)不一致性問題上的適用性,并提高了算法的運行效率。同時,又提出了EW-medoids聚類算法,引入了權重值的概念,控制聚類中心點的偏移,提高了算法的精確性。本文在對大數(shù)據(jù)條件下的數(shù)據(jù)質(zhì)量問題進行分析的基礎上,設計并實現(xiàn)了在Map-Reduce編程框架下EW-medoids聚類算法的并行化,較好地解決大數(shù)據(jù)環(huán)境中數(shù)據(jù)不一致性問題。最后,通過仿真實驗驗證了在大數(shù)據(jù)環(huán)境下該算法的并行性和有效性。本文的貢獻:1)提出基于Map-Reduce的聚類算法解決大數(shù)據(jù)環(huán)境下數(shù)據(jù)不一致性問題。2) 改進K-medoids聚類算法,提高算法的適用性和精確性。
【關鍵詞】:大數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)不一致性 Map-Reduce K-medoids 聚類算法
【學位授予單位】:中國海洋大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 引言11-15
- 1.1 課題背景及意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-13
- 1.3 研究內(nèi)容13
- 1.4 論文的組織結構13-14
- 1.5 本章小結14-15
- 2 Map-Reduce、Hadoop與聚類分析15-31
- 2.1 Map-Reduce15-17
- 2.1.1 Map-Reduce介紹15-17
- 2.1.2 Map-Reduce執(zhí)行過程17
- 2.2 Hadoop17-22
- 2.2.1 Hadoop介紹17-19
- 2.2.2 Hadoop特性與優(yōu)勢19-20
- 2.2.3 Hadoop運行過程20-22
- 2.3 聚類分析22-28
- 2.3.1 聚類分析介紹22-23
- 2.3.2 樣本差異性標準23-24
- 2.3.3 類簇差異性標準24-25
- 2.3.4 聚類算法25-28
- 2.4 本章小結28-31
- 3 聚類算法的分析31-39
- 3.1 K-means聚類算法31-34
- 3.1.1 算法的基本原理31-32
- 3.1.2 算法結構分析32-34
- 3.1.3 不足之處34
- 3.2 K-medoids聚類算法34-38
- 3.2.1 算法的基本原理34-35
- 3.2.2 Levenshtein距離35-36
- 3.2.3 算法結構分析36-37
- 3.2.4 不足之處37-38
- 3.3 本章小結38-39
- 4 基于Map-Reduce的聚類算法的設計與實現(xiàn)39-53
- 4.1 E-medoids聚類算法39-42
- 4.1.1 算法基本原理39
- 4.1.2 算法結構分析39-41
- 4.1.3 流程圖41
- 4.1.4 偽代碼41-42
- 4.2 EW-medoids聚類算法42-45
- 4.2.1 算法基本原理42
- 4.2.2 算法結構分析42-44
- 4.2.3 流程圖44
- 4.2.4 偽代碼44-45
- 4.3 基于Map-Reduce的聚類算法45-49
- 4.3.1 算法基本原理45-46
- 4.3.2 算法結構分析46-47
- 4.3.3 算法時間復雜度及適用性47-48
- 4.3.4 算法流程圖48
- 4.3.5 偽代碼實現(xiàn)48-49
- 4.4 Map-Reduce各類的實現(xiàn)49-51
- 4.4.1 Mapper類偽代碼實現(xiàn)49
- 4.4.2 Reducer類偽代碼實現(xiàn)49-50
- 4.4.3 Map-Reduce任務偽代碼實現(xiàn)50-51
- 4.5 本章小結51-53
- 5 仿真與實驗53-65
- 5.1 實驗環(huán)境53-56
- 5.1.1 硬件參數(shù)53
- 5.1.2 SSH安裝與配置53-54
- 5.1.3 Hadoop配置54-56
- 5.2 實驗數(shù)據(jù)生成56-58
- 5.2.1 單機實驗數(shù)據(jù)生成56-57
- 5.2.2 集群實驗數(shù)據(jù)生成57-58
- 5.3 結果與分析58-62
- 5.3.1 算法的運行效率58-60
- 5.3.2 參數(shù)E對算法的影響60-61
- 5.3.3 算法精確性61-62
- 5.3.4 Hadoop平臺上數(shù)據(jù)集規(guī)模對算法的影響62
- 5.4 本章小結62-65
- 6 總結與展望65-67
- 6.1 工作總結65
- 6.2 今后工作展望65-67
- 參考文獻67-69
- 致謝69-70
- 個人簡歷70-71
- 發(fā)表的學術論文71
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 薛行,孫鐘秀,楊培根,周建強,徐希豪;一個解決分布式內(nèi)核中狀態(tài)不一致性的方法[J];計算機學報;1990年06期
2 李冬梅;林友芳;黃厚寬;田萱;;基于證據(jù)理論的本體不一致性度量方法研究[J];計算機研究與發(fā)展;2013年03期
3 王清毅,陳恩紅,劉貴全,蔡慶生;處理知識庫中不一致性的超決定邏輯研究[J];軟件學報;1998年04期
4 謝能付;;農(nóng)業(yè)知識不一致性研究[J];農(nóng)業(yè)網(wǎng)絡信息;2007年06期
5 許宏吉;解志剛;王雷濤;王建;楊華中;莊文君;;協(xié)作上下文感知下無線傳屏數(shù)據(jù)不一致性消除[J];天津大學學報(自然科學與工程技術版);2014年08期
6 梁麗紅;路宏年;孔凡琴;;射線檢測數(shù)字實時成像的不一致性研究[J];光學技術;2003年04期
7 鄭笛;朱珊;;普適計算環(huán)境下上下文不一致性的消除算法研究[J];計算機應用研究;2009年01期
8 朱雪峰,金芝;關于軟件需求中的不一致性管理[J];軟件學報;2005年07期
9 萬明堅,肖先賜;用信號子空間法校準天線陣各通道增益和相位的不一致性[J];電子學報;1992年06期
10 唐月華,付金海,肖翠娥;HIS中表間數(shù)據(jù)不一致性分析[J];醫(yī)學信息;2003年07期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 李平;史小衛(wèi);陳小群;王新懷;白巖夫;;通道的不一致性對干擾抑制的影響[A];2009年全國微波毫米波會議論文集(下冊)[C];2009年
2 殷曉莉;孫彥;;決策不一致性機制的實驗研究[A];第十一屆全國心理學學術會議論文摘要集[C];2007年
3 丁孟為;王穩(wěn)寅;張大強;沈耀;過敏意;;DCCI:一種分布式檢測情境不一致性的方法[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
4 蘇暢;林偉軍;張海瀾;;陣元不一致性對超聲相控陣聚焦聲場影響研究[A];2008年全國聲學學術會議論文集[C];2008年
5 張全紅;路宏年;梁麗紅;;基于LDA-1024線陣探測器的通道響應不一致性檢定方法[A];2004全國光學與光電子學學術研討會、2005全國光學與光電子學學術研討會、廣西光學學會成立20周年年會論文集[C];2005年
6 李春梅;王琨;;CCD像元及通道響應不一致性的矯正方法研究[A];提高全民科學素質(zhì)、建設創(chuàng)新型國家——2006中國科協(xié)年會論文集(下冊)[C];2006年
7 張求喜;周太平;巢寧佳;;基于MapX的道路線狀數(shù)據(jù)拓撲不一致性自動檢測[A];華東六省一市測繪學會第十一次學術交流會論文集[C];2009年
8 聶欣;劉家興;武向軍;鄭晉軍;李祖洪;;導航衛(wèi)星時延不一致性對三頻組合差分修正算法的影響[A];第四屆中國衛(wèi)星導航學術年會論文集-S3精密定軌與精密定位[C];2013年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 劉仲明;鋰離子電池組不一致性及熱管理的模擬研究[D];天津大學;2014年
2 李冬梅;本體不一致問題研究[D];北京交通大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前6條
1 郭換換;基于TIGGE資料的中期數(shù)值預報不一致性問題研究[D];南京信息工程大學;2015年
2 蔣捷;GNSS自適應陣列通道不一致性校正技術研究[D];電子科技大學;2014年
3 石紅濱;高效電池均衡策略研究[D];電子科技大學;2014年
4 范令;大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量關鍵問題研究[D];中國海洋大學;2015年
5 王禎;UML建模過程中的不一致性分析[D];山東大學;2006年
6 楊麗穎;英語寫作中評分員不一致性的研究[D];山西大學;2006年
,本文編號:730126
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/730126.html