Hadoop的重復(fù)數(shù)據(jù)清理模型研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-08-04 16:46
【摘要】: 當(dāng)今,晶體管電路已經(jīng)逐漸接近其物理上的性能極限,摩爾定律在2005年左右開(kāi)始失效了,人類再也不能期待單個(gè)CPU的速度每隔18個(gè)月就翻一倍,單機(jī)的數(shù)據(jù)清理能力再也滿足不了當(dāng)今人們對(duì)海量數(shù)據(jù)的處理要求;诖笠(guī)模計(jì)算機(jī)集群的分布式并行計(jì)算將成為未來(lái)數(shù)據(jù)處理軟件性能提升的主要途徑。 借助分布式計(jì)算近年來(lái)的應(yīng)用熱風(fēng),本研究從數(shù)據(jù)質(zhì)量這個(gè)重要因素出發(fā),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于Hadoop分布式框架的重復(fù)數(shù)據(jù)清理平臺(tái)。 Hadoop是一個(gè)開(kāi)源的分布式計(jì)算框架。該分布式框架具備良好的擴(kuò)充能力、較低的運(yùn)作成本、較高的效率和較好的穩(wěn)定性,而且它的Map/Reduce編程模式能夠與本文的應(yīng)用(重復(fù)數(shù)據(jù)清理)完美兼容,因此選擇Hadoop框架作為本文研究的基礎(chǔ)實(shí)驗(yàn)框架。當(dāng)今世界,信息顯得尤為寶貴,而數(shù)據(jù)質(zhì)量是保證信息提取的一個(gè)重要前提。因此利用計(jì)算機(jī)來(lái)進(jìn)行重復(fù)數(shù)據(jù)清理,減小信息系統(tǒng)數(shù)據(jù)的冗余度成為一個(gè)有意義的研究方向,這也是選擇重復(fù)數(shù)據(jù)清理作為本文應(yīng)用主題的關(guān)鍵原因。 本文利用Hadoop的分布式數(shù)據(jù)處理特性,完成了完全重復(fù)數(shù)據(jù)清理并實(shí)現(xiàn)了數(shù)據(jù)按關(guān)鍵字段的排序過(guò)程,得到了初步聚類數(shù)據(jù),然后采用單機(jī)預(yù)處理的方式對(duì)初步聚類數(shù)據(jù)進(jìn)行再聚類。再聚類過(guò)程是該研究模型設(shè)計(jì)的重點(diǎn)和難點(diǎn),它依靠一系列重要算法和清理規(guī)則做支撐,得到一個(gè)更加精確的聚類結(jié)果。經(jīng)過(guò)再聚類處理后的數(shù)據(jù)最后交由Hadoop平臺(tái)進(jìn)行相似重復(fù)數(shù)據(jù)清理,得到最終的清理結(jié)果。 本研究中,通過(guò)對(duì)該模型“過(guò)濾”后的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,結(jié)果證實(shí)了本模型的可行性。此外通過(guò)時(shí)效對(duì)比實(shí)驗(yàn),本人發(fā)現(xiàn):隨著數(shù)據(jù)量的增大,該模型在數(shù)據(jù)清理時(shí)的效率優(yōu)勢(shì)相比于單機(jī)越來(lái)越明顯,從而說(shuō)明了在實(shí)際應(yīng)用中引入該分布式模型的必要性。最后本文通過(guò)分析Hadoop參數(shù)配置對(duì)本模型性能的影響,說(shuō)明了Hadoop參數(shù)合理配置的重要性,并給出了相關(guān)的配置技巧,在一定程度上避免了硬件資源的浪費(fèi)。
【學(xué)位授予單位】:南華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP338.8
【學(xué)位授予單位】:南華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2010
【分類號(hào)】:TP338.8
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 陳偉,丁秋林;數(shù)據(jù)清理中編輯距離的應(yīng)用及Java編程實(shí)現(xiàn)[J];電腦與信息技術(shù);2003年06期
2 曾理;王以群;;Hadoop集群和單機(jī)數(shù)據(jù)處理的耗時(shí)對(duì)比實(shí)驗(yàn)[J];硅谷;2009年19期
3 孫牧;;云端的小飛象—Hadoop[J];程序員;2008年10期
4 俞榮華;田增平;周傲英;;一種檢測(cè)多語(yǔ)言文本相似重復(fù)記錄的綜合方法[J];計(jì)算機(jī)科學(xué);2002年01期
5 邱越峰,田增平,季文
本文編號(hào):2780815
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/2780815.html
最近更新
教材專著