基于任務(wù)合并的并行大數(shù)據(jù)清洗過程優(yōu)化
本文關(guān)鍵詞:基于任務(wù)合并的并行大數(shù)據(jù)清洗過程優(yōu)化
更多相關(guān)文章: 大數(shù)據(jù) 多任務(wù)優(yōu)化 海量數(shù)據(jù) 數(shù)據(jù)清洗 Hadoop MapReduce
【摘要】:數(shù)據(jù)質(zhì)量問題會對大數(shù)據(jù)的應(yīng)用產(chǎn)生致命影響,因此需要對存在數(shù)據(jù)質(zhì)量問題的大數(shù)據(jù)進行清洗.MapReduce編程框架可以利用并行技術(shù)實現(xiàn)高可擴展性的大數(shù)據(jù)清洗,然而,由于缺乏有效的設(shè)計,在基于MapReduce的數(shù)據(jù)清洗過程中存在計算的冗余,導(dǎo)致性能降低.因此文中的目的是對并行數(shù)據(jù)清洗過程進行優(yōu)化從而提高效率.通過研究,作者發(fā)現(xiàn)數(shù)據(jù)清洗中一些任務(wù)往往都運行在同一輸入文件上或者利用同樣的運算結(jié)果,基于該發(fā)現(xiàn)文中提出了一種新的優(yōu)化技術(shù)——基于任務(wù)合并的優(yōu)化技術(shù).針對冗余計算和利用同一輸入文件的簡單計算進行合并,通過這種合并可以減少MapReduce的輪數(shù)從而減少系統(tǒng)運行的時間,最終達到系統(tǒng)優(yōu)化的目標(biāo).文中針對數(shù)據(jù)清洗過程中多個復(fù)雜的模塊進行了優(yōu)化,具體來說分別對實體識別模塊、不一致數(shù)據(jù)修復(fù)模塊和缺失值填充模塊進行了優(yōu)化.實驗結(jié)果表明,文中提出的策略可以有效提高數(shù)據(jù)清洗的效率.
【作者單位】: 哈爾濱工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院;哈爾濱工業(yè)大學(xué)基礎(chǔ)與交叉科學(xué)研究院;
【關(guān)鍵詞】: 大數(shù)據(jù) 多任務(wù)優(yōu)化 海量數(shù)據(jù) 數(shù)據(jù)清洗 Hadoop MapReduce
【基金】:國家“九七三”重點基礎(chǔ)研究發(fā)展規(guī)劃項目基金(2012CB316200) 國家自然科學(xué)基金(61472099,60933001,61272046) 國家“八六三”高技術(shù)研究發(fā)展計劃項目基金(2012AA011004) 國家博士后基金(20090450126,201003447);國家博士后基金特別資助項目(2013T60372) 教育部博士點基金(20102302120054) 黑龍江省自然科學(xué)基金(F201317)資助
【分類號】:TP311.13
【正文快照】: 然科學(xué)基金(61472099,60933001,61272046)、國家“八六三”高技術(shù)研究發(fā)展計劃項目基金(2012AA011004)、國家博士后基金1引言本節(jié)主要介紹研究背景及其意義、海量數(shù)據(jù)清洗系統(tǒng)、本文優(yōu)化方法的主要思想、本文的貢獻與結(jié)構(gòu).1.1研究背景及其意義現(xiàn)今企業(yè)的成功和社會的進步,越來
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計[J];微計算機應(yīng)用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計算機科學(xué);2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計算機光盤軟件與應(yīng)用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報;2002年11期
5 鄧中國,周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(自然科學(xué)版);2004年02期
6 唐懿芳,鐘達夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期
7 孟堅,董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計算機技術(shù)與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書情報技術(shù);2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個可擴展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
2 崔運釧;劉連忠;;一種可擴展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計與實現(xiàn)[A];2006中國控制與決策學(xué)術(shù)年會論文集[C];2006年
3 汪愛民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計和應(yīng)用[A];全國冶金自動化信息網(wǎng)2014年會論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對信息檢索質(zhì)量的影響及清洗方法[A];2011年中國索引學(xué)會年會暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴展的數(shù)據(jù)清洗框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計與實現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國專利代理人協(xié)會年會第五屆知識產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 中國人民財產(chǎn)保險股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨立的數(shù)據(jù)清洗服務(wù)[N];計算機世界;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張聯(lián)超;基于本體的數(shù)據(jù)清洗系統(tǒng)框架研究[D];南京航空航天大學(xué);2008年
4 朱前磊;電子政務(wù)系統(tǒng)中海量數(shù)據(jù)清洗方法研究與應(yīng)用[D];東華大學(xué);2010年
5 吳俊;基于神經(jīng)網(wǎng)絡(luò)的電力負(fù)荷數(shù)據(jù)清洗模型研究[D];大連理工大學(xué);2010年
6 梁文斌;數(shù)據(jù)清洗技術(shù)的研究及其應(yīng)用[D];蘇州大學(xué);2005年
7 唐懿芳;基于聚類模式的數(shù)據(jù)清洗技術(shù)[D];廣西師范大學(xué);2003年
8 伍江磊;數(shù)據(jù)清洗在貴州地稅省級數(shù)據(jù)集中項目中的研究與應(yīng)用[D];湖北大學(xué);2012年
9 李亞坤;基于網(wǎng)絡(luò)的數(shù)據(jù)清洗技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
10 王武;數(shù)據(jù)清洗方法研究及工具設(shè)計[D];上海交通大學(xué);2009年
,本文編號:641392
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/641392.html