改進(jìn)的ETL框架及其數(shù)據(jù)清洗方法研究
發(fā)布時(shí)間:2021-03-22 15:58
隨著信息化技術(shù)的普及與發(fā)展,各行各業(yè)積累了大量的數(shù)據(jù),為了充分利用這些數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)廣泛的應(yīng)用于各個(gè)領(lǐng)域。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的基礎(chǔ)之一,ETL(Extract,Transformation and Loading)用來(lái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換與裝載,決定了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量。由于數(shù)據(jù)源中存在數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤等問(wèn)題,導(dǎo)致數(shù)據(jù)質(zhì)量大大降低,而數(shù)據(jù)質(zhì)量嚴(yán)重影響了數(shù)據(jù)挖掘的效率和分析決策的準(zhǔn)確率,所以數(shù)據(jù)清洗作為提高數(shù)據(jù)質(zhì)量的主要方法,是ETL中的重要內(nèi)容。本文為了提高ETL在大數(shù)據(jù)環(huán)境下的靈活性和工作效率,改進(jìn)了傳統(tǒng)的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并對(duì)其中的數(shù)據(jù)清洗方法進(jìn)行了系統(tǒng)研究,具體的研究?jī)?nèi)容如下:(1)針對(duì)傳統(tǒng)的ETL框架,本文設(shè)計(jì)實(shí)現(xiàn)了ECL-TL框架。該框架通過(guò)引入中間庫(kù)將數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完全分離,降低了各組件之間的耦合度。同時(shí),提供了高效的數(shù)據(jù)清洗解決方案,封裝了數(shù)據(jù)清洗相關(guān)的算法庫(kù)、規(guī)則庫(kù)和評(píng)估庫(kù)。(2)在重復(fù)記錄清洗方面,本文提出了一種基于等價(jià)關(guān)系的完全重復(fù)記錄清洗方法...
【文章來(lái)源】:西華大學(xué)四川省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的研究背景與選題意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 存在的問(wèn)題
1.4 論文的主要工作
1.5 論文組織結(jié)構(gòu)
2 預(yù)備知識(shí)
2.1 ETL
2.2 數(shù)據(jù)質(zhì)量及評(píng)估方法
2.2.1 數(shù)據(jù)質(zhì)量定義及評(píng)價(jià)維度
2.2.2 數(shù)據(jù)質(zhì)量評(píng)估方法
2.3 本章小結(jié)
3 ECL-TL框架設(shè)計(jì)
3.1 框架設(shè)計(jì)
3.1.1 ECL組件
3.1.2 中間庫(kù)
3.1.3 TL組件
3.2 ECL-TL框架的特點(diǎn)
3.3 本章小結(jié)
4 重復(fù)記錄清洗
4.1 重復(fù)記錄介紹
4.2 基于等價(jià)關(guān)系的完全重復(fù)記錄清洗方法
4.2.1 方法步驟
4.2.2 時(shí)間復(fù)雜度分析
4.2.3 實(shí)驗(yàn)分析
4.3 基于屬性層次結(jié)構(gòu)的相似重復(fù)記錄檢測(cè)方法
4.3.1 基本步驟
4.3.2 音碼聚類(lèi)
4.3.3 文本聚類(lèi)
4.3.4 實(shí)驗(yàn)分析
4.4 本章小結(jié)
5 基于信息值質(zhì)量評(píng)價(jià)的低質(zhì)量數(shù)據(jù)清洗方法
5.1 信息值質(zhì)量評(píng)價(jià)
5.2 權(quán)重設(shè)置
5.3 低質(zhì)量數(shù)據(jù)清洗
5.4 實(shí)驗(yàn)分析
5.5 本章小結(jié)
6 ECL-TL框架的實(shí)現(xiàn)與應(yīng)用
6.1 數(shù)據(jù)處理層
6.2 數(shù)據(jù)應(yīng)用層
6.3 數(shù)據(jù)展示層
6.4 本章小結(jié)
7 總結(jié)與展望
7.1 全文總結(jié)
7.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文及科研成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]聚類(lèi)算法綜述[J]. 章永來(lái),周耀鑒. 計(jì)算機(jī)應(yīng)用. 2019(07)
[2]基于分塊和滑窗技術(shù)的相似重復(fù)記錄檢測(cè)算法研究[J]. 陳亮,杜璐,胡康. 計(jì)算機(jī)應(yīng)用與軟件. 2019(04)
[3]基于聚類(lèi)的連續(xù)型數(shù)據(jù)缺失值充填方法[J]. 李國(guó)和,楊紹偉,吳衛(wèi)江,鄭藝峰. 計(jì)算機(jī)工程. 2019(09)
[4]劣質(zhì)數(shù)據(jù)上代價(jià)敏感決策樹(shù)的建立[J]. 齊志鑫,王宏志,周雄,李建中,高宏. 軟件學(xué)報(bào). 2019(03)
[5]DBSCAN聚類(lèi)算法的參數(shù)配置方法研究[J]. 宋金玉,郭一平,王斌. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(05)
[6]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[7]基于深度學(xué)習(xí)的時(shí)間序列數(shù)據(jù)異常檢測(cè)方法[J]. 胡姣姣,王曉峰,張萌,張德鵬,胡紹林. 信息與控制. 2019(01)
[8]缺失數(shù)據(jù)的維數(shù)增量式特征選擇[J]. 劉吉超,王鋒,宋鵬. 計(jì)算機(jī)工程與應(yīng)用. 2019(17)
[9]基于DCNDA算法的數(shù)據(jù)異常檢測(cè)[J]. 蔣華,季豐,王鑫,王慧嬌. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(11)
[10]結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)綜述[J]. 郝爽,李國(guó)良,馮建華,王寧. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
碩士論文
[1]劣質(zhì)數(shù)據(jù)按需清洗的關(guān)鍵技術(shù)研究[D]. 齊志鑫.哈爾濱工業(yè)大學(xué) 2018
[2]工業(yè)大數(shù)據(jù)相似重復(fù)記錄數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D]. 楊巧巧.青島大學(xué) 2018
[3]基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D]. 金翰偉.浙江大學(xué) 2016
本文編號(hào):3094099
【文章來(lái)源】:西華大學(xué)四川省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的研究背景與選題意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 存在的問(wèn)題
1.4 論文的主要工作
1.5 論文組織結(jié)構(gòu)
2 預(yù)備知識(shí)
2.1 ETL
2.2 數(shù)據(jù)質(zhì)量及評(píng)估方法
2.2.1 數(shù)據(jù)質(zhì)量定義及評(píng)價(jià)維度
2.2.2 數(shù)據(jù)質(zhì)量評(píng)估方法
2.3 本章小結(jié)
3 ECL-TL框架設(shè)計(jì)
3.1 框架設(shè)計(jì)
3.1.1 ECL組件
3.1.2 中間庫(kù)
3.1.3 TL組件
3.2 ECL-TL框架的特點(diǎn)
3.3 本章小結(jié)
4 重復(fù)記錄清洗
4.1 重復(fù)記錄介紹
4.2 基于等價(jià)關(guān)系的完全重復(fù)記錄清洗方法
4.2.1 方法步驟
4.2.2 時(shí)間復(fù)雜度分析
4.2.3 實(shí)驗(yàn)分析
4.3 基于屬性層次結(jié)構(gòu)的相似重復(fù)記錄檢測(cè)方法
4.3.1 基本步驟
4.3.2 音碼聚類(lèi)
4.3.3 文本聚類(lèi)
4.3.4 實(shí)驗(yàn)分析
4.4 本章小結(jié)
5 基于信息值質(zhì)量評(píng)價(jià)的低質(zhì)量數(shù)據(jù)清洗方法
5.1 信息值質(zhì)量評(píng)價(jià)
5.2 權(quán)重設(shè)置
5.3 低質(zhì)量數(shù)據(jù)清洗
5.4 實(shí)驗(yàn)分析
5.5 本章小結(jié)
6 ECL-TL框架的實(shí)現(xiàn)與應(yīng)用
6.1 數(shù)據(jù)處理層
6.2 數(shù)據(jù)應(yīng)用層
6.3 數(shù)據(jù)展示層
6.4 本章小結(jié)
7 總結(jié)與展望
7.1 全文總結(jié)
7.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文及科研成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]聚類(lèi)算法綜述[J]. 章永來(lái),周耀鑒. 計(jì)算機(jī)應(yīng)用. 2019(07)
[2]基于分塊和滑窗技術(shù)的相似重復(fù)記錄檢測(cè)算法研究[J]. 陳亮,杜璐,胡康. 計(jì)算機(jī)應(yīng)用與軟件. 2019(04)
[3]基于聚類(lèi)的連續(xù)型數(shù)據(jù)缺失值充填方法[J]. 李國(guó)和,楊紹偉,吳衛(wèi)江,鄭藝峰. 計(jì)算機(jī)工程. 2019(09)
[4]劣質(zhì)數(shù)據(jù)上代價(jià)敏感決策樹(shù)的建立[J]. 齊志鑫,王宏志,周雄,李建中,高宏. 軟件學(xué)報(bào). 2019(03)
[5]DBSCAN聚類(lèi)算法的參數(shù)配置方法研究[J]. 宋金玉,郭一平,王斌. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(05)
[6]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報(bào)科學(xué). 2019(03)
[7]基于深度學(xué)習(xí)的時(shí)間序列數(shù)據(jù)異常檢測(cè)方法[J]. 胡姣姣,王曉峰,張萌,張德鵬,胡紹林. 信息與控制. 2019(01)
[8]缺失數(shù)據(jù)的維數(shù)增量式特征選擇[J]. 劉吉超,王鋒,宋鵬. 計(jì)算機(jī)工程與應(yīng)用. 2019(17)
[9]基于DCNDA算法的數(shù)據(jù)異常檢測(cè)[J]. 蔣華,季豐,王鑫,王慧嬌. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(11)
[10]結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)綜述[J]. 郝爽,李國(guó)良,馮建華,王寧. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)
碩士論文
[1]劣質(zhì)數(shù)據(jù)按需清洗的關(guān)鍵技術(shù)研究[D]. 齊志鑫.哈爾濱工業(yè)大學(xué) 2018
[2]工業(yè)大數(shù)據(jù)相似重復(fù)記錄數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D]. 楊巧巧.青島大學(xué) 2018
[3]基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D]. 金翰偉.浙江大學(xué) 2016
本文編號(hào):3094099
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3094099.html
最近更新
教材專(zhuān)著