改進的ETL框架及其數(shù)據(jù)清洗方法研究
發(fā)布時間:2021-03-22 15:58
隨著信息化技術的普及與發(fā)展,各行各業(yè)積累了大量的數(shù)據(jù),為了充分利用這些數(shù)據(jù),數(shù)據(jù)挖掘技術廣泛的應用于各個領域。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的基礎之一,ETL(Extract,Transformation and Loading)用來實現(xiàn)數(shù)據(jù)倉庫中數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換與裝載,決定了數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量。由于數(shù)據(jù)源中存在數(shù)據(jù)重復、數(shù)據(jù)缺失、數(shù)據(jù)錯誤等問題,導致數(shù)據(jù)質(zhì)量大大降低,而數(shù)據(jù)質(zhì)量嚴重影響了數(shù)據(jù)挖掘的效率和分析決策的準確率,所以數(shù)據(jù)清洗作為提高數(shù)據(jù)質(zhì)量的主要方法,是ETL中的重要內(nèi)容。本文為了提高ETL在大數(shù)據(jù)環(huán)境下的靈活性和工作效率,改進了傳統(tǒng)的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并對其中的數(shù)據(jù)清洗方法進行了系統(tǒng)研究,具體的研究內(nèi)容如下:(1)針對傳統(tǒng)的ETL框架,本文設計實現(xiàn)了ECL-TL框架。該框架通過引入中間庫將數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完全分離,降低了各組件之間的耦合度。同時,提供了高效的數(shù)據(jù)清洗解決方案,封裝了數(shù)據(jù)清洗相關的算法庫、規(guī)則庫和評估庫。(2)在重復記錄清洗方面,本文提出了一種基于等價關系的完全重復記錄清洗方法...
【文章來源】:西華大學四川省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的研究背景與選題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 存在的問題
1.4 論文的主要工作
1.5 論文組織結構
2 預備知識
2.1 ETL
2.2 數(shù)據(jù)質(zhì)量及評估方法
2.2.1 數(shù)據(jù)質(zhì)量定義及評價維度
2.2.2 數(shù)據(jù)質(zhì)量評估方法
2.3 本章小結
3 ECL-TL框架設計
3.1 框架設計
3.1.1 ECL組件
3.1.2 中間庫
3.1.3 TL組件
3.2 ECL-TL框架的特點
3.3 本章小結
4 重復記錄清洗
4.1 重復記錄介紹
4.2 基于等價關系的完全重復記錄清洗方法
4.2.1 方法步驟
4.2.2 時間復雜度分析
4.2.3 實驗分析
4.3 基于屬性層次結構的相似重復記錄檢測方法
4.3.1 基本步驟
4.3.2 音碼聚類
4.3.3 文本聚類
4.3.4 實驗分析
4.4 本章小結
5 基于信息值質(zhì)量評價的低質(zhì)量數(shù)據(jù)清洗方法
5.1 信息值質(zhì)量評價
5.2 權重設置
5.3 低質(zhì)量數(shù)據(jù)清洗
5.4 實驗分析
5.5 本章小結
6 ECL-TL框架的實現(xiàn)與應用
6.1 數(shù)據(jù)處理層
6.2 數(shù)據(jù)應用層
6.3 數(shù)據(jù)展示層
6.4 本章小結
7 總結與展望
7.1 全文總結
7.2 工作展望
參考文獻
攻讀碩士學位期間發(fā)表論文及科研成果
致謝
【參考文獻】:
期刊論文
[1]聚類算法綜述[J]. 章永來,周耀鑒. 計算機應用. 2019(07)
[2]基于分塊和滑窗技術的相似重復記錄檢測算法研究[J]. 陳亮,杜璐,胡康. 計算機應用與軟件. 2019(04)
[3]基于聚類的連續(xù)型數(shù)據(jù)缺失值充填方法[J]. 李國和,楊紹偉,吳衛(wèi)江,鄭藝峰. 計算機工程. 2019(09)
[4]劣質(zhì)數(shù)據(jù)上代價敏感決策樹的建立[J]. 齊志鑫,王宏志,周雄,李建中,高宏. 軟件學報. 2019(03)
[5]DBSCAN聚類算法的參數(shù)配置方法研究[J]. 宋金玉,郭一平,王斌. 計算機技術與發(fā)展. 2019(05)
[6]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學. 2019(03)
[7]基于深度學習的時間序列數(shù)據(jù)異常檢測方法[J]. 胡姣姣,王曉峰,張萌,張德鵬,胡紹林. 信息與控制. 2019(01)
[8]缺失數(shù)據(jù)的維數(shù)增量式特征選擇[J]. 劉吉超,王鋒,宋鵬. 計算機工程與應用. 2019(17)
[9]基于DCNDA算法的數(shù)據(jù)異常檢測[J]. 蔣華,季豐,王鑫,王慧嬌. 計算機工程與設計. 2018(11)
[10]結構化數(shù)據(jù)清洗技術綜述[J]. 郝爽,李國良,馮建華,王寧. 清華大學學報(自然科學版). 2018(12)
碩士論文
[1]劣質(zhì)數(shù)據(jù)按需清洗的關鍵技術研究[D]. 齊志鑫.哈爾濱工業(yè)大學 2018
[2]工業(yè)大數(shù)據(jù)相似重復記錄數(shù)據(jù)清洗關鍵技術研究[D]. 楊巧巧.青島大學 2018
[3]基于Spark的大數(shù)據(jù)清洗框架設計與實現(xiàn)[D]. 金翰偉.浙江大學 2016
本文編號:3094099
【文章來源】:西華大學四川省
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 課題的研究背景與選題意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 存在的問題
1.4 論文的主要工作
1.5 論文組織結構
2 預備知識
2.1 ETL
2.2 數(shù)據(jù)質(zhì)量及評估方法
2.2.1 數(shù)據(jù)質(zhì)量定義及評價維度
2.2.2 數(shù)據(jù)質(zhì)量評估方法
2.3 本章小結
3 ECL-TL框架設計
3.1 框架設計
3.1.1 ECL組件
3.1.2 中間庫
3.1.3 TL組件
3.2 ECL-TL框架的特點
3.3 本章小結
4 重復記錄清洗
4.1 重復記錄介紹
4.2 基于等價關系的完全重復記錄清洗方法
4.2.1 方法步驟
4.2.2 時間復雜度分析
4.2.3 實驗分析
4.3 基于屬性層次結構的相似重復記錄檢測方法
4.3.1 基本步驟
4.3.2 音碼聚類
4.3.3 文本聚類
4.3.4 實驗分析
4.4 本章小結
5 基于信息值質(zhì)量評價的低質(zhì)量數(shù)據(jù)清洗方法
5.1 信息值質(zhì)量評價
5.2 權重設置
5.3 低質(zhì)量數(shù)據(jù)清洗
5.4 實驗分析
5.5 本章小結
6 ECL-TL框架的實現(xiàn)與應用
6.1 數(shù)據(jù)處理層
6.2 數(shù)據(jù)應用層
6.3 數(shù)據(jù)展示層
6.4 本章小結
7 總結與展望
7.1 全文總結
7.2 工作展望
參考文獻
攻讀碩士學位期間發(fā)表論文及科研成果
致謝
【參考文獻】:
期刊論文
[1]聚類算法綜述[J]. 章永來,周耀鑒. 計算機應用. 2019(07)
[2]基于分塊和滑窗技術的相似重復記錄檢測算法研究[J]. 陳亮,杜璐,胡康. 計算機應用與軟件. 2019(04)
[3]基于聚類的連續(xù)型數(shù)據(jù)缺失值充填方法[J]. 李國和,楊紹偉,吳衛(wèi)江,鄭藝峰. 計算機工程. 2019(09)
[4]劣質(zhì)數(shù)據(jù)上代價敏感決策樹的建立[J]. 齊志鑫,王宏志,周雄,李建中,高宏. 軟件學報. 2019(03)
[5]DBSCAN聚類算法的參數(shù)配置方法研究[J]. 宋金玉,郭一平,王斌. 計算機技術與發(fā)展. 2019(05)
[6]文本相似度計算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源. 情報科學. 2019(03)
[7]基于深度學習的時間序列數(shù)據(jù)異常檢測方法[J]. 胡姣姣,王曉峰,張萌,張德鵬,胡紹林. 信息與控制. 2019(01)
[8]缺失數(shù)據(jù)的維數(shù)增量式特征選擇[J]. 劉吉超,王鋒,宋鵬. 計算機工程與應用. 2019(17)
[9]基于DCNDA算法的數(shù)據(jù)異常檢測[J]. 蔣華,季豐,王鑫,王慧嬌. 計算機工程與設計. 2018(11)
[10]結構化數(shù)據(jù)清洗技術綜述[J]. 郝爽,李國良,馮建華,王寧. 清華大學學報(自然科學版). 2018(12)
碩士論文
[1]劣質(zhì)數(shù)據(jù)按需清洗的關鍵技術研究[D]. 齊志鑫.哈爾濱工業(yè)大學 2018
[2]工業(yè)大數(shù)據(jù)相似重復記錄數(shù)據(jù)清洗關鍵技術研究[D]. 楊巧巧.青島大學 2018
[3]基于Spark的大數(shù)據(jù)清洗框架設計與實現(xiàn)[D]. 金翰偉.浙江大學 2016
本文編號:3094099
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3094099.html
最近更新
教材專著