天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

改進(jìn)的ETL框架及其數(shù)據(jù)清洗方法研究

發(fā)布時(shí)間:2021-03-22 15:58
  隨著信息化技術(shù)的普及與發(fā)展,各行各業(yè)積累了大量的數(shù)據(jù),為了充分利用這些數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)廣泛的應(yīng)用于各個(gè)領(lǐng)域。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的基礎(chǔ)之一,ETL(Extract,Transformation and Loading)用來(lái)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換與裝載,決定了數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)質(zhì)量。由于數(shù)據(jù)源中存在數(shù)據(jù)重復(fù)、數(shù)據(jù)缺失、數(shù)據(jù)錯(cuò)誤等問(wèn)題,導(dǎo)致數(shù)據(jù)質(zhì)量大大降低,而數(shù)據(jù)質(zhì)量嚴(yán)重影響了數(shù)據(jù)挖掘的效率和分析決策的準(zhǔn)確率,所以數(shù)據(jù)清洗作為提高數(shù)據(jù)質(zhì)量的主要方法,是ETL中的重要內(nèi)容。本文為了提高ETL在大數(shù)據(jù)環(huán)境下的靈活性和工作效率,改進(jìn)了傳統(tǒng)的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并對(duì)其中的數(shù)據(jù)清洗方法進(jìn)行了系統(tǒng)研究,具體的研究?jī)?nèi)容如下:(1)針對(duì)傳統(tǒng)的ETL框架,本文設(shè)計(jì)實(shí)現(xiàn)了ECL-TL框架。該框架通過(guò)引入中間庫(kù)將數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換完全分離,降低了各組件之間的耦合度。同時(shí),提供了高效的數(shù)據(jù)清洗解決方案,封裝了數(shù)據(jù)清洗相關(guān)的算法庫(kù)、規(guī)則庫(kù)和評(píng)估庫(kù)。(2)在重復(fù)記錄清洗方面,本文提出了一種基于等價(jià)關(guān)系的完全重復(fù)記錄清洗方法... 

【文章來(lái)源】:西華大學(xué)四川省

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 課題的研究背景與選題意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)外研究現(xiàn)狀
        1.2.2 國(guó)內(nèi)研究現(xiàn)狀
    1.3 存在的問(wèn)題
    1.4 論文的主要工作
    1.5 論文組織結(jié)構(gòu)
2 預(yù)備知識(shí)
    2.1 ETL
    2.2 數(shù)據(jù)質(zhì)量及評(píng)估方法
        2.2.1 數(shù)據(jù)質(zhì)量定義及評(píng)價(jià)維度
        2.2.2 數(shù)據(jù)質(zhì)量評(píng)估方法
    2.3 本章小結(jié)
3 ECL-TL框架設(shè)計(jì)
    3.1 框架設(shè)計(jì)
        3.1.1 ECL組件
        3.1.2 中間庫(kù)
        3.1.3 TL組件
    3.2 ECL-TL框架的特點(diǎn)
    3.3 本章小結(jié)
4 重復(fù)記錄清洗
    4.1 重復(fù)記錄介紹
    4.2 基于等價(jià)關(guān)系的完全重復(fù)記錄清洗方法
        4.2.1 方法步驟
        4.2.2 時(shí)間復(fù)雜度分析
        4.2.3 實(shí)驗(yàn)分析
    4.3 基于屬性層次結(jié)構(gòu)的相似重復(fù)記錄檢測(cè)方法
        4.3.1 基本步驟
        4.3.2 音碼聚類(lèi)
        4.3.3 文本聚類(lèi)
        4.3.4 實(shí)驗(yàn)分析
    4.4 本章小結(jié)
5 基于信息值質(zhì)量評(píng)價(jià)的低質(zhì)量數(shù)據(jù)清洗方法
    5.1 信息值質(zhì)量評(píng)價(jià)
    5.2 權(quán)重設(shè)置
    5.3 低質(zhì)量數(shù)據(jù)清洗
    5.4 實(shí)驗(yàn)分析
    5.5 本章小結(jié)
6 ECL-TL框架的實(shí)現(xiàn)與應(yīng)用
    6.1 數(shù)據(jù)處理層
    6.2 數(shù)據(jù)應(yīng)用層
    6.3 數(shù)據(jù)展示層
    6.4 本章小結(jié)
7 總結(jié)與展望
    7.1 全文總結(jié)
    7.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表論文及科研成果
致謝


【參考文獻(xiàn)】:
期刊論文
[1]聚類(lèi)算法綜述[J]. 章永來(lái),周耀鑒.  計(jì)算機(jī)應(yīng)用. 2019(07)
[2]基于分塊和滑窗技術(shù)的相似重復(fù)記錄檢測(cè)算法研究[J]. 陳亮,杜璐,胡康.  計(jì)算機(jī)應(yīng)用與軟件. 2019(04)
[3]基于聚類(lèi)的連續(xù)型數(shù)據(jù)缺失值充填方法[J]. 李國(guó)和,楊紹偉,吳衛(wèi)江,鄭藝峰.  計(jì)算機(jī)工程. 2019(09)
[4]劣質(zhì)數(shù)據(jù)上代價(jià)敏感決策樹(shù)的建立[J]. 齊志鑫,王宏志,周雄,李建中,高宏.  軟件學(xué)報(bào). 2019(03)
[5]DBSCAN聚類(lèi)算法的參數(shù)配置方法研究[J]. 宋金玉,郭一平,王斌.  計(jì)算機(jī)技術(shù)與發(fā)展. 2019(05)
[6]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源.  情報(bào)科學(xué). 2019(03)
[7]基于深度學(xué)習(xí)的時(shí)間序列數(shù)據(jù)異常檢測(cè)方法[J]. 胡姣姣,王曉峰,張萌,張德鵬,胡紹林.  信息與控制. 2019(01)
[8]缺失數(shù)據(jù)的維數(shù)增量式特征選擇[J]. 劉吉超,王鋒,宋鵬.  計(jì)算機(jī)工程與應(yīng)用. 2019(17)
[9]基于DCNDA算法的數(shù)據(jù)異常檢測(cè)[J]. 蔣華,季豐,王鑫,王慧嬌.  計(jì)算機(jī)工程與設(shè)計(jì). 2018(11)
[10]結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)綜述[J]. 郝爽,李國(guó)良,馮建華,王寧.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(12)

碩士論文
[1]劣質(zhì)數(shù)據(jù)按需清洗的關(guān)鍵技術(shù)研究[D]. 齊志鑫.哈爾濱工業(yè)大學(xué) 2018
[2]工業(yè)大數(shù)據(jù)相似重復(fù)記錄數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D]. 楊巧巧.青島大學(xué) 2018
[3]基于Spark的大數(shù)據(jù)清洗框架設(shè)計(jì)與實(shí)現(xiàn)[D]. 金翰偉.浙江大學(xué) 2016



本文編號(hào):3094099

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3094099.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c6d84***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美国产日产综合精品| 久久国产亚洲精品赲碰热| 欧美日韩在线第一页日韩| 亚洲中文字幕人妻系列| 婷婷色国产精品视频一区| 又色又爽又无遮挡的视频 | 亚洲第一香蕉视频在线| 日本福利写真在线观看| 国产成人精品一区二区三区| 亚洲一区二区三区福利视频| 一区中文字幕人妻少妇| 高清不卡一卡二卡区在线| 欧美精品激情视频一区| 欧美国产日韩变态另类在线看| 亚洲精品成人综合色在线| 日本一区二区三区黄色| 日本高清不卡一二三区| 国产性情片一区二区三区| 亚洲伦理中文字幕在线观看| 国产一级二级三级观看| 欧美日韩综合在线精品| 日韩一区二区三区嘿嘿| 美女被后入视频在线观看| 日本久久精品在线观看| 女生更色还是男生更色| 日韩成人动画在线观看| 老司机激情五月天在线不卡 | 欧美日韩国产精品黄片| 白丝美女被插入视频在线观看| 91后入中出内射在线| 日本加勒比在线观看一区| 日韩欧美国产精品自拍| 欧美一级黄片欧美精品| 欧美人妻免费一区二区三区| 亚洲日本加勒比在线播放 | 五月激情综合在线视频| 亚洲国产四季欧美一区| 日韩精品中文字幕亚洲| 欧美日韩国产亚洲三级理论片 | 亚洲国产综合久久天堂| 亚洲最新一区二区三区|