基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究
發(fā)布時間:2021-07-10 10:57
隨著大數(shù)據(jù)時代和人工智能領(lǐng)域的發(fā)展,數(shù)據(jù)的存儲和挖掘處理凸顯的愈加重要,同時出現(xiàn)了數(shù)據(jù)質(zhì)量降低的問題。數(shù)據(jù)清洗能夠有效處理數(shù)據(jù)質(zhì)量問題。以國內(nèi)某電商網(wǎng)站開展促銷活動前一個月的用戶點擊日志數(shù)據(jù)作為清洗對象,針對其存在的重復數(shù)據(jù)問題,采取合適的清洗方法進行處理,目的是提高日志數(shù)據(jù)的清洗效率。對于日志重復數(shù)據(jù)的清洗,按照重復數(shù)據(jù)的類型分為兩大塊內(nèi)容,一塊是清洗完全重復數(shù)據(jù),一塊是清洗相似重復數(shù)據(jù)。首先,對完全重復數(shù)據(jù)的清洗。利用Hadoop分布式文件系統(tǒng)進行日志數(shù)據(jù)的存儲。通過其副本管理和心跳機制,保證日志數(shù)據(jù)存儲的高效性和完整性;利用Map Reduce強大的并行計算能力結(jié)合自定義清洗規(guī)則,統(tǒng)計完全重復數(shù)據(jù)的數(shù)目和剔除多余的完全重復數(shù)據(jù)。實驗可以實現(xiàn)所有完全重復數(shù)據(jù)的清除。其次,清洗相似重復數(shù)據(jù)需要能夠準確高效地識別相似重復數(shù)據(jù)。針對相似重復數(shù)據(jù)的檢測,提出了基于字符頻率的編輯距離算法。該算法是在傳統(tǒng)編輯距離算法的基礎(chǔ)上考慮了字符頻率,使得字符匹配綜合考慮的信息更多。通過編輯距離算法和基于字符頻率的編輯距離算法的對比試驗,后者對重復字符的檢測查準率達到了80.4%,在傳統(tǒng)編輯距離算法檢測查...
【文章來源】:華北理工大學河北省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
數(shù)據(jù)集中的重復數(shù)據(jù)
華北理工大學碩士學位論文-34-3.4.2完全重復數(shù)據(jù)清理后的實驗結(jié)果通過部分數(shù)據(jù)樣本可以直觀的看到完全重復數(shù)據(jù)完全被清洗,如圖13所示。圖13清洗完全重復數(shù)據(jù)Fig.13Cleaningcompleteduplicatedata通過Eclipse運行完程序輸出的運行結(jié)果可以看出:其中,完全重復數(shù)據(jù)一共有35840條。Eclipse運行控制臺顯示結(jié)果如圖14所示。圖14Eclipse運行結(jié)果Fig.14Eclipserunresults3.5實驗結(jié)果分析從結(jié)果截圖可以看出:經(jīng)過MapReduce的處理,日志數(shù)據(jù)中的所有完全重復數(shù)據(jù)不僅去除了完全重復記錄,而且還統(tǒng)計得到了數(shù)據(jù)集中每條記錄的重復條數(shù)。
Eclipse運行結(jié)果
【參考文獻】:
期刊論文
[1]基于能量過濾的不確定時間序列數(shù)據(jù)清洗方法[J]. 孫紀舟,李建中. 智能計算機與應(yīng)用. 2019(04)
[2]多用戶網(wǎng)絡(luò)擁塞中錯誤數(shù)據(jù)實時清理方法仿真[J]. 李曉. 計算機仿真. 2019(06)
[3]基于SNM算法的大數(shù)據(jù)量中文商品清洗方法[J]. 張苗苗,蘇勇. 計算機與數(shù)字工程. 2019(03)
[4]基于聚類和神經(jīng)網(wǎng)絡(luò)對建筑節(jié)能氣候數(shù)據(jù)清洗的算法[J]. 李昌華,卜亮亮,劉欣. 計算機應(yīng)用. 2018(S1)
[5]Hadoop實現(xiàn)點擊流日志的數(shù)據(jù)清洗[J]. 趙鑫. 無線互聯(lián)科技. 2018(09)
[6]海洋數(shù)據(jù)倉庫的數(shù)據(jù)清洗規(guī)則應(yīng)用研究[J]. 李郅明,余榮君,葉馥榕. 海洋開發(fā)與管理. 2018(02)
[7]一種基于動態(tài)標簽的RFID不確定性數(shù)據(jù)清洗算法[J]. 王萬良,顧熙仁,趙燕偉. 計算機科學. 2014(S1)
[8]一種高效的檢測相似重復記錄的方法[J]. 邱越峰,田增平,季文贇,周傲英. 計算機學報. 2001(01)
碩士論文
[1]融合多元信息的字符串近似匹配算法研究及應(yīng)用[D]. 牛增賢.北京交通大學 2019
[2]大數(shù)據(jù)清洗算法研究與系統(tǒng)平臺搭建[D]. 耿昭陽.吉林大學 2019
[3]大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)相似重復記錄檢測方法研究[D]. 余通.東北電力大學 2018
[4]面向重復記錄檢測的數(shù)據(jù)清洗算法的研究[D]. 張攀.西安電子科技大學 2018
[5]中文重復記錄清洗的相關(guān)算法的研究[D]. 王芳.青島大學 2018
[6]XML相似重復數(shù)據(jù)的檢測和清洗研究[D]. 楊曉東.青島大學 2018
[7]面向電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)清洗子系統(tǒng)設(shè)計與實現(xiàn)[D]. 雷雨.北京郵電大學 2018
[8]基于Hadoop分布式平臺的重復數(shù)據(jù)刪除技術(shù)研究[D]. 陶然.廈門大學 2017
[9]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學梁.中國農(nóng)業(yè)科學院 2017
[10]基于數(shù)據(jù)挖掘的數(shù)據(jù)清洗及其評估模型的研究[D]. 鄒杰.北京郵電大學 2017
本文編號:3275787
【文章來源】:華北理工大學河北省
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
數(shù)據(jù)集中的重復數(shù)據(jù)
華北理工大學碩士學位論文-34-3.4.2完全重復數(shù)據(jù)清理后的實驗結(jié)果通過部分數(shù)據(jù)樣本可以直觀的看到完全重復數(shù)據(jù)完全被清洗,如圖13所示。圖13清洗完全重復數(shù)據(jù)Fig.13Cleaningcompleteduplicatedata通過Eclipse運行完程序輸出的運行結(jié)果可以看出:其中,完全重復數(shù)據(jù)一共有35840條。Eclipse運行控制臺顯示結(jié)果如圖14所示。圖14Eclipse運行結(jié)果Fig.14Eclipserunresults3.5實驗結(jié)果分析從結(jié)果截圖可以看出:經(jīng)過MapReduce的處理,日志數(shù)據(jù)中的所有完全重復數(shù)據(jù)不僅去除了完全重復記錄,而且還統(tǒng)計得到了數(shù)據(jù)集中每條記錄的重復條數(shù)。
Eclipse運行結(jié)果
【參考文獻】:
期刊論文
[1]基于能量過濾的不確定時間序列數(shù)據(jù)清洗方法[J]. 孫紀舟,李建中. 智能計算機與應(yīng)用. 2019(04)
[2]多用戶網(wǎng)絡(luò)擁塞中錯誤數(shù)據(jù)實時清理方法仿真[J]. 李曉. 計算機仿真. 2019(06)
[3]基于SNM算法的大數(shù)據(jù)量中文商品清洗方法[J]. 張苗苗,蘇勇. 計算機與數(shù)字工程. 2019(03)
[4]基于聚類和神經(jīng)網(wǎng)絡(luò)對建筑節(jié)能氣候數(shù)據(jù)清洗的算法[J]. 李昌華,卜亮亮,劉欣. 計算機應(yīng)用. 2018(S1)
[5]Hadoop實現(xiàn)點擊流日志的數(shù)據(jù)清洗[J]. 趙鑫. 無線互聯(lián)科技. 2018(09)
[6]海洋數(shù)據(jù)倉庫的數(shù)據(jù)清洗規(guī)則應(yīng)用研究[J]. 李郅明,余榮君,葉馥榕. 海洋開發(fā)與管理. 2018(02)
[7]一種基于動態(tài)標簽的RFID不確定性數(shù)據(jù)清洗算法[J]. 王萬良,顧熙仁,趙燕偉. 計算機科學. 2014(S1)
[8]一種高效的檢測相似重復記錄的方法[J]. 邱越峰,田增平,季文贇,周傲英. 計算機學報. 2001(01)
碩士論文
[1]融合多元信息的字符串近似匹配算法研究及應(yīng)用[D]. 牛增賢.北京交通大學 2019
[2]大數(shù)據(jù)清洗算法研究與系統(tǒng)平臺搭建[D]. 耿昭陽.吉林大學 2019
[3]大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)相似重復記錄檢測方法研究[D]. 余通.東北電力大學 2018
[4]面向重復記錄檢測的數(shù)據(jù)清洗算法的研究[D]. 張攀.西安電子科技大學 2018
[5]中文重復記錄清洗的相關(guān)算法的研究[D]. 王芳.青島大學 2018
[6]XML相似重復數(shù)據(jù)的檢測和清洗研究[D]. 楊曉東.青島大學 2018
[7]面向電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)清洗子系統(tǒng)設(shè)計與實現(xiàn)[D]. 雷雨.北京郵電大學 2018
[8]基于Hadoop分布式平臺的重復數(shù)據(jù)刪除技術(shù)研究[D]. 陶然.廈門大學 2017
[9]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學梁.中國農(nóng)業(yè)科學院 2017
[10]基于數(shù)據(jù)挖掘的數(shù)據(jù)清洗及其評估模型的研究[D]. 鄒杰.北京郵電大學 2017
本文編號:3275787
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3275787.html
最近更新
教材專著