天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究

發(fā)布時間:2021-07-10 10:57
  隨著大數(shù)據(jù)時代和人工智能領(lǐng)域的發(fā)展,數(shù)據(jù)的存儲和挖掘處理凸顯的愈加重要,同時出現(xiàn)了數(shù)據(jù)質(zhì)量降低的問題。數(shù)據(jù)清洗能夠有效處理數(shù)據(jù)質(zhì)量問題。以國內(nèi)某電商網(wǎng)站開展促銷活動前一個月的用戶點擊日志數(shù)據(jù)作為清洗對象,針對其存在的重復數(shù)據(jù)問題,采取合適的清洗方法進行處理,目的是提高日志數(shù)據(jù)的清洗效率。對于日志重復數(shù)據(jù)的清洗,按照重復數(shù)據(jù)的類型分為兩大塊內(nèi)容,一塊是清洗完全重復數(shù)據(jù),一塊是清洗相似重復數(shù)據(jù)。首先,對完全重復數(shù)據(jù)的清洗。利用Hadoop分布式文件系統(tǒng)進行日志數(shù)據(jù)的存儲。通過其副本管理和心跳機制,保證日志數(shù)據(jù)存儲的高效性和完整性;利用Map Reduce強大的并行計算能力結(jié)合自定義清洗規(guī)則,統(tǒng)計完全重復數(shù)據(jù)的數(shù)目和剔除多余的完全重復數(shù)據(jù)。實驗可以實現(xiàn)所有完全重復數(shù)據(jù)的清除。其次,清洗相似重復數(shù)據(jù)需要能夠準確高效地識別相似重復數(shù)據(jù)。針對相似重復數(shù)據(jù)的檢測,提出了基于字符頻率的編輯距離算法。該算法是在傳統(tǒng)編輯距離算法的基礎(chǔ)上考慮了字符頻率,使得字符匹配綜合考慮的信息更多。通過編輯距離算法和基于字符頻率的編輯距離算法的對比試驗,后者對重復字符的檢測查準率達到了80.4%,在傳統(tǒng)編輯距離算法檢測查... 

【文章來源】:華北理工大學河北省

【文章頁數(shù)】:68 頁

【學位級別】:碩士

【部分圖文】:

基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究


數(shù)據(jù)集中的重復數(shù)據(jù)

數(shù)據(jù),數(shù)據(jù)清理,重復記錄,數(shù)據(jù)集中


華北理工大學碩士學位論文-34-3.4.2完全重復數(shù)據(jù)清理后的實驗結(jié)果通過部分數(shù)據(jù)樣本可以直觀的看到完全重復數(shù)據(jù)完全被清洗,如圖13所示。圖13清洗完全重復數(shù)據(jù)Fig.13Cleaningcompleteduplicatedata通過Eclipse運行完程序輸出的運行結(jié)果可以看出:其中,完全重復數(shù)據(jù)一共有35840條。Eclipse運行控制臺顯示結(jié)果如圖14所示。圖14Eclipse運行結(jié)果Fig.14Eclipserunresults3.5實驗結(jié)果分析從結(jié)果截圖可以看出:經(jīng)過MapReduce的處理,日志數(shù)據(jù)中的所有完全重復數(shù)據(jù)不僅去除了完全重復記錄,而且還統(tǒng)計得到了數(shù)據(jù)集中每條記錄的重復條數(shù)。

基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究


Eclipse運行結(jié)果

【參考文獻】:
期刊論文
[1]基于能量過濾的不確定時間序列數(shù)據(jù)清洗方法[J]. 孫紀舟,李建中.  智能計算機與應(yīng)用. 2019(04)
[2]多用戶網(wǎng)絡(luò)擁塞中錯誤數(shù)據(jù)實時清理方法仿真[J]. 李曉.  計算機仿真. 2019(06)
[3]基于SNM算法的大數(shù)據(jù)量中文商品清洗方法[J]. 張苗苗,蘇勇.  計算機與數(shù)字工程. 2019(03)
[4]基于聚類和神經(jīng)網(wǎng)絡(luò)對建筑節(jié)能氣候數(shù)據(jù)清洗的算法[J]. 李昌華,卜亮亮,劉欣.  計算機應(yīng)用. 2018(S1)
[5]Hadoop實現(xiàn)點擊流日志的數(shù)據(jù)清洗[J]. 趙鑫.  無線互聯(lián)科技. 2018(09)
[6]海洋數(shù)據(jù)倉庫的數(shù)據(jù)清洗規(guī)則應(yīng)用研究[J]. 李郅明,余榮君,葉馥榕.  海洋開發(fā)與管理. 2018(02)
[7]一種基于動態(tài)標簽的RFID不確定性數(shù)據(jù)清洗算法[J]. 王萬良,顧熙仁,趙燕偉.  計算機科學. 2014(S1)
[8]一種高效的檢測相似重復記錄的方法[J]. 邱越峰,田增平,季文贇,周傲英.  計算機學報. 2001(01)

碩士論文
[1]融合多元信息的字符串近似匹配算法研究及應(yīng)用[D]. 牛增賢.北京交通大學 2019
[2]大數(shù)據(jù)清洗算法研究與系統(tǒng)平臺搭建[D]. 耿昭陽.吉林大學 2019
[3]大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)相似重復記錄檢測方法研究[D]. 余通.東北電力大學 2018
[4]面向重復記錄檢測的數(shù)據(jù)清洗算法的研究[D]. 張攀.西安電子科技大學 2018
[5]中文重復記錄清洗的相關(guān)算法的研究[D]. 王芳.青島大學 2018
[6]XML相似重復數(shù)據(jù)的檢測和清洗研究[D]. 楊曉東.青島大學 2018
[7]面向電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)清洗子系統(tǒng)設(shè)計與實現(xiàn)[D]. 雷雨.北京郵電大學 2018
[8]基于Hadoop分布式平臺的重復數(shù)據(jù)刪除技術(shù)研究[D]. 陶然.廈門大學 2017
[9]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學梁.中國農(nóng)業(yè)科學院 2017
[10]基于數(shù)據(jù)挖掘的數(shù)據(jù)清洗及其評估模型的研究[D]. 鄒杰.北京郵電大學 2017



本文編號:3275787

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3275787.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6875c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
开心久久综合激情五月天| 国产福利在线播放麻豆| 不卡中文字幕在线视频| 91精品国产av一区二区| 午夜福利大片亚洲一区| 国产成人精品一区二区三区| 欧美精品久久一二三区| 亚洲欧美日韩综合在线成成| 国产一区二区三中文字幕 | 爽到高潮嗷嗷叫之在现观看| 在线懂色一区二区三区精品| 精品国产一区二区欧美| 久久亚洲国产视频三级黄| 黄色日韩欧美在线观看| 亚洲精品中文字幕熟女| 99久久人妻中文字幕| 粉嫩内射av一区二区| 亚洲国产欧美久久精品| 国产传媒一区二区三区| 香蕉网尹人综合在线观看| 国产成人在线一区二区三区| 日韩综合国产欧美一区| 人妻少妇久久中文字幕久久| 三级高清有码在线观看| 国产在线成人免费高清观看av| 国产又大又硬又粗又黄| 中文字幕人妻日本一区二区| 老司机激情五月天在线不卡| 人妻熟女中文字幕在线| 嫩草国产福利视频一区二区| 国产肥女老熟女激情视频一区| 国产主播精品福利午夜二区| 亚洲国产成人av毛片国产| 少妇视频一区二区三区| 中文字幕久热精品视频在线| 国产一区二区三区香蕉av| 国产精品香蕉免费手机视频| 日韩国产亚洲欧美激情| 久久热在线免费视频精品| 亚洲精品深夜福利视频| 福利专区 久久精品午夜|