天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

大數(shù)據(jù)環(huán)境下相似重復(fù)記錄數(shù)據(jù)清洗關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2023-04-22 01:22
  隨著互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的蓬勃發(fā)展,大量的數(shù)據(jù)正在以極快的速度擴(kuò)展,全球已進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)隱含著極大的價(jià)值,人們越來越希望從大量的數(shù)據(jù)中挖掘出有價(jià)值的信息供管理、決策和調(diào)控參考使用。一般情況下,數(shù)據(jù)挖掘總是假設(shè)數(shù)據(jù)是“干凈”和一致的,然而現(xiàn)實(shí)中感知數(shù)據(jù)往往是冗余的、不完整的、錯(cuò)誤的,且存在不一致性,這些現(xiàn)象的存在將會降低數(shù)據(jù)質(zhì)量,嚴(yán)重影響數(shù)據(jù)挖掘的結(jié)果,從而影響決策的正確制定。因而,對采集到的大數(shù)據(jù)首先進(jìn)行數(shù)據(jù)預(yù)處理,提高數(shù)據(jù)質(zhì)量,對數(shù)據(jù)挖掘有著重要的意義。在大數(shù)據(jù)預(yù)處理中,數(shù)據(jù)清洗是保證數(shù)據(jù)質(zhì)量的重要手段之一,在數(shù)據(jù)清洗中,相似重復(fù)記錄清洗常用于數(shù)據(jù)去冗余處理中,去除大數(shù)據(jù)中大量的冗余數(shù)據(jù),這對提高數(shù)據(jù)質(zhì)量起著至關(guān)重要的作用。而在相似重復(fù)記錄清洗過程中,數(shù)據(jù)相似度檢測是基礎(chǔ)。目前對數(shù)據(jù)相似度檢測方法的研究基本集中在基于字面的字符串相似度檢測方面,并且已取得了一定的研究成果,但是根據(jù)現(xiàn)有方法所計(jì)算出的數(shù)據(jù)相似度檢測結(jié)果精確度不是很高;而在基于語義的詞語相似度檢測方面,研究成果相對較少,而且相關(guān)的檢測方法還存在許多不足之處。因此需要研究高精度的數(shù)據(jù)相似度檢測方法,對提高數(shù)據(jù)質(zhì)量具有...

【文章頁數(shù)】:54 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 引言
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)清洗研究現(xiàn)狀
        1.2.2 基于字面的字符串相似度檢測方法研究現(xiàn)狀
        1.2.3 基于語義的詞語相似度檢測方法研究現(xiàn)狀
    1.3 本文主要研究工作
    1.4 本文論文結(jié)構(gòu)
第二章 相關(guān)基礎(chǔ)理論知識介紹
    2.1 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗
        2.1.1 數(shù)據(jù)質(zhì)量
        2.1.2 數(shù)據(jù)清洗
    2.2 屬性清洗
        2.2.1 缺失值清洗
        2.2.2 錯(cuò)誤值清洗
    2.3 相似重復(fù)記錄清洗
        2.3.1 相似重復(fù)記錄的概念
        2.3.2 相似重復(fù)記錄的相關(guān)清除方法
        2.3.3 相似重復(fù)記錄的相關(guān)檢測方法
    2.4 詞語語義相似度概念
    2.5 知網(wǎng)簡介
    2.6 Python仿真工具簡介
    2.7 本章小結(jié)
第三章 基于編輯距離的字符串相似度檢測方法
    3.1 引言
    3.2 現(xiàn)有的基于編輯距離的字符串相似度檢測方法
        3.2.1 經(jīng)典的基于編輯距離的字符串相似度檢測方法
        3.2.2 聯(lián)合LD和 LCS的字符串相似度檢測方法
    3.3 新型的基于編輯距離的字符串相似度檢測方法
    3.4 實(shí)驗(yàn)結(jié)果與分析
    3.5 本章小結(jié)
第四章 基于知網(wǎng)的詞語語義相似度檢測方法
    4.1 引言
    4.2 現(xiàn)有的基于知網(wǎng)的詞語語義相似度檢測方法
        4.2.1 基于義原距離的詞語語義相似度檢測方法
        4.2.2 基于義原深度與密度的詞語語義相似度檢測方法
    4.3 新型的基于知網(wǎng)的詞語語義相似度檢測方法
    4.4 實(shí)驗(yàn)結(jié)果與分析
    4.5 本章小結(jié)
第五章 總結(jié)與展望
    5.1 本文工作總結(jié)
    5.2 展望
參考文獻(xiàn)
附錄1 攻讀碩士學(xué)位期間撰寫的論文
附錄2 攻讀碩士學(xué)位期間申請的專利
附錄3 攻讀碩士學(xué)位期間參加的科研項(xiàng)目
致謝



本文編號:3796632

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3796632.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6a9c3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com