天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于聚類算法的數(shù)據(jù)清洗研究

發(fā)布時(shí)間:2021-06-27 13:03
  隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)正在爆炸式增長,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。數(shù)據(jù)挖掘是從數(shù)據(jù)中獲取知識的技術(shù),因此數(shù)據(jù)的質(zhì)量尤為重要。但由于人工的疏漏,網(wǎng)絡(luò)的錯(cuò)誤等原因?qū)е聰?shù)據(jù)或多或少存在著各種問題,包括屬性值異常、記錄重復(fù)和數(shù)據(jù)值缺失等,而這些臟數(shù)據(jù)將導(dǎo)致挖掘出的信息可信度較低。在數(shù)據(jù)挖掘之前對數(shù)據(jù)進(jìn)行預(yù)處理尤為重要,而數(shù)據(jù)清洗就是數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)。本文主要研究數(shù)據(jù)挖掘中的數(shù)據(jù)清洗技術(shù),重點(diǎn)研究對缺失值數(shù)據(jù)的清洗。傳統(tǒng)的數(shù)據(jù)清洗的種類包括重復(fù)值記錄清洗、異常數(shù)據(jù)的處理和缺失值處理。聚類是數(shù)據(jù)清洗的重要技術(shù),而基于聚類算法的缺失值填充技術(shù)仍然存在填充不穩(wěn)定,填充精確度不夠高等問題。為此,本文對聚類算法進(jìn)行了改進(jìn),并借助于三角不等式性質(zhì),提高填充算法的效率,并給出了離散型缺失值填充的方法。實(shí)驗(yàn)結(jié)果顯示,改進(jìn)后的算法不僅能夠有效的填充缺失值記錄,還擁有更好的運(yùn)行效率。本文主要研究內(nèi)容如下。(1)通過研究發(fā)現(xiàn)傳統(tǒng)的DBSCAN缺失值填充算法使用固定的Eps鄰域半徑進(jìn)行聚類,并且在非均勻密度數(shù)據(jù)集下填充效果不理想。針對這一缺點(diǎn),本文對DBSCAN算法進(jìn)行了改進(jìn)。改進(jìn)算法的主要思想:使用可變的MinPts... 

【文章來源】:江蘇科技大學(xué)江蘇省

【文章頁數(shù)】:69 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 論文研究背景及意義
    1.2 課題研究現(xiàn)狀
    1.3 本文主要工作
    1.4 論文組織結(jié)構(gòu)
第2章 數(shù)據(jù)清洗研究
    2.1 數(shù)據(jù)清洗定義
    2.2 數(shù)據(jù)清洗的原理與方法
        2.2.1 數(shù)據(jù)清洗的原理
        2.2.2 數(shù)據(jù)清洗的方法
    2.3 數(shù)據(jù)清洗的基本過程
    2.4 數(shù)據(jù)清洗的評價(jià)標(biāo)準(zhǔn)
        2.4.1 數(shù)據(jù)質(zhì)量
        2.4.2 成本效益
        2.4.3 數(shù)據(jù)集成
    2.5 本章小結(jié)
第3章 缺失值清洗和聚類
    3.1 缺失值簡述
    3.2 常用的缺失值清洗方法
    3.3 聚類簡述
        3.3.1 聚類算法的分類
        3.3.2 聚類分析的基本步驟
    3.4 本章小結(jié)
第4章 基于改進(jìn)DBSCAN的缺失值填充算法研究
    4.1 DBSCAN算法在缺失值填充中的應(yīng)用
        4.1.1 DBSCAN算法
        4.1.2 填充相似度度量方法
        4.1.3 使用DBSCAN填充缺失值過程描述
        4.1.4 應(yīng)用評價(jià)
    4.2 改進(jìn)的DBSCAN算法
        4.2.1 算法主要概念和思想
        4.2.2 算法步驟和偽代碼
        4.2.3 算法復(fù)雜度分析
        4.2.4 實(shí)驗(yàn)結(jié)果與分析
    4.3 三角不等式策略
    4.4 離散型數(shù)據(jù)填充策略
    4.5 改進(jìn)后的缺失值填充算法
    4.6 本章小結(jié)
第5章 實(shí)驗(yàn)與分析
    5.1 實(shí)驗(yàn)環(huán)境
    5.2 數(shù)據(jù)集的選取
    5.3 實(shí)驗(yàn)設(shè)計(jì)
    5.4 實(shí)驗(yàn)結(jié)果與分析
    5.5 本章小結(jié)
第6章 總結(jié)與展望
    6.1 全文總結(jié)
    6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝


【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)凝聚層次聚類算法的變壓器繞組及鐵心故障診斷研究[J]. 李敏,陳果,沈大千,陳飛洋,羅宇昆,王昕.  高壓電器. 2018(01)
[2]xk-split:基于k-medoids的分裂式聚類算法[J]. 陳逸斐,虞慧群.  華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[3]數(shù)據(jù)清洗方法研究綜述[J]. 趙一凡,卞良,叢昕.  軟件導(dǎo)刊. 2017(12)
[4]一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法[J]. 李琳.  科技創(chuàng)新與應(yīng)用. 2017(21)
[5]淺談醫(yī)學(xué)數(shù)據(jù)常見質(zhì)量問題及其清洗方法[J]. 武瑞仙,周紅.  科技資訊. 2016(06)
[6]完全隨機(jī)缺失條件下分類隨機(jī)變量數(shù)據(jù)缺失插補(bǔ)方法的比較研究[J]. 張彪,韓偉,龐海玉,薛芳,厚磊,王子興,王鈺嫣,姜晶梅.  中國衛(wèi)生統(tǒng)計(jì). 2015(05)
[7]數(shù)據(jù)挖掘過程中數(shù)據(jù)清洗的研究[J]. 孟龍梅.  通化師范學(xué)院學(xué)報(bào). 2015(04)
[8]缺失偏t正態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計(jì)推斷[J]. 吳劉倉,張家茂,李玲雪.  應(yīng)用數(shù)學(xué). 2015(01)
[9]缺失數(shù)據(jù)插補(bǔ)方法探討——基于最近鄰插補(bǔ)法和關(guān)聯(lián)規(guī)則法[J]. 于力超,金勇進(jìn),王俊.  統(tǒng)計(jì)與信息論壇. 2015(01)
[10]有向圖的強(qiáng)連通分量及應(yīng)用[J]. 吳金全.  軟件. 2014(03)

碩士論文
[1]基于多重插補(bǔ)法的因果推斷研究[D]. 張冬陽.長春工業(yè)大學(xué) 2018
[2]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學(xué)梁.中國農(nóng)業(yè)科學(xué)院 2017
[3]改進(jìn)的模糊聚類算法在電站運(yùn)行優(yōu)化中的應(yīng)用[D]. 潘文凱.華北電力大學(xué) 2016
[4]數(shù)據(jù)清理關(guān)鍵技術(shù)在醫(yī)療保險(xiǎn)管理系統(tǒng)的應(yīng)用研究[D]. 蔡鐘杰.蘭州交通大學(xué) 2014
[5]一種基于k-means算法和關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)填補(bǔ)方法[D]. 王策.哈爾濱工程大學(xué) 2014
[6]數(shù)據(jù)清洗系統(tǒng)中不一致數(shù)據(jù)修復(fù)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 門雪瑩.哈爾濱工業(yè)大學(xué) 2013
[7]基于統(tǒng)計(jì)學(xué)習(xí)的數(shù)據(jù)預(yù)處理缺失值清洗方法研究[D]. 曹林.哈爾濱工程大學(xué) 2012
[8]基于聚類算法的數(shù)據(jù)清洗的研究與實(shí)現(xiàn)[D]. 張燕.華北電力大學(xué)(河北) 2008



本文編號:3252902

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3252902.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ff6c5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com