基于K-Means-CNN的采砂大數(shù)據(jù)清洗算法研究
發(fā)布時(shí)間:2021-11-25 10:32
數(shù)據(jù)質(zhì)量是進(jìn)行數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題,高質(zhì)量的數(shù)據(jù)帶來(lái)的信息準(zhǔn)確、全面,有助于人們做出正確的判斷及決策,因此,做好數(shù)據(jù)清洗,提高數(shù)據(jù)質(zhì)量是非常重要的。目前,已有學(xué)者提出許多數(shù)據(jù)清洗方法,它們解決了大部分領(lǐng)域的數(shù)據(jù)清洗問(wèn)題,但是這些數(shù)據(jù)清洗方法在對(duì)缺失值、異常值、重復(fù)值的處理上還存在很多不足之處,主要表現(xiàn)在算法自身存在缺陷及數(shù)據(jù)問(wèn)題分類不精確方面。而且,在河道采砂方面,目前還沒(méi)有有效的數(shù)據(jù)清洗方法。河道采砂活動(dòng)日益頻繁,在采砂過(guò)程中,會(huì)產(chǎn)生各種與采砂密切相關(guān)的數(shù)據(jù),這些數(shù)據(jù)包含:業(yè)務(wù)數(shù)據(jù)、設(shè)備數(shù)據(jù)、傳感器數(shù)據(jù)、人工數(shù)據(jù)等,其中,傳感器采集的河道信息數(shù)據(jù)對(duì)分析采砂業(yè)務(wù)有很大幫助,而一些備份、殘缺數(shù)據(jù)等屬于冗余、垃圾數(shù)據(jù),在對(duì)數(shù)據(jù)進(jìn)行分析應(yīng)用時(shí),會(huì)出現(xiàn)決策誤導(dǎo)問(wèn)題,因此,對(duì)這些數(shù)據(jù)進(jìn)行清洗可以充分分析挖掘數(shù)據(jù),引導(dǎo)人們做出正確決策。大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)已經(jīng)成了數(shù)據(jù)處理的主流方向。其中,河道采砂關(guān)乎大眾民生,解決采砂問(wèn)題迫在眉睫。本文對(duì)已有的數(shù)據(jù)清洗方法加以改進(jìn),提出了基于聚類及卷積神經(jīng)網(wǎng)絡(luò)的采砂大數(shù)據(jù)清洗方法。本文所做主要工作如下:第一,研究數(shù)據(jù)源,對(duì)河道采砂數(shù)據(jù)加以了解,研究其源數(shù)據(jù)存在的主...
【文章來(lái)源】:華北水利水電大學(xué)河南省
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
技術(shù)路線圖
華北水利水電大學(xué)碩士學(xué)位論文8圖2-1數(shù)據(jù)清洗流程Fig.2-1Datacleaningprocess2.2K-Means聚類2.2.1K-Means聚類算法K-Means算法是聚類算法中常用的一種,利用迭代求解過(guò)程,對(duì)數(shù)據(jù)進(jìn)行聚類分析[69]。其算法思想是:把樣本隨機(jī)分成k組,每組選取一個(gè)樣本作為中心對(duì)象,則這k個(gè)中心對(duì)象就是每組的初始聚類中心,然后計(jì)算每個(gè)樣本與k個(gè)聚類中心的距離,將樣本依次劃分到與其距離最近的聚類中心所在的組中,每個(gè)聚類中心和分配給它們的樣本便組成一個(gè)聚類。整個(gè)過(guò)程迭代進(jìn)行,直到滿足某個(gè)條件停止。其算法流程如下:(1)確定k值,將樣本劃到k個(gè)集合中。(2)從集合中選取k個(gè)樣本,作為初始聚類中心。(3)對(duì)每個(gè)樣本點(diǎn),計(jì)算其與初始聚類中心的距離,若與某個(gè)聚類中心距離最小,則將其劃分到這個(gè)聚類中心的集合中。(4)重新計(jì)算k個(gè)集合的聚類中心。(5)若新聚類中心與原聚類中心的距離小于某個(gè)閾值,表示新聚類中心的位置變化不大,集合趨于收斂,聚類算法終止。否則,迭代步驟3-5。K-Means聚類流程如圖2-2所示:
2相關(guān)理論技術(shù)研究9圖2-2K-MEANS算法流程圖Fig.2-2K-MEANSalgorithmflowchart因此問(wèn)題的關(guān)鍵是要保證算法的收斂。這里給出一個(gè)平方誤差公式,來(lái)說(shuō)明聚類后,可以使各分組內(nèi)平均距離最校()2()1(,)||||kiciiJcx==(2-1)其中,J(c,)表示樣本點(diǎn)到聚類中心的距離平方和。c(i)第i個(gè)樣本的聚類中心。J(c,)越小,聚類效果越好。當(dāng)J(c,)達(dá)到最小時(shí),聚類終止。但是,要求解J(c,)的最小值,就要對(duì)樣本的所有分組情況進(jìn)行討論,這是一個(gè)NP問(wèn)題,K-Means算法選擇貪心算法求解[70]。k值的選擇是K-Means算法的關(guān)鍵步驟。在實(shí)際應(yīng)用中,很難會(huì)事先知道樣本的分布情況,通常通過(guò)多次運(yùn)行K-Means算法求解最優(yōu)聚類效果,這種方法非常耗費(fèi)資源。對(duì)于k值得選取,目前主要有兩種,第一種是結(jié)合層次聚類算法,得出大致的聚類數(shù)目,再使用K-Means聚類算法;第二種是系統(tǒng)演化法,它通過(guò)模擬擬熱力學(xué)系統(tǒng)的分裂和合并,持續(xù)演化直至達(dá)到穩(wěn)定的平衡狀態(tài)來(lái)確定k
【參考文獻(xiàn)】:
期刊論文
[1]基于ZigBee技術(shù)高壓開(kāi)關(guān)柜溫度在線監(jiān)測(cè)系統(tǒng)研究[J]. 胡凱波,許林波,夏志凌. 自動(dòng)化與儀表. 2020(02)
[2]鄆城黃河河道采砂需求分析與建議[J]. 呂玉宏. 治黃科技信息. 2020(01)
[3]基于EXCEL軟件的“正態(tài)分布”教學(xué)[J]. 徐亞丹. 智庫(kù)時(shí)代. 2019(48)
[4]采砂智能監(jiān)管系統(tǒng)研究與應(yīng)用[J]. 鄢煜川,許小華. 水資源研究. 2019(05)
[5]智慧水利大數(shù)據(jù)內(nèi)涵特征、基礎(chǔ)架構(gòu)和標(biāo)準(zhǔn)體系研究[J]. 蔣云鐘,冶運(yùn)濤,趙紅莉. 水利信息化. 2019(04)
[6]經(jīng)驗(yàn)特征函數(shù)在偏正態(tài)分布中的應(yīng)用[J]. 侯格格. 溫州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[7]大數(shù)據(jù)產(chǎn)業(yè)研究綜述[J]. 戈黎華,郭浩,王璐璐,劉雅莉. 華北水利水電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2019(03)
[8]開(kāi)源工具支持的專利數(shù)據(jù)清洗流程研究[J]. 鐘華,李艷梅,安新穎. 醫(yī)學(xué)信息學(xué)雜志. 2019(05)
[9]基于智慧河長(zhǎng)制的水利信息化服務(wù)平臺(tái)建設(shè)研究[J]. 張?jiān)?周志敏,陸桂明. 浙江水利水電學(xué)院學(xué)報(bào). 2019(01)
[10]管線流體含砂量非侵入式測(cè)量方法淺析[J]. 王釗,黃振宇,陳加鑫,王環(huán)環(huán). 機(jī)電工程技術(shù). 2018(12)
碩士論文
[1]智慧河道采砂監(jiān)管平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 呂奕霖.華北水利水電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的電信詐騙識(shí)別分類器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李爽.北京郵電大學(xué) 2019
[3]基于多數(shù)據(jù)源的水利數(shù)據(jù)獲取及大數(shù)據(jù)服務(wù)[D]. 張馳恒一.西安理工大學(xué) 2018
[4]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學(xué)梁.中國(guó)農(nóng)業(yè)科學(xué)院 2017
[5]長(zhǎng)江河道采砂監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孫琦.大連理工大學(xué) 2008
[6]基于聚類算法的數(shù)據(jù)清洗的研究與實(shí)現(xiàn)[D]. 張燕.華北電力大學(xué)(河北) 2008
[7]XML與數(shù)據(jù)清洗的研究[D]. 金煌.華中科技大學(xué) 2004
本文編號(hào):3517959
【文章來(lái)源】:華北水利水電大學(xué)河南省
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
技術(shù)路線圖
華北水利水電大學(xué)碩士學(xué)位論文8圖2-1數(shù)據(jù)清洗流程Fig.2-1Datacleaningprocess2.2K-Means聚類2.2.1K-Means聚類算法K-Means算法是聚類算法中常用的一種,利用迭代求解過(guò)程,對(duì)數(shù)據(jù)進(jìn)行聚類分析[69]。其算法思想是:把樣本隨機(jī)分成k組,每組選取一個(gè)樣本作為中心對(duì)象,則這k個(gè)中心對(duì)象就是每組的初始聚類中心,然后計(jì)算每個(gè)樣本與k個(gè)聚類中心的距離,將樣本依次劃分到與其距離最近的聚類中心所在的組中,每個(gè)聚類中心和分配給它們的樣本便組成一個(gè)聚類。整個(gè)過(guò)程迭代進(jìn)行,直到滿足某個(gè)條件停止。其算法流程如下:(1)確定k值,將樣本劃到k個(gè)集合中。(2)從集合中選取k個(gè)樣本,作為初始聚類中心。(3)對(duì)每個(gè)樣本點(diǎn),計(jì)算其與初始聚類中心的距離,若與某個(gè)聚類中心距離最小,則將其劃分到這個(gè)聚類中心的集合中。(4)重新計(jì)算k個(gè)集合的聚類中心。(5)若新聚類中心與原聚類中心的距離小于某個(gè)閾值,表示新聚類中心的位置變化不大,集合趨于收斂,聚類算法終止。否則,迭代步驟3-5。K-Means聚類流程如圖2-2所示:
2相關(guān)理論技術(shù)研究9圖2-2K-MEANS算法流程圖Fig.2-2K-MEANSalgorithmflowchart因此問(wèn)題的關(guān)鍵是要保證算法的收斂。這里給出一個(gè)平方誤差公式,來(lái)說(shuō)明聚類后,可以使各分組內(nèi)平均距離最校()2()1(,)||||kiciiJcx==(2-1)其中,J(c,)表示樣本點(diǎn)到聚類中心的距離平方和。c(i)第i個(gè)樣本的聚類中心。J(c,)越小,聚類效果越好。當(dāng)J(c,)達(dá)到最小時(shí),聚類終止。但是,要求解J(c,)的最小值,就要對(duì)樣本的所有分組情況進(jìn)行討論,這是一個(gè)NP問(wèn)題,K-Means算法選擇貪心算法求解[70]。k值的選擇是K-Means算法的關(guān)鍵步驟。在實(shí)際應(yīng)用中,很難會(huì)事先知道樣本的分布情況,通常通過(guò)多次運(yùn)行K-Means算法求解最優(yōu)聚類效果,這種方法非常耗費(fèi)資源。對(duì)于k值得選取,目前主要有兩種,第一種是結(jié)合層次聚類算法,得出大致的聚類數(shù)目,再使用K-Means聚類算法;第二種是系統(tǒng)演化法,它通過(guò)模擬擬熱力學(xué)系統(tǒng)的分裂和合并,持續(xù)演化直至達(dá)到穩(wěn)定的平衡狀態(tài)來(lái)確定k
【參考文獻(xiàn)】:
期刊論文
[1]基于ZigBee技術(shù)高壓開(kāi)關(guān)柜溫度在線監(jiān)測(cè)系統(tǒng)研究[J]. 胡凱波,許林波,夏志凌. 自動(dòng)化與儀表. 2020(02)
[2]鄆城黃河河道采砂需求分析與建議[J]. 呂玉宏. 治黃科技信息. 2020(01)
[3]基于EXCEL軟件的“正態(tài)分布”教學(xué)[J]. 徐亞丹. 智庫(kù)時(shí)代. 2019(48)
[4]采砂智能監(jiān)管系統(tǒng)研究與應(yīng)用[J]. 鄢煜川,許小華. 水資源研究. 2019(05)
[5]智慧水利大數(shù)據(jù)內(nèi)涵特征、基礎(chǔ)架構(gòu)和標(biāo)準(zhǔn)體系研究[J]. 蔣云鐘,冶運(yùn)濤,趙紅莉. 水利信息化. 2019(04)
[6]經(jīng)驗(yàn)特征函數(shù)在偏正態(tài)分布中的應(yīng)用[J]. 侯格格. 溫州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(03)
[7]大數(shù)據(jù)產(chǎn)業(yè)研究綜述[J]. 戈黎華,郭浩,王璐璐,劉雅莉. 華北水利水電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2019(03)
[8]開(kāi)源工具支持的專利數(shù)據(jù)清洗流程研究[J]. 鐘華,李艷梅,安新穎. 醫(yī)學(xué)信息學(xué)雜志. 2019(05)
[9]基于智慧河長(zhǎng)制的水利信息化服務(wù)平臺(tái)建設(shè)研究[J]. 張?jiān)?周志敏,陸桂明. 浙江水利水電學(xué)院學(xué)報(bào). 2019(01)
[10]管線流體含砂量非侵入式測(cè)量方法淺析[J]. 王釗,黃振宇,陳加鑫,王環(huán)環(huán). 機(jī)電工程技術(shù). 2018(12)
碩士論文
[1]智慧河道采砂監(jiān)管平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 呂奕霖.華北水利水電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的電信詐騙識(shí)別分類器的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李爽.北京郵電大學(xué) 2019
[3]基于多數(shù)據(jù)源的水利數(shù)據(jù)獲取及大數(shù)據(jù)服務(wù)[D]. 張馳恒一.西安理工大學(xué) 2018
[4]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學(xué)梁.中國(guó)農(nóng)業(yè)科學(xué)院 2017
[5]長(zhǎng)江河道采砂監(jiān)測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 孫琦.大連理工大學(xué) 2008
[6]基于聚類算法的數(shù)據(jù)清洗的研究與實(shí)現(xiàn)[D]. 張燕.華北電力大學(xué)(河北) 2008
[7]XML與數(shù)據(jù)清洗的研究[D]. 金煌.華中科技大學(xué) 2004
本文編號(hào):3517959
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3517959.html
最近更新
教材專著