基于立體感知的智慧水務大數(shù)據(jù)清洗算法研究
發(fā)布時間:2020-07-24 16:56
【摘要】:數(shù)據(jù)在人類生活中占據(jù)著十分重要的地位,而水務數(shù)據(jù)由于多變量、數(shù)據(jù)種類繁雜、相關性強等問題在采集出現(xiàn)臟數(shù)據(jù)時變得難以處理,給水務行業(yè)進行決策性分析帶來了嚴峻的挑戰(zhàn),因此對水務行業(yè)數(shù)據(jù)進行數(shù)據(jù)清洗勢在必行。利用數(shù)據(jù)挖掘技術來進行數(shù)據(jù)清洗屬于數(shù)據(jù)挖掘領域的前沿問題,近年來,隨著機器學習和統(tǒng)計學習學術方向上的進步,在各領域中應用數(shù)據(jù)清洗技術得到了較大進展,但這些方法在水務數(shù)據(jù)空間、時間、數(shù)值特征上的清洗方法依然有待提高和突破。本文在水務數(shù)據(jù)空間、時間特征屬性的基礎上,以空間、時間異常值檢測算法為切入點,進而研究基于立體感知的智慧水務大數(shù)據(jù)清洗算法。主要工作如下:(1)基于空間特性的異常值算法研究針對水務數(shù)據(jù)空間特征的業(yè)務屬性和對象屬性以及多變量特點,本文提出了利用KNN求出各點的臨近函數(shù)點,再利用流域作為權值調(diào)整下的比較函數(shù)和適合多變量的馬氏距離作為閾值函數(shù),對水務數(shù)據(jù)中空間特征屬性進行異常值檢測。實驗結果驗證了本算法在水務數(shù)據(jù)異常值檢測中良好的準確性和有效性,為進一步研究基于立體感知的智慧水務大數(shù)據(jù)清洗模型奠定了基礎。(2)基于時間特性的異常值算法研究針對水務數(shù)據(jù)時間序列特征和多變量特點,本文提出了利用FCM聚類方法和兩種模糊積分方法對時間序列進行降維,將三種方法進行橫向對比,找出泛化能力較好的針對水務數(shù)據(jù)的降維模型,通過改進的隱馬爾科夫模型將時間序列數(shù)據(jù)設置為可見的狀態(tài)序列,應用維特比算法來預測最可能的隱藏狀態(tài)序列(正;虍惓)進行異常值檢測,能有效的提升異常值檢測的準確性,為進一步研究基于立體感知的智慧水務大數(shù)據(jù)清洗模型奠定了基礎。(3)基于立體感知的智慧水務大數(shù)據(jù)清洗算法研究在水務數(shù)據(jù)空間與時間特性異常值檢測研究的基礎上,加上應用改進的TwoStep聚類算法的通用數(shù)值屬性異常值檢測方法與利用改進的多層感知器的人工神經(jīng)網(wǎng)絡空缺值填補方法,提出了一種基于立體感知的智慧水務大數(shù)據(jù)清洗模型。首先,對需要清洗的水務數(shù)據(jù)進行數(shù)據(jù)預處理,接著根據(jù)數(shù)據(jù)中的屬性特征分別利用通用異常值檢測算法、空間異常值檢測算法和時間異常值檢測算法進行異常值檢測,然后對異常值檢測完數(shù)據(jù)中的空缺值進行填補,進而得到干凈的水務數(shù)據(jù)。該模型根據(jù)水務數(shù)據(jù)特點、水務臟數(shù)據(jù)特征和數(shù)據(jù)清洗流程設計,能夠有效的對水務領域中出現(xiàn)的臟數(shù)據(jù)進行清洗。實驗結果顯示,基于立體感知的智慧水務大數(shù)據(jù)清洗模型異常值檢測具有良好的準確性和有效性,空缺值填補效果也具有良好的準確性和泛化能力,說明本文方法在數(shù)據(jù)清洗中的可行性和有效性。
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP311.13;TV21-39
【圖文】:
圖 2-1 數(shù)據(jù)清洗模型Figure 2-1 Data cleaning model據(jù)清洗的基本模型如圖 2-1 所示,由于數(shù)據(jù)中出現(xiàn)了數(shù)值的錯誤例如入出錯、傳感器失靈等產(chǎn)生了不合法值、空值等問題的臟數(shù)據(jù),采用略/規(guī)則如數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘等方法對臟數(shù)據(jù)進行異常檢驗和空缺據(jù)達到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù),為后面進行數(shù)據(jù)挖掘和決策性分的數(shù)據(jù)。常情況下,數(shù)據(jù)清洗的流程包含以下五個步驟:1) 數(shù)據(jù)分析:數(shù)據(jù)分析是數(shù)據(jù)清洗的條件和基礎,經(jīng)過分析,可以到數(shù)據(jù)集中存在的錯誤問題種類。2) 定義數(shù)據(jù)清洗轉換規(guī)則:依據(jù)所分析的數(shù)據(jù)結果,根據(jù)“臟數(shù)據(jù)產(chǎn)生和特點,制定清洗“臟數(shù)據(jù)”的清洗算法規(guī)則。3) 驗證:驗證數(shù)據(jù)清洗轉換規(guī)則的正確性,當情況不符合數(shù)據(jù)清洗量要求時,要改進清洗規(guī)則或調(diào)整模型參數(shù),直到得到滿足數(shù)據(jù)任務要求的數(shù)據(jù)清洗規(guī)則和模型。
圖 2-2 數(shù)據(jù)清洗一般流程Figure 2-2 Data cleaning general process與分析行數(shù)據(jù)清洗,需要對水務系統(tǒng)數(shù)據(jù)特點等進行全面的分析、整理、了案。北京市水務數(shù)據(jù)業(yè)務分類如下排水、節(jié)水、水文、郊區(qū)水務、水,例如供水和郊區(qū)水務和水資源之包括了所有業(yè)務類型的水務數(shù)據(jù)。
圖 2-3 水務數(shù)據(jù)業(yè)務分類Figure 2-3 Water data classification業(yè)務數(shù)據(jù)中可以分為三大數(shù)據(jù):監(jiān)測類數(shù)據(jù),基礎類數(shù)據(jù)、管理類數(shù)據(jù)。監(jiān)測類數(shù)據(jù)主要包括水質(zhì)監(jiān)測數(shù)據(jù)、供排節(jié)水量、水位監(jiān)測數(shù)據(jù)等等,基礎類例如污水處理廠的基礎工藝,基礎設施、傳感器參數(shù)等等,管理類數(shù)據(jù)主要為河流流域之間各數(shù)據(jù)情況信息數(shù)據(jù)。
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP311.13;TV21-39
【圖文】:
圖 2-1 數(shù)據(jù)清洗模型Figure 2-1 Data cleaning model據(jù)清洗的基本模型如圖 2-1 所示,由于數(shù)據(jù)中出現(xiàn)了數(shù)值的錯誤例如入出錯、傳感器失靈等產(chǎn)生了不合法值、空值等問題的臟數(shù)據(jù),采用略/規(guī)則如數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘等方法對臟數(shù)據(jù)進行異常檢驗和空缺據(jù)達到滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù),為后面進行數(shù)據(jù)挖掘和決策性分的數(shù)據(jù)。常情況下,數(shù)據(jù)清洗的流程包含以下五個步驟:1) 數(shù)據(jù)分析:數(shù)據(jù)分析是數(shù)據(jù)清洗的條件和基礎,經(jīng)過分析,可以到數(shù)據(jù)集中存在的錯誤問題種類。2) 定義數(shù)據(jù)清洗轉換規(guī)則:依據(jù)所分析的數(shù)據(jù)結果,根據(jù)“臟數(shù)據(jù)產(chǎn)生和特點,制定清洗“臟數(shù)據(jù)”的清洗算法規(guī)則。3) 驗證:驗證數(shù)據(jù)清洗轉換規(guī)則的正確性,當情況不符合數(shù)據(jù)清洗量要求時,要改進清洗規(guī)則或調(diào)整模型參數(shù),直到得到滿足數(shù)據(jù)任務要求的數(shù)據(jù)清洗規(guī)則和模型。
圖 2-2 數(shù)據(jù)清洗一般流程Figure 2-2 Data cleaning general process與分析行數(shù)據(jù)清洗,需要對水務系統(tǒng)數(shù)據(jù)特點等進行全面的分析、整理、了案。北京市水務數(shù)據(jù)業(yè)務分類如下排水、節(jié)水、水文、郊區(qū)水務、水,例如供水和郊區(qū)水務和水資源之包括了所有業(yè)務類型的水務數(shù)據(jù)。
圖 2-3 水務數(shù)據(jù)業(yè)務分類Figure 2-3 Water data classification業(yè)務數(shù)據(jù)中可以分為三大數(shù)據(jù):監(jiān)測類數(shù)據(jù),基礎類數(shù)據(jù)、管理類數(shù)據(jù)。監(jiān)測類數(shù)據(jù)主要包括水質(zhì)監(jiān)測數(shù)據(jù)、供排節(jié)水量、水位監(jiān)測數(shù)據(jù)等等,基礎類例如污水處理廠的基礎工藝,基礎設施、傳感器參數(shù)等等,管理類數(shù)據(jù)主要為河流流域之間各數(shù)據(jù)情況信息數(shù)據(jù)。
【相似文獻】
相關期刊論文 前10條
1 李W氈
本文編號:2769138
本文鏈接:http://sikaile.net/kejilunwen/shuiwenshuili/2769138.html
最近更新
教材專著