離群點檢測及其參數優(yōu)化算法研究
發(fā)布時間:2021-05-31 17:05
離群點檢測是數據挖掘中極其重要的技術,大到國家安全,小到個人健康,從網絡入侵檢測到醫(yī)保欺詐檢測,只要目標是“不尋!睌祿,就可以應用離群點檢測技術來代替人工方式。盡管已有的研究在這些領域取得了不少的成果,但仍存在參數依賴、檢測準確率低、多對象時間序列數據離群點檢測困難等問題。針對這些問題,本文在離群點檢測技術的參數優(yōu)化、多場景算法檢測準確率提高和算法結果評估指標等方面進行了深入研究和探索。本文主要的研究工作和創(chuàng)新點包括:(1)針對參數k(鄰域大。┑膬(yōu)化問題,本文提出了一種基于互近鄰圖的參數k搜索算法。該算法定義了一種描述互近鄰圖穩(wěn)定狀態(tài)的方法,通過搜索互鄰圖的穩(wěn)定狀態(tài)來選擇鄰近性算法的參數k。實驗結果表明,該算法相較于其他參數k選擇算法在AUC檢測指標上取得了更好的效果。(2)針對離群點種類多、模式復雜且缺少標簽的場景,本文提出了一種基于主動自編碼(Active Autoencoder,AAE)的離群點檢測算法,該算法通過一種基于影響力的主動學習方式和一種新的膨脹收縮算子,以提高自編碼網絡在離群點稀疏場景下的檢測能力。實驗結果表明,所提出的方法與其他方法相比,能更準確地檢測出圖像數據...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:116 頁
【學位級別】:博士
【部分圖文】:
HT_AUC與傳統評價方法的結果對比
LF_AUC與傳統評價方法的結果對比
離群點檢測一般使用外部度量來進行評價,即使用真實的標簽來進行評價度量,F有的離群點檢測算法評價指標主要分為三類,如圖1-2所示。第一種是閾值法,在離群得分的基礎上,利用所設置的參數來劃分預測的離群點集。將預測的離群點集與真實的離群點標簽作對比,用檢測率,精確度等統計值來評價算法效果。第二種是曲線法,將閾值法的全參數下的指標繪制連續(xù)的曲線,曲線越“凸”,表示算法效果越好。第三種是整合法,用曲線下的面積來衡量算法效果,值越大,表示算法的效果越好。近年來,一些改進的方法也被提出來了。例如Ethan Zhang等[56]提出了一種帶標準化的精確度的均值,以包含離群度排位信息。但是,這種方法在沒有調整的時候會產生錯誤[57]。Klement等[58]針對受試者工作特征(Receiver Operating Characteristic,ROC)曲線丟失離群得分信息的問題,提出了一種平滑的ROC曲線,通過對ROC曲線加入平滑分量以保留離群得分信息,對評價算法的差異更具有一致性。此外,Marques等[59]提出了一種不需要真實標簽的內部評價方式,這種方式基于離群得分的相對評價,但是計算復雜度太高。
【參考文獻】:
期刊論文
[1]離群點檢測算法的評價指標[J]. 寧進,陳雷霆,羅子娟,周川,曾慧茹. 計算機應用. 2020(09)
[2]基于自編碼器和隱馬爾可夫模型的時間序列異常檢測方法[J]. 霍緯綱,王慧芳. 計算機應用. 2020(05)
[3]基于多模態(tài)時間序列建模的機器人安全監(jiān)控[J]. 吳鴻敏,張國英,管貽生,JUAN Rojas. 哈爾濱工業(yè)大學學報. 2020(01)
[4]多鏈路即時通信中交互數據異常點檢測仿真[J]. 趙磊. 計算機仿真. 2019(11)
[5]采用壓縮感知的流程工業(yè)異常監(jiān)測數據檢驗與修復方法[J]. 徐光南,高智勇,梁艷杰,高建民,劉倩倩,程亞輝. 西安交通大學學報. 2020(02)
[6]大數據環(huán)境下基于小波神經網絡和ARMA模型的流量異常檢測[J]. 陳易平,俞龍,諶頏. 重慶理工大學學報(自然科學). 2019(10)
[7]基于誤差檢測的雜波點跡過濾技術[J]. 鄭浩,王偉,薩出拉. 指揮信息系統與技術. 2019(04)
[8]模型聚合解聚的智能觸發(fā)機制[J]. 寧進,陳雷霆,周川,張磊. 計算機應用. 2019(06)
[9]近岸海上安?焱r截任務分配模型[J]. 王珂,惠新成,張遙. 指揮信息系統與技術. 2018(01)
[10]基于多維時間序列分析的網絡異常檢測[J]. 陳興蜀,江天宇,曾雪梅,尹學淵,邵國林. 工程科學與技術. 2017(01)
本文編號:3208628
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:116 頁
【學位級別】:博士
【部分圖文】:
HT_AUC與傳統評價方法的結果對比
LF_AUC與傳統評價方法的結果對比
離群點檢測一般使用外部度量來進行評價,即使用真實的標簽來進行評價度量,F有的離群點檢測算法評價指標主要分為三類,如圖1-2所示。第一種是閾值法,在離群得分的基礎上,利用所設置的參數來劃分預測的離群點集。將預測的離群點集與真實的離群點標簽作對比,用檢測率,精確度等統計值來評價算法效果。第二種是曲線法,將閾值法的全參數下的指標繪制連續(xù)的曲線,曲線越“凸”,表示算法效果越好。第三種是整合法,用曲線下的面積來衡量算法效果,值越大,表示算法的效果越好。近年來,一些改進的方法也被提出來了。例如Ethan Zhang等[56]提出了一種帶標準化的精確度的均值,以包含離群度排位信息。但是,這種方法在沒有調整的時候會產生錯誤[57]。Klement等[58]針對受試者工作特征(Receiver Operating Characteristic,ROC)曲線丟失離群得分信息的問題,提出了一種平滑的ROC曲線,通過對ROC曲線加入平滑分量以保留離群得分信息,對評價算法的差異更具有一致性。此外,Marques等[59]提出了一種不需要真實標簽的內部評價方式,這種方式基于離群得分的相對評價,但是計算復雜度太高。
【參考文獻】:
期刊論文
[1]離群點檢測算法的評價指標[J]. 寧進,陳雷霆,羅子娟,周川,曾慧茹. 計算機應用. 2020(09)
[2]基于自編碼器和隱馬爾可夫模型的時間序列異常檢測方法[J]. 霍緯綱,王慧芳. 計算機應用. 2020(05)
[3]基于多模態(tài)時間序列建模的機器人安全監(jiān)控[J]. 吳鴻敏,張國英,管貽生,JUAN Rojas. 哈爾濱工業(yè)大學學報. 2020(01)
[4]多鏈路即時通信中交互數據異常點檢測仿真[J]. 趙磊. 計算機仿真. 2019(11)
[5]采用壓縮感知的流程工業(yè)異常監(jiān)測數據檢驗與修復方法[J]. 徐光南,高智勇,梁艷杰,高建民,劉倩倩,程亞輝. 西安交通大學學報. 2020(02)
[6]大數據環(huán)境下基于小波神經網絡和ARMA模型的流量異常檢測[J]. 陳易平,俞龍,諶頏. 重慶理工大學學報(自然科學). 2019(10)
[7]基于誤差檢測的雜波點跡過濾技術[J]. 鄭浩,王偉,薩出拉. 指揮信息系統與技術. 2019(04)
[8]模型聚合解聚的智能觸發(fā)機制[J]. 寧進,陳雷霆,周川,張磊. 計算機應用. 2019(06)
[9]近岸海上安?焱r截任務分配模型[J]. 王珂,惠新成,張遙. 指揮信息系統與技術. 2018(01)
[10]基于多維時間序列分析的網絡異常檢測[J]. 陳興蜀,江天宇,曾雪梅,尹學淵,邵國林. 工程科學與技術. 2017(01)
本文編號:3208628
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3208628.html