基于插值思想的高維稀疏數(shù)據(jù)離群點檢測方法研究
發(fā)布時間:2021-09-16 23:36
離群點是指一個數(shù)據(jù)集中特征明顯不同于其他數(shù)據(jù)的對象,其中往往蘊藏了一些重要的信息,在金融交易、入侵檢測等領(lǐng)域具有廣泛的應用。由于高維數(shù)據(jù)往往具有稀疏性,使得低維數(shù)據(jù)中表現(xiàn)良好的離群點檢測方法在高維數(shù)據(jù)空間中效果受到很大影響。因此,本文借鑒插值思想,探討了基于聚類的高維稀疏數(shù)據(jù)的離群點檢測方法。(1)提出了一種基于插值的聚類算法IB k-means(Interpolation Based k-means clustering)。針對高維數(shù)據(jù)的稀疏性,通過樣本遺傳變異,對原始稀疏數(shù)據(jù)集進行插值操作,提高聚類效果,可有效支撐基于聚類的高維稀疏數(shù)據(jù)離群點檢測。(2)提出了一種基于插值的高維稀疏離群點檢測方法ODGA算法(Outlier Detection based Genetic Algorithm),應用IB k-means算法對高維數(shù)據(jù)樣本進行聚類,然后判定距離質(zhì)心最遠的N個點為離群點。對比基于傳統(tǒng)k-means聚類的離群點檢測方法以及幾種典型的基于改進k-means聚類的離群點檢測方法,ODGA方法能夠損失更少的正常點,準確區(qū)分正常和異常點,提高了檢測準確率和精確率。(3)提出了一種基...
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
Canopy預分類
本文編號:3397502
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【部分圖文】:
Canopy預分類
本文編號:3397502
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3397502.html
最近更新
教材專著