天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

高維數(shù)據(jù)的異常檢測算法研究

發(fā)布時間:2021-06-27 07:40
  異常檢測旨在從給定數(shù)據(jù)中發(fā)現(xiàn)那些明顯偏離常規(guī)模式或表現(xiàn)為異常行為的數(shù)據(jù)。由于在網(wǎng)絡(luò)入侵、醫(yī)療健康、信用欺詐、文本異常、視頻監(jiān)控和社會突發(fā)事件監(jiān)控等領(lǐng)域中有著廣泛應(yīng)用,異常檢測已成為數(shù)據(jù)挖掘的研究熱點,并出現(xiàn)了眾多異常檢測算法。隨著現(xiàn)實數(shù)據(jù)的維數(shù)越來越高,異常檢測面臨兩個困難亟待解決:一方面,數(shù)據(jù)的高維性不僅使得異常數(shù)據(jù)難以識別,而且加劇了學(xué)習(xí)模型的復(fù)雜度;另一方面,數(shù)據(jù)維數(shù)的增加導(dǎo)致數(shù)據(jù)之間的歐氏距離相差很小,即高維空間中任意數(shù)據(jù)之間距離非常接近,使得數(shù)據(jù)的鄰域信息難以獲取。因此,如何從高維空間中有效地獲取數(shù)據(jù)的鄰域信息是異常檢測所面臨的問題。針對以上問題,本文圍繞高維數(shù)據(jù)的異常檢測方法,從建立有效的空間映射機制、高效的獲取鄰域信息這兩個方面開展研究,提出了三種高維數(shù)據(jù)的異常檢測方法。這些方法包括基于哈?臻g映射的高維數(shù)據(jù)異常檢測方法、基于表征和重要度排序的異常數(shù)據(jù)檢測方法以及基于稀疏表征的異常數(shù)據(jù)檢測方法,實驗分析表明這些方法有效提高了高維異常數(shù)據(jù)檢測的性能。本論文主要工作和創(chuàng)新如下:1.針對在高維空間中數(shù)據(jù)的異常特性難以識別的問題,本文提出了基于哈?臻g映射的異常數(shù)據(jù)檢測方法。該方... 

【文章來源】:浙江工業(yè)大學(xué)浙江省

【文章頁數(shù)】:113 頁

【學(xué)位級別】:博士

【部分圖文】:

高維數(shù)據(jù)的異常檢測算法研究


本文主要研究內(nèi)容Figure1-1.Researchcontentsofthispaper

例子,相似度


浙江工業(yè)大學(xué)博士學(xué)位論文23線表示對象之間的關(guān)系。圖劃分是指將圖G完全劃分為若干個子圖G=1∪∪,各子圖無交集∪=。劃分時需要滿足子圖內(nèi)的相似度高,不同子圖的相似度低的條件。其損失函數(shù)可以定義為劃分時各個子圖之間被―分割‖的邊的權(quán)重和:Cut(1,2)=∑1,1(2-34)在譜聚類方法中,將每個數(shù)據(jù)看成圖中的頂點V,每個頂點之間使用邊E來連接,邊的權(quán)重值W表示數(shù)據(jù)之間的相關(guān)性或相似度,相關(guān)性高或相似度較高的兩個數(shù)據(jù)之間的邊權(quán)重值較高,相關(guān)度不高或相似度低的兩個數(shù)據(jù)之間的邊權(quán)重值較低,據(jù)此得到一個基于數(shù)據(jù)相似度的加權(quán)圖G=(V,E),通過對該加權(quán)圖進行劃分,使劃分后各個子圖之間的區(qū)分度大,即相似度低,而屬于同一個子圖的數(shù)據(jù)之間的相似度盡可能高。例如圖2-6中,設(shè)數(shù)據(jù)集包含A、B、C、D、E、F、G共7個數(shù)據(jù),這7個數(shù)據(jù)可看成圖中的頂點,它們之間的關(guān)系用線段連接,例如AB,AC,AD等,線段上顯示的值為兩個對象之間的相似度值,例如AB=0.8,BE=0.2。由圖可知,B和E,D和G的相似度明顯低于其他對象之間的相似度,故可以在B和E,D和G之間建立分割線,得到兩個子圖G1=(A,B,C,D),G2=(E,F,G),經(jīng)此分割,兩個子圖內(nèi)部的相似度高,而子圖之間的相似度低。圖2-6圖劃分例子Figure2-6.Exampleofthegraphsegmenting2.3.2圖劃分準則圖聚類的方法將數(shù)據(jù)之間的關(guān)系使用圖的形式來描述,并通過圖的最優(yōu)劃分來實現(xiàn)數(shù)據(jù)的聚類。在圖的劃分過程中,其目標(biāo)是將圖G(V,E)劃分成相互沒有連接的k個子圖,并且使劃分以后每個子圖內(nèi)部的相似度高,而子圖間的相似度低。設(shè)每個子圖內(nèi)點的集合為:1,2,它們滿足∪=,且1∪2∪=,對于任意兩個子圖內(nèi)點的集合,G,∩=,定義和B之間的圖分割函數(shù)cut為:

框架圖,異常數(shù)據(jù),哈希,框架


浙江工業(yè)大學(xué)博士學(xué)位論文29圖3-1基于哈?臻g映射的異常數(shù)據(jù)檢測算法框架Figure3-1.Outlierdetectionalgorithmbasedonnewspatialmapping3.2.2基于局部敏感哈希的空間映射正如第一章所述,隨著數(shù)據(jù)挖掘的深入,數(shù)據(jù)中的異常值不只是作為數(shù)據(jù)分析例如分類或者聚類的附屬產(chǎn)物而存在,在很多應(yīng)用中,異常數(shù)據(jù)或者離群數(shù)據(jù)的檢測已成為數(shù)據(jù)挖掘的重心[87]。在異常數(shù)據(jù)檢測中,目前研究的一個難點是如何獲取高維空間中數(shù)據(jù)之間的相關(guān)性信息。由于數(shù)據(jù)的相關(guān)性部分體現(xiàn)為鄰域相關(guān)性,因此可通過數(shù)據(jù)的鄰域信息得到數(shù)據(jù)之間的相關(guān)性。最近鄰方法是常用的一種鄰域搜索方法,它根據(jù)數(shù)據(jù)的相似性,從給定的數(shù)據(jù)集中尋找與目標(biāo)數(shù)據(jù)最相似的數(shù)據(jù)項,根據(jù)這些相似的數(shù)據(jù)項構(gòu)造算法來判斷目標(biāo)數(shù)據(jù)是否為異常數(shù)據(jù)。例如基于k近鄰的異常檢測中[26],根據(jù)鄰近的數(shù)據(jù)相似的特性,將不鄰近的數(shù)據(jù)歸為異常數(shù)據(jù);基于密度的異常檢測中[88],根據(jù)近鄰搜索構(gòu)造鄰域關(guān)系,以估算每個數(shù)據(jù)周圍的密度,出現(xiàn)在極低密度的區(qū)域的數(shù)據(jù)被認為是異常數(shù)據(jù)。當(dāng)數(shù)據(jù)維數(shù)較低時,用于精確最近鄰搜索的數(shù)據(jù)結(jié)構(gòu)非常有效,然而在當(dāng)前的大數(shù)據(jù)環(huán)境下,最近鄰搜索算法(NearestNeighborSearch,NN)在海量、高維數(shù)據(jù)的應(yīng)用中面臨著效率下降的問題。近似最近鄰搜索技術(shù)(ApproximateNearestNeighborSearch,ANN[89-91])是針對高維數(shù)據(jù)近鄰檢索的一種較好的策略,它在可接受的結(jié)果內(nèi)以較小的精度損失得到快速搜索的目的,即在允許的范圍內(nèi)通過尋求近似解以提高查詢速度。隨著數(shù)據(jù)規(guī)模的增大,數(shù)據(jù)會逐漸形成簇狀聚集的分布,根據(jù)這一特點,ANN利用聚類的方法對數(shù)據(jù)進行分類或編碼后,對于要搜索的對象,ANN返回該對象所屬的類別中的部分或全部數(shù)據(jù)作為檢索結(jié)果。最常?

【參考文獻】:
期刊論文
[1]AED-Net——異常事件檢測網(wǎng)絡(luò)[J]. Tian Wang,Zichen Miao,Yuxin Chen,Yi Zhou,Guangcun Shan,Hichem Snoussi.  Engineering. 2019(05)
[2]一種基于快速k-近鄰的最小生成樹離群檢測方法[J]. 朱利,邱媛媛,于帥,原盛.  計算機學(xué)報. 2017(12)



本文編號:3252428

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3252428.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e1ad0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com