天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于哈希映射和隔離原理的異常檢測(cè)方法研究

發(fā)布時(shí)間:2022-01-16 11:05
  互聯(lián)網(wǎng)技術(shù)的發(fā)展促使人們?cè)跈C(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域中不斷提高對(duì)數(shù)據(jù)的要求,同時(shí)對(duì)數(shù)據(jù)中的異常點(diǎn)檢測(cè)的研究也更加深入。目前,異常檢測(cè)方法主要根據(jù)不同的檢測(cè)模型來(lái)分,通?梢苑譃榛诮y(tǒng)計(jì)、距離、密度、子空間和集成學(xué)習(xí)的這幾種異常點(diǎn)檢測(cè)方法。本文綜合上述幾種異常檢測(cè)方法的優(yōu)缺點(diǎn),提出兩種基于隔離思想的異常檢測(cè)方法。針對(duì)孤立森林面對(duì)高維、海量、屬性之間相關(guān)性低的大數(shù)據(jù)集中全局異常檢測(cè)精度低的問(wèn)題,本文提出一種基于精確歐式局部敏感哈希和隔離原理的異常檢測(cè)方法。首先,該方法利用精確歐式局部敏感哈希對(duì)原始數(shù)據(jù)集進(jìn)行隨機(jī)哈希函數(shù)簇的操作,以達(dá)到映射降維的目的。隨后利用數(shù)據(jù)之間距離關(guān)系,進(jìn)行主次哈希函數(shù)計(jì)算,即對(duì)映射數(shù)據(jù)集進(jìn)行哈希桶計(jì)算,使得原始數(shù)據(jù)空間中分布較為集中的數(shù)據(jù)點(diǎn)經(jīng)過(guò)分桶后出現(xiàn)在同一個(gè)桶內(nèi)的概率較大,得到分桶后對(duì)應(yīng)的降維子數(shù)據(jù)集。然后,再使用孤立森林對(duì)降維子數(shù)據(jù)集進(jìn)行異常數(shù)據(jù)檢測(cè)。最后,孤立森林構(gòu)建孤立樹(shù)時(shí),對(duì)于如何選擇最優(yōu)分割屬性和分割值的問(wèn)題,本文提出了一種均值優(yōu)化策略。實(shí)驗(yàn)結(jié)果證明,與孤立森林因隨機(jī)性生成的孤立樹(shù)相比,本文所提方法只需要使用較少的孤立樹(shù)來(lái)構(gòu)成森林,能有效地提高在高維海量低... 

【文章來(lái)源】:重慶郵電大學(xué)重慶市

【文章頁(yè)數(shù)】:76 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于哈希映射和隔離原理的異常檢測(cè)方法研究


全局異常點(diǎn)和局部異常點(diǎn)

曲線(xiàn),曲線(xiàn),分類(lèi)器,ROC曲線(xiàn)


重慶郵電大學(xué)碩士學(xué)位論文第2章異常檢測(cè)的相關(guān)研究工作16圖2.2ROC曲線(xiàn)為了比較不同分類(lèi)器的分類(lèi)精度,研究學(xué)者們引入了ROC曲線(xiàn)。如何判斷多個(gè)分類(lèi)器的性能,可以借鑒ROC曲線(xiàn)的分布位置來(lái)了解哪種分類(lèi)器的性能更好。若分類(lèi)器的ROC曲線(xiàn)與其它的分類(lèi)器的ROC曲線(xiàn)相比,該分類(lèi)器的ROC曲線(xiàn)都位于上方,且曲線(xiàn)之間沒(méi)有交叉,那么該分類(lèi)器的性能就是最好的。若曲線(xiàn)有交叉,那么就不能只根據(jù)位置來(lái)判斷該分類(lèi)器性能的好壞。此時(shí),利用曲線(xiàn)下方與坐標(biāo)軸圍成的面積大小(AreaUnderCurve,AUC)[22]來(lái)判斷性能。若AUC越大,分類(lèi)器的準(zhǔn)確度就會(huì)越高,分類(lèi)器的性能就會(huì)越好。因此可以通過(guò)比較AUC值的大小來(lái)對(duì)比多個(gè)分類(lèi)器的性能。若AUC值在0.5到1之間,則說(shuō)明分類(lèi)器能有效檢測(cè)出異常點(diǎn),若AUC小于0.5,則說(shuō)明分類(lèi)器檢測(cè)結(jié)果并不是很好。2.4本章小結(jié)本章就異常點(diǎn)的相關(guān)概念和異常點(diǎn)的產(chǎn)生原因做了詳細(xì)闡述,然后重點(diǎn)介紹了幾種異常檢測(cè)方法,對(duì)每一種方法的原理、適用場(chǎng)景、在處理數(shù)據(jù)方面的優(yōu)勢(shì),以及存在的局限性進(jìn)行了深入理解。最后對(duì)異常檢測(cè)模型性能的幾種評(píng)價(jià)方法進(jìn)行了簡(jiǎn)單介紹。這一章節(jié)是第三章和第四章算法改進(jìn)和實(shí)驗(yàn)分析的理論基矗

對(duì)比圖,正常點(diǎn),異常點(diǎn),對(duì)比圖


重慶郵電大學(xué)碩士學(xué)位論文第3章基于精確歐式局部敏感哈希和隔離原理的異常檢測(cè)方法18異常數(shù)據(jù)與正常數(shù)據(jù)相比其數(shù)量較少,而且在特征上也不盡相同。因此,在特征空間中,異常點(diǎn)是那些分布稀疏,遠(yuǎn)離密集簇的點(diǎn)。孤立森林算法的劃分原理是隨機(jī)不斷選擇特征、樣本點(diǎn)作為分割屬性、分割值來(lái)劃分?jǐn)?shù)據(jù)集,直到建樹(shù)達(dá)到限制高度或所有數(shù)據(jù)點(diǎn)都被分離開(kāi)后,從而構(gòu)建完成一棵孤立樹(shù)。如圖3.1所示,孤立森林使用隨機(jī)超平面將數(shù)據(jù)空間劃分開(kāi),每劃分一次得到兩個(gè)子空間,如此往復(fù),將每個(gè)子空間內(nèi)的點(diǎn)劃分出來(lái),直到每個(gè)子空間內(nèi)的數(shù)據(jù)點(diǎn)只有一個(gè)。由于正常數(shù)據(jù)的密度較高,所以正常數(shù)據(jù)需要被劃分很多次才能被分開(kāi),如圖3.1中O2,O3,這兩個(gè)點(diǎn)被劃分3次。而異常數(shù)據(jù)相較更為稀疏,所以異常數(shù)據(jù)被劃分次數(shù)較少,如圖3.1中O1被劃分1次。因?yàn)槭请S機(jī)選取數(shù)據(jù)點(diǎn),在某些復(fù)雜的數(shù)據(jù)分布中,正常點(diǎn)的劃分次數(shù)也可能少于異常點(diǎn),因此,為了保證劃分結(jié)果的正確性,對(duì)數(shù)據(jù)的劃分次數(shù)求取均值,那么異常數(shù)據(jù)的劃分次數(shù)就少于了正常數(shù)據(jù)的劃分次數(shù)。(a)正常點(diǎn)O2、O3的劃分情況(b)異常點(diǎn)O1的劃分情況圖3.1正常點(diǎn)與異常點(diǎn)的劃分情況對(duì)比圖3.1.1孤立樹(shù)的構(gòu)造孤立森林由多棵孤立樹(shù)(isolationTree,iTree)組合而成。如圖3.2所示,孤立樹(shù)屬于二叉樹(shù)的一種。下面對(duì)孤立樹(shù)的構(gòu)建過(guò)程給出了定義。1.孤立樹(shù)(iTree):給定n個(gè)樣本數(shù)據(jù)12{,,...,}nXxxx,維度為d。為了構(gòu)建一棵孤立樹(shù),從數(shù)據(jù)集中隨機(jī)選擇一個(gè)特征q作為分割屬性,隨機(jī)選擇一個(gè)數(shù)據(jù)點(diǎn)

【參考文獻(xiàn)】:
期刊論文
[1]基于PCA的哈希圖像檢索算法[J]. 馬紹覃,張鴻.  計(jì)算機(jī)工程與設(shè)計(jì). 2020(02)
[2]The UCR Time Series Archive[J]. Hoang Anh Dau,Anthony Bagnall,Kaveh Kamgar,Chin-Chia Michael Yeh,Yan Zhu,Shaghayegh Gharghabi,Chotirat Ann Ratanamahatana,Eamonn Keogh.  IEEE/CAA Journal of Automatica Sinica. 2019(06)
[3]基于改進(jìn)距離和的異常點(diǎn)檢測(cè)算法研究[J]. 李春生,于澍,劉小剛.  計(jì)算機(jī)技術(shù)與發(fā)展. 2019(03)
[4]基于瀑布型混合技術(shù)的異常檢測(cè)算法[J]. 王茹雪,張麗翠,劉姝岐.  吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2017(05)
[5]基于Isolation Forest的并行化異常探測(cè)設(shè)計(jì)[J]. 侯泳旭,段磊,秦江龍,秦攀,唐常杰.  計(jì)算機(jī)工程與科學(xué). 2017(02)
[6]基于密度的異常數(shù)據(jù)檢測(cè)算法GSWCLOF[J]. 李少波,孟偉,璩晶磊.  計(jì)算機(jī)工程與應(yīng)用. 2016(19)
[7]基于局部敏感哈希算法的圖像高維數(shù)據(jù)索引技術(shù)的研究[J]. 曹玉東,劉福英,蔡希彪.  遼寧工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)
[8]支持向量機(jī)回歸方法在切削參數(shù)預(yù)測(cè)中的應(yīng)用[J]. 胡賢金.  工具技術(shù). 2012(10)
[9]一種基于精確歐氏位置敏感哈希的目標(biāo)檢索方法[J]. 趙永威,李弼程,高毫林.  應(yīng)用科學(xué)學(xué)報(bào). 2012(04)
[10]核函數(shù)的選擇研究綜述[J]. 汪廷華,陳峻婷.  計(jì)算機(jī)工程與設(shè)計(jì). 2012(03)

博士論文
[1]基于哈希技術(shù)的圖像檢索研究[D]. 高毫林.解放軍信息工程大學(xué) 2014

碩士論文
[1]多維數(shù)據(jù)異常檢測(cè)方法的研究與應(yīng)用[D]. 李倩.江蘇科技大學(xué) 2019
[2]基于Spark的孤立森林算法并行化研究[D]. 劉高.華中科技大學(xué) 2019
[3]基于深度學(xué)習(xí)和集成學(xué)習(xí)的銀行卡交易反欺詐技術(shù)研究[D]. 竇路路.東華大學(xué) 2018
[4]基于機(jī)器學(xué)習(xí)的入侵檢測(cè)算法研究[D]. 王淇藝.北京郵電大學(xué) 2018
[5]基于用戶(hù)行為特征的E2LSH動(dòng)態(tài)權(quán)重混合推薦算法及應(yīng)用[D]. 劉沛文.武漢大學(xué) 2017
[6]基于鄰域離散度和隔離樹(shù)的異常點(diǎn)檢測(cè)算法研究[D]. 沈琰輝.浙江師范大學(xué) 2016
[7]基于K-means聚類(lèi)的RCNA識(shí)別算法[D]. 趙小佳.西安電子科技大學(xué) 2015
[8]基于弱隨機(jī)映射的目標(biāo)檢索技術(shù)研究[D]. 趙永威.解放軍信息工程大學(xué) 2012
[9]用于異常檢測(cè)的進(jìn)化非選擇算法性能分析[D]. 許寶亮.中國(guó)科學(xué)技術(shù)大學(xué) 2010
[10]貝葉斯網(wǎng)絡(luò)誘導(dǎo)的內(nèi)積空間與核函數(shù)[D]. 白旭英.西安電子科技大學(xué) 2009



本文編號(hào):3592534

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3592534.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)00880***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com