基于多次抽樣和維度熵的異常點(diǎn)檢測(cè)算法研究
發(fā)布時(shí)間:2022-11-12 09:44
異常點(diǎn)是與數(shù)據(jù)集中大多數(shù)數(shù)據(jù)不同的、不一致的和具有足夠大偏差的數(shù)據(jù)實(shí)例。異常點(diǎn)檢測(cè)的主要任務(wù)是檢測(cè)數(shù)據(jù)集中的異常數(shù)據(jù)實(shí)例,可以用于找出某些反,F(xiàn)象和異常行為,有著十分重要的研究意義。當(dāng)前,異常點(diǎn)檢測(cè)技術(shù)已經(jīng)在各種社會(huì)生產(chǎn)和生活領(lǐng)域中提供關(guān)鍵的、可操作的信息,并產(chǎn)生了許多代表性的應(yīng)用,例如信用卡欺詐檢測(cè)、醫(yī)療診斷、環(huán)境監(jiān)控、基因序列研究等。目前學(xué)術(shù)界已經(jīng)提出了許多異常點(diǎn)檢測(cè)算法,通?梢苑譃槲宕箢,即基于統(tǒng)計(jì)模型的方法、基于距離的檢測(cè)方法、基于密度的檢測(cè)方法、基于子空間的檢測(cè)方法和基于集成學(xué)習(xí)的檢測(cè)方法。本文概述了上述五類異常點(diǎn)檢測(cè)算法,分析了它們各自的優(yōu)點(diǎn)以及存在的不足之處,介紹了一些常用的異常點(diǎn)檢測(cè)算法和兩種主流的評(píng)價(jià)方法平均精度以及AUC值,并提出了兩種新的異常點(diǎn)檢測(cè)算法。1)基于多次抽樣的最近鄰異常點(diǎn)檢測(cè)算法MS-1NN:隨著近年數(shù)據(jù)容量和維度的增加,對(duì)異常點(diǎn)檢測(cè)算法的運(yùn)行速度、檢測(cè)效果和穩(wěn)定性都提出了更高的要求,傳統(tǒng)的基于k-近鄰搜索方法難以兼顧,基于一次抽樣的方法隨機(jī)因素較大,算法效果不夠穩(wěn)定。鑒于這些問(wèn)題,本文提出了一種基于多次抽樣的最近鄰異常點(diǎn)檢測(cè)算法MS-1NN,并且將...
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 基于統(tǒng)計(jì)模型的異常點(diǎn)檢測(cè)方法
1.2.2 基于距離的異常點(diǎn)檢測(cè)方法
1.2.3 基于密度的異常點(diǎn)檢測(cè)方法
1.2.4 基于子空間的異常點(diǎn)檢測(cè)方法
1.2.5 基于集成學(xué)習(xí)的異常點(diǎn)檢測(cè)方法
1.3 本文的主要工作
1.4 本文的組織結(jié)構(gòu)
第二章 異常點(diǎn)檢測(cè)的相關(guān)研究
2.1 異常點(diǎn)概述
2.1.1 異常點(diǎn)的定義和形成原因
2.1.2 異常點(diǎn)的分類
2.2 常見(jiàn)的異常點(diǎn)檢測(cè)算法
2.2.1 DPMM算法
2.2.2 ABOD算法
2.2.3 kNN算法
2.2.4 LOF算法
2.2.5 LDOF算法
2.2.6 HiCS算法
2.3 異常點(diǎn)檢測(cè)算法評(píng)價(jià)方法
2.3.1 平均精度
2.3.2 AUC值
2.4 本章小結(jié)
第三章 基于多次抽樣的異常點(diǎn)檢測(cè)算法
3.1 引言
3.2 基于抽樣的qkthNN和 qsp算法
3.2.1 qkthNN算法
3.2.2 qsp算法
3.3 MS-1NN算法
3.3.1 算法思路
3.3.2 隨機(jī)抽樣及子樣本處理
3.3.3 異常評(píng)分的計(jì)算
3.3.4 距離公式的計(jì)算
3.3.5 算法描述
3.4 對(duì)比實(shí)驗(yàn)及結(jié)果分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)設(shè)置
3.4.3 實(shí)驗(yàn)結(jié)果
3.5 本章小結(jié)
第四章 基于維度熵的異常點(diǎn)檢測(cè)算法
4.1 引言
4.2 iForest算法
4.2.1 訓(xùn)練階段
4.2.2 預(yù)測(cè)階段
4.3 E-iForest算法
4.3.1 算法思路
4.3.2 維度熵的計(jì)算
4.3.3 三個(gè)隔離策略
4.3.4 改進(jìn)路徑長(zhǎng)度的計(jì)算
4.3.5 算法描述
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 實(shí)驗(yàn)結(jié)果
4.4.4 E-iForest參數(shù)分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)距離和的異常點(diǎn)檢測(cè)算法研究[J]. 李春生,于澍,劉小剛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(03)
[2]顯著性光流直方圖字典表示的群體異常事件檢測(cè)[J]. 岑翼剛,王文強(qiáng),李昂,梁列全,王恒友. 信號(hào)處理. 2017(03)
[3]基于Isolation Forest的并行化異常探測(cè)設(shè)計(jì)[J]. 侯泳旭,段磊,秦江龍,秦攀,唐常杰. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[4]一種新的在線流數(shù)據(jù)異常檢測(cè)方法[J]. 丁智國(guó),莫毓昌,楊凡. 計(jì)算機(jī)科學(xué). 2016(10)
[5]基于密度的異常數(shù)據(jù)檢測(cè)算法GSWCLOF[J]. 李少波,孟偉,璩晶磊. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
[6]基于高斯過(guò)程模型的異常檢測(cè)算法[J]. 于冰潔,夏戰(zhàn)國(guó),王久龍. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[7]基于鄰域密度的異常檢測(cè)方法[J]. 趙華,秦克. 計(jì)算機(jī)工程與應(yīng)用. 2014(17)
[8]基于核函數(shù)-主成分維數(shù)約減的離群點(diǎn)檢測(cè)[J]. 徐雪松,劉耀宗,趙學(xué)龍,張宏,劉鳳玉. 計(jì)算機(jī)工程. 2008(08)
[9]基于核函數(shù)Fisher鑒別的異常入侵檢測(cè)[J]. 周鳴爭(zhēng). 電子與信息學(xué)報(bào). 2006(09)
本文編號(hào):3706141
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景與研究意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 基于統(tǒng)計(jì)模型的異常點(diǎn)檢測(cè)方法
1.2.2 基于距離的異常點(diǎn)檢測(cè)方法
1.2.3 基于密度的異常點(diǎn)檢測(cè)方法
1.2.4 基于子空間的異常點(diǎn)檢測(cè)方法
1.2.5 基于集成學(xué)習(xí)的異常點(diǎn)檢測(cè)方法
1.3 本文的主要工作
1.4 本文的組織結(jié)構(gòu)
第二章 異常點(diǎn)檢測(cè)的相關(guān)研究
2.1 異常點(diǎn)概述
2.1.1 異常點(diǎn)的定義和形成原因
2.1.2 異常點(diǎn)的分類
2.2 常見(jiàn)的異常點(diǎn)檢測(cè)算法
2.2.1 DPMM算法
2.2.2 ABOD算法
2.2.3 kNN算法
2.2.4 LOF算法
2.2.5 LDOF算法
2.2.6 HiCS算法
2.3 異常點(diǎn)檢測(cè)算法評(píng)價(jià)方法
2.3.1 平均精度
2.3.2 AUC值
2.4 本章小結(jié)
第三章 基于多次抽樣的異常點(diǎn)檢測(cè)算法
3.1 引言
3.2 基于抽樣的qkthNN和 qsp算法
3.2.1 qkthNN算法
3.2.2 qsp算法
3.3 MS-1NN算法
3.3.1 算法思路
3.3.2 隨機(jī)抽樣及子樣本處理
3.3.3 異常評(píng)分的計(jì)算
3.3.4 距離公式的計(jì)算
3.3.5 算法描述
3.4 對(duì)比實(shí)驗(yàn)及結(jié)果分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 實(shí)驗(yàn)設(shè)置
3.4.3 實(shí)驗(yàn)結(jié)果
3.5 本章小結(jié)
第四章 基于維度熵的異常點(diǎn)檢測(cè)算法
4.1 引言
4.2 iForest算法
4.2.1 訓(xùn)練階段
4.2.2 預(yù)測(cè)階段
4.3 E-iForest算法
4.3.1 算法思路
4.3.2 維度熵的計(jì)算
4.3.3 三個(gè)隔離策略
4.3.4 改進(jìn)路徑長(zhǎng)度的計(jì)算
4.3.5 算法描述
4.4 實(shí)驗(yàn)及結(jié)果分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 實(shí)驗(yàn)設(shè)置
4.4.3 實(shí)驗(yàn)結(jié)果
4.4.4 E-iForest參數(shù)分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)距離和的異常點(diǎn)檢測(cè)算法研究[J]. 李春生,于澍,劉小剛. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(03)
[2]顯著性光流直方圖字典表示的群體異常事件檢測(cè)[J]. 岑翼剛,王文強(qiáng),李昂,梁列全,王恒友. 信號(hào)處理. 2017(03)
[3]基于Isolation Forest的并行化異常探測(cè)設(shè)計(jì)[J]. 侯泳旭,段磊,秦江龍,秦攀,唐常杰. 計(jì)算機(jī)工程與科學(xué). 2017(02)
[4]一種新的在線流數(shù)據(jù)異常檢測(cè)方法[J]. 丁智國(guó),莫毓昌,楊凡. 計(jì)算機(jī)科學(xué). 2016(10)
[5]基于密度的異常數(shù)據(jù)檢測(cè)算法GSWCLOF[J]. 李少波,孟偉,璩晶磊. 計(jì)算機(jī)工程與應(yīng)用. 2016(19)
[6]基于高斯過(guò)程模型的異常檢測(cè)算法[J]. 于冰潔,夏戰(zhàn)國(guó),王久龍. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[7]基于鄰域密度的異常檢測(cè)方法[J]. 趙華,秦克. 計(jì)算機(jī)工程與應(yīng)用. 2014(17)
[8]基于核函數(shù)-主成分維數(shù)約減的離群點(diǎn)檢測(cè)[J]. 徐雪松,劉耀宗,趙學(xué)龍,張宏,劉鳳玉. 計(jì)算機(jī)工程. 2008(08)
[9]基于核函數(shù)Fisher鑒別的異常入侵檢測(cè)[J]. 周鳴爭(zhēng). 電子與信息學(xué)報(bào). 2006(09)
本文編號(hào):3706141
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3706141.html
最近更新
教材專著