高維數(shù)據(jù)的離群點檢測算法分析與研究
發(fā)布時間:2023-03-19 06:45
離群點檢測是數(shù)據(jù)挖掘的一個重要分支。過濾數(shù)據(jù)集中的噪聲和挖掘數(shù)據(jù)集中的潛在的、有意義的信息,使得離群點檢測具有重要的現(xiàn)實意義和廣闊的應(yīng)用前景。在信息技術(shù)和網(wǎng)絡(luò)快速發(fā)展的時代,高維大數(shù)據(jù)的應(yīng)用隨處可見。在高維大數(shù)據(jù)應(yīng)用場景下,對數(shù)據(jù)進(jìn)行全維分析時,數(shù)據(jù)變得稀疏,真實的離群點被多維度的噪聲影響所掩蓋。面對高維數(shù)據(jù),傳統(tǒng)的離群點檢測方法難以有效的檢測數(shù)據(jù)中的離群點,并且算法的效率也會變低。因此,搜索與離群點相關(guān)的子空間和挖掘高維數(shù)據(jù)中的離群點,已成為高維離群點檢測算法的研究熱點。本文對已有的離群點檢測方法進(jìn)行了分析和討論,并介紹了面向高維數(shù)據(jù)常用的解決方法。本文以高維大數(shù)據(jù)為背景,研究了兩種離群點檢測算法,主要工作如下:首先,本文提出了一種隨機(jī)哈希分割森林的高維離群點檢測算法,該算法利用局部敏感哈希算法和樹結(jié)構(gòu)。局部敏感哈希算法能夠?qū)⑾嘟臄?shù)據(jù)實例散列到同一個桶中。然后,根據(jù)數(shù)據(jù)實例所在桶中的實例個數(shù)來衡量該實例的異常性。與隔離森林的思想相似,本算法使用樹結(jié)構(gòu)來對數(shù)據(jù)集進(jìn)行分割。在每一次劃分?jǐn)?shù)據(jù)過程中,都會隨機(jī)的選擇一個屬性作為劃分屬性,在該屬性上使用局部敏感哈希算法做哈希映射,在該屬性上具...
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
注釋表
縮略詞
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 本文主要工作及組織結(jié)構(gòu)
1.3.1 主要工作
1.3.2 組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)理論研究基礎(chǔ)與技術(shù)應(yīng)用分析
2.1 離群點的定義
2.2 離群點檢測方法
2.2.1 基于統(tǒng)計的離群點檢測方法
2.2.2 基于距離的離群點檢測方法
2.2.3 基于密度的離群點檢測方法
2.2.4 基于聚類的離群點檢測方法
2.2.5 基于深度的離群點檢測算法
2.3 高維離群點檢測方法
2.3.1 引言
2.3.2 高維數(shù)據(jù)的挑戰(zhàn)
2.3.3 基于低維投影的離群點檢測方法
2.3.4 基于相關(guān)子空間的離群點檢測方法
2.3.5 基于集成的子空間離群點檢測方法
2.4 離群點檢測的實際應(yīng)用
2.5 離群點檢測算法的性能評價指標(biāo)
2.5.1 準(zhǔn)確率 (Precision)
2.5.2 召回率 (Recall)
2.5.3 ROC曲線
2.5.4 AUC
2.6 本章小結(jié)
第三章 基于隨機(jī)哈希分割森林的離群點檢測算法
3.1 引言
3.2 問題描述
3.3 局部敏感哈希算法
3.4 算法設(shè)計
3.4.1 算法思想
3.4.2 算法描述
3.5 實驗設(shè)計及結(jié)果分析
3.5.1 實驗設(shè)計
3.5.2 實驗結(jié)果分析
3.6 本章小結(jié)
第四章 基于順序集成的相關(guān)子空間選擇算法
4.1 引言
4.2 問題描述
4.3 算法設(shè)計
4.3.1 算法思想
4.3.2 閾值函數(shù)
4.3.3 稀疏回歸函數(shù)
4.3.4 算法描述
4.4 實驗設(shè)計及結(jié)果分析
4.4.1 實驗設(shè)計
4.4.2 實驗結(jié)果分析
4.5 本章小結(jié)
第五章 總結(jié)和展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及學(xué)術(shù)論文情況
本文編號:3764775
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
注釋表
縮略詞
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 本文主要工作及組織結(jié)構(gòu)
1.3.1 主要工作
1.3.2 組織結(jié)構(gòu)
1.4 本章小結(jié)
第二章 相關(guān)理論研究基礎(chǔ)與技術(shù)應(yīng)用分析
2.1 離群點的定義
2.2 離群點檢測方法
2.2.1 基于統(tǒng)計的離群點檢測方法
2.2.2 基于距離的離群點檢測方法
2.2.3 基于密度的離群點檢測方法
2.2.4 基于聚類的離群點檢測方法
2.2.5 基于深度的離群點檢測算法
2.3 高維離群點檢測方法
2.3.1 引言
2.3.2 高維數(shù)據(jù)的挑戰(zhàn)
2.3.3 基于低維投影的離群點檢測方法
2.3.4 基于相關(guān)子空間的離群點檢測方法
2.3.5 基于集成的子空間離群點檢測方法
2.4 離群點檢測的實際應(yīng)用
2.5 離群點檢測算法的性能評價指標(biāo)
2.5.1 準(zhǔn)確率 (Precision)
2.5.2 召回率 (Recall)
2.5.3 ROC曲線
2.5.4 AUC
2.6 本章小結(jié)
第三章 基于隨機(jī)哈希分割森林的離群點檢測算法
3.1 引言
3.2 問題描述
3.3 局部敏感哈希算法
3.4 算法設(shè)計
3.4.1 算法思想
3.4.2 算法描述
3.5 實驗設(shè)計及結(jié)果分析
3.5.1 實驗設(shè)計
3.5.2 實驗結(jié)果分析
3.6 本章小結(jié)
第四章 基于順序集成的相關(guān)子空間選擇算法
4.1 引言
4.2 問題描述
4.3 算法設(shè)計
4.3.1 算法思想
4.3.2 閾值函數(shù)
4.3.3 稀疏回歸函數(shù)
4.3.4 算法描述
4.4 實驗設(shè)計及結(jié)果分析
4.4.1 實驗設(shè)計
4.4.2 實驗結(jié)果分析
4.5 本章小結(jié)
第五章 總結(jié)和展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
致謝
在學(xué)期間的研究成果及學(xué)術(shù)論文情況
本文編號:3764775
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3764775.html
最近更新
教材專著