基于子空間的局部離群點檢測算法研究
發(fā)布時間:2021-01-03 06:29
局部離群點檢測是數(shù)據(jù)挖掘領域的熱點研究問題之一。信息技術(shù)的高速發(fā)展使各個領域內(nèi)可以采集、獲取到的數(shù)據(jù)信息逐漸增多,數(shù)據(jù)集的數(shù)據(jù)維數(shù)不斷增長,高維數(shù)據(jù)隨處可見。高維數(shù)據(jù)集中的數(shù)據(jù)在全局空間下,分布稀疏,數(shù)據(jù)對象趨近于均勻分布,數(shù)據(jù)集中的離群點被隱藏在高維空間中,傳統(tǒng)的離群點檢測算法不容易檢測出這些離群點。子空間可以看作是數(shù)據(jù)集全局空間的一個低維投影,如何找到與離群信息相關的子空間,并在子空間中使用傳統(tǒng)的離群點檢測算法檢測局部離群點,是目前高維數(shù)據(jù)局部離群點檢測的主要研究方向。本文對已有的離群點檢測算法進行分析與研究,對高維數(shù)據(jù)離群點檢測的兩個步驟:子空間選擇與在子空間中使用離群點檢測算法分別展開研究,提出一種基于子空間的局部離群點檢測算法,主要內(nèi)容如下:(1)針對局部離群點檢測問題,提出一種基于局部估計密度的局部離群點檢測算法。首先,使用帶寬可以根據(jù)鄰域稀疏、密集情況調(diào)整的核密度估計方法,計算數(shù)據(jù)對象的局部估計密度;然后,使用數(shù)據(jù)對象鄰域中其它數(shù)據(jù)對象的平均局部估計密度與自身局部估計密度的比值,計算數(shù)據(jù)對象的局部離群因子;最后,使用數(shù)據(jù)對象的局部離群因子判斷數(shù)據(jù)對象是否為離群點,將離群因...
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
圖1.1二維數(shù)據(jù)中的局部離群點示例圖??Fig.?1.1?An?example?of?outlier?in?the?two-dimensional?data?set??
??大連^事大學碩士學位論文???稱為全局離群點。然而在實際應用中,收集到的數(shù)據(jù)通常具有不完整的特點,并且數(shù)據(jù)??集中不同簇的密度往往不同,使用全局離群點檢測算法會導致一些較稀疏的族中的數(shù)據(jù)??對象被全部標記為全局離群點,而較密集的簇中存在的異常信息也不能被很好的識別出??來,因此一些研究學者開始關注局部范圍內(nèi)數(shù)據(jù)所包含的信息,即局部離群點檢測。??Breunig最先提出局部離群點的定義局部離群點是指在數(shù)據(jù)集中與其鄰域表現(xiàn)??不一致或偏離其鄰域的離群點。以圖1.2中的二維數(shù)據(jù)點集為例,數(shù)據(jù)點集大致可以劃??分為兩個簇,其中數(shù)據(jù)對象0距離簇C2中的數(shù)據(jù)對象的距離與簇C1內(nèi)部數(shù)據(jù)對象間??的距離相似,但遠遠大于簇C2內(nèi)部數(shù)據(jù)對象間的距離,即從整體數(shù)據(jù)集來看,數(shù)據(jù)對??象0不屬于全局離群點,但從局部范圍來看,數(shù)據(jù)對象O是離群點,這種離群點被稱??為局部離群點。??'C1??,.(::V)??@?一??'?J?.???_?1?丨?■?,??圖1.2二維數(shù)f中的局部離群點示例圖??Fig.?1.2?An?example?of?local?outlier?in?the?two-dimensional?data?set??目前,己有較多的研宄關注局部離群點檢測,但這些算法更多的是適用于維數(shù)較低??的數(shù)據(jù)集,對高維數(shù)據(jù)的離群點檢測關注相對較少,這些算法在高維數(shù)據(jù)上的使用往往??無法達到預期效果。出現(xiàn)這一問題的主要原因是“維數(shù)災難”產(chǎn)生的距離失效問題,.即數(shù)??據(jù)集在高維空間中的分布趨近于均勻分布,算法無法從均勻分布的數(shù)據(jù)中準確地找到離??群點。通常,離群點的離群原因可以被某個或某幾個屬性維度所解釋,即可以通過對原??始
?大連海事大學碩士學位論文???子空間可以看作是全局空間的一個低維投影。以圖1.3為例,圖1.3?(a)中表示全??局空間為{S1,S2,?S3}的三維點集中的數(shù)據(jù)對象在子空間{S1,S2}中的分布情況,圖1.3(b)??中表示全局空間為{S1,S2,S3丨的三維點集中的數(shù)據(jù)對象在子空間{S2,S3丨中的分布情況,??從圖中可以看出,離群點R在子空間{S1,S2}中無法被檢測出,而在子空間{S2,S3丨中則??表現(xiàn)出明顯的離群性。??引入子空間技術(shù)后的離群點檢測過程如圖1.4所示,首先使用子空間技術(shù),基于數(shù)??據(jù)集的全局空間構(gòu)造適合用于離群點檢測的子空間集合RS,之后遍歷集合RS,在各個??子空間S中使用離群點檢測算法,直到集合RS中的所有子空間都參與計算。不同的子??空間選擇方法使用不同的評價指標作為子空間選擇的依據(jù),并且由于數(shù)據(jù)集的子空間數(shù)??隨著數(shù)據(jù)維度的增長呈指數(shù)增長,因此遍歷計算所有的子空間質(zhì)量并進行排序,選擇質(zhì)??量較大的子空間添加到集合RS中,這種方法計算量極大,不具有可行性。一個合理、??可行的子空間選擇方法需要找到可以適應后續(xù)離群點檢測算法的子空間質(zhì)量的量化標??準,并在不遍歷所有子空間的前提下構(gòu)造子空間質(zhì)量較髙的集合。??基于上述背景,為了解決高維數(shù)據(jù)的局部離群點檢測問題,本文提出一種基于子空??間的局部離群點檢測算法,用來改善離群點檢測算法檢測高維數(shù)據(jù)中局部離群點的能力。??這種方法對于離群點檢測算法的實際應用具有重要意義。??■??I??■??_?■?■?■?■??■?■?■?■?■?■?■??S1?■?■?■?■?S2?■??■?■?■?■?■?■??_?■?_?
【參考文獻】:
期刊論文
[1]基于方形鄰域和裁剪因子的離群點檢測方法[J]. 涂曉敏,石鴻雁. 小型微型計算機系統(tǒng). 2019(01)
[2]相關子空間中的局部離群數(shù)據(jù)挖掘算法研究[J]. 李永紅,張繼福,荀亞玲. 小型微型計算機系統(tǒng). 2015(03)
[3]基于自適應的高對比性子空間的高維離群點檢測[J]. 趙保同,薛安榮,董國賓. 計算機應用研究. 2013(10)
[4]基于邊界和距離的離群點檢測[J]. 江峰,杜軍威,眭躍飛,曹存根. 電子學報. 2010(03)
[5]基于無指導離群點檢測的網(wǎng)絡入侵檢測技術(shù)[J]. 黃俊,韓玲莉,陳光平. 小型微型計算機系統(tǒng). 2007(11)
本文編號:2954491
【文章來源】:大連海事大學遼寧省 211工程院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
圖1.1二維數(shù)據(jù)中的局部離群點示例圖??Fig.?1.1?An?example?of?outlier?in?the?two-dimensional?data?set??
??大連^事大學碩士學位論文???稱為全局離群點。然而在實際應用中,收集到的數(shù)據(jù)通常具有不完整的特點,并且數(shù)據(jù)??集中不同簇的密度往往不同,使用全局離群點檢測算法會導致一些較稀疏的族中的數(shù)據(jù)??對象被全部標記為全局離群點,而較密集的簇中存在的異常信息也不能被很好的識別出??來,因此一些研究學者開始關注局部范圍內(nèi)數(shù)據(jù)所包含的信息,即局部離群點檢測。??Breunig最先提出局部離群點的定義局部離群點是指在數(shù)據(jù)集中與其鄰域表現(xiàn)??不一致或偏離其鄰域的離群點。以圖1.2中的二維數(shù)據(jù)點集為例,數(shù)據(jù)點集大致可以劃??分為兩個簇,其中數(shù)據(jù)對象0距離簇C2中的數(shù)據(jù)對象的距離與簇C1內(nèi)部數(shù)據(jù)對象間??的距離相似,但遠遠大于簇C2內(nèi)部數(shù)據(jù)對象間的距離,即從整體數(shù)據(jù)集來看,數(shù)據(jù)對??象0不屬于全局離群點,但從局部范圍來看,數(shù)據(jù)對象O是離群點,這種離群點被稱??為局部離群點。??'C1??,.(::V)??@?一??'?J?.???_?1?丨?■?,??圖1.2二維數(shù)f中的局部離群點示例圖??Fig.?1.2?An?example?of?local?outlier?in?the?two-dimensional?data?set??目前,己有較多的研宄關注局部離群點檢測,但這些算法更多的是適用于維數(shù)較低??的數(shù)據(jù)集,對高維數(shù)據(jù)的離群點檢測關注相對較少,這些算法在高維數(shù)據(jù)上的使用往往??無法達到預期效果。出現(xiàn)這一問題的主要原因是“維數(shù)災難”產(chǎn)生的距離失效問題,.即數(shù)??據(jù)集在高維空間中的分布趨近于均勻分布,算法無法從均勻分布的數(shù)據(jù)中準確地找到離??群點。通常,離群點的離群原因可以被某個或某幾個屬性維度所解釋,即可以通過對原??始
?大連海事大學碩士學位論文???子空間可以看作是全局空間的一個低維投影。以圖1.3為例,圖1.3?(a)中表示全??局空間為{S1,S2,?S3}的三維點集中的數(shù)據(jù)對象在子空間{S1,S2}中的分布情況,圖1.3(b)??中表示全局空間為{S1,S2,S3丨的三維點集中的數(shù)據(jù)對象在子空間{S2,S3丨中的分布情況,??從圖中可以看出,離群點R在子空間{S1,S2}中無法被檢測出,而在子空間{S2,S3丨中則??表現(xiàn)出明顯的離群性。??引入子空間技術(shù)后的離群點檢測過程如圖1.4所示,首先使用子空間技術(shù),基于數(shù)??據(jù)集的全局空間構(gòu)造適合用于離群點檢測的子空間集合RS,之后遍歷集合RS,在各個??子空間S中使用離群點檢測算法,直到集合RS中的所有子空間都參與計算。不同的子??空間選擇方法使用不同的評價指標作為子空間選擇的依據(jù),并且由于數(shù)據(jù)集的子空間數(shù)??隨著數(shù)據(jù)維度的增長呈指數(shù)增長,因此遍歷計算所有的子空間質(zhì)量并進行排序,選擇質(zhì)??量較大的子空間添加到集合RS中,這種方法計算量極大,不具有可行性。一個合理、??可行的子空間選擇方法需要找到可以適應后續(xù)離群點檢測算法的子空間質(zhì)量的量化標??準,并在不遍歷所有子空間的前提下構(gòu)造子空間質(zhì)量較髙的集合。??基于上述背景,為了解決高維數(shù)據(jù)的局部離群點檢測問題,本文提出一種基于子空??間的局部離群點檢測算法,用來改善離群點檢測算法檢測高維數(shù)據(jù)中局部離群點的能力。??這種方法對于離群點檢測算法的實際應用具有重要意義。??■??I??■??_?■?■?■?■??■?■?■?■?■?■?■??S1?■?■?■?■?S2?■??■?■?■?■?■?■??_?■?_?
【參考文獻】:
期刊論文
[1]基于方形鄰域和裁剪因子的離群點檢測方法[J]. 涂曉敏,石鴻雁. 小型微型計算機系統(tǒng). 2019(01)
[2]相關子空間中的局部離群數(shù)據(jù)挖掘算法研究[J]. 李永紅,張繼福,荀亞玲. 小型微型計算機系統(tǒng). 2015(03)
[3]基于自適應的高對比性子空間的高維離群點檢測[J]. 趙保同,薛安榮,董國賓. 計算機應用研究. 2013(10)
[4]基于邊界和距離的離群點檢測[J]. 江峰,杜軍威,眭躍飛,曹存根. 電子學報. 2010(03)
[5]基于無指導離群點檢測的網(wǎng)絡入侵檢測技術(shù)[J]. 黃俊,韓玲莉,陳光平. 小型微型計算機系統(tǒng). 2007(11)
本文編號:2954491
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2954491.html
最近更新
教材專著