基于聚類離群因子和唯一最近鄰居集的離群點(diǎn)挖掘算法
發(fā)布時(shí)間:2021-04-12 21:48
離群點(diǎn)檢測(cè)作為數(shù)據(jù)挖掘技術(shù)的重要研究領(lǐng)域之一,是發(fā)現(xiàn)數(shù)據(jù)價(jià)值的一種重要手段,可以用來(lái)從大量的數(shù)據(jù)中挖掘出與大多數(shù)數(shù)據(jù)呈現(xiàn)不一致規(guī)律的異常點(diǎn),這些異常點(diǎn)往往蘊(yùn)藏著更加有價(jià)值的信息。正是由于離群點(diǎn)檢測(cè)有著如此重要的研究意義,使得國(guó)內(nèi)外學(xué)者在該領(lǐng)域的研究十分活躍。本文針對(duì)基于聚類的離群點(diǎn)檢測(cè)算法存在的低效率、低耦合性問(wèn)題進(jìn)行了深入研究,主要研究?jī)?nèi)容包括以下兩個(gè)方面。首先,本文對(duì)基于密度峰值快速搜索聚類的離群點(diǎn)檢測(cè)算法進(jìn)行了研究,為解決該算法存在的參數(shù)問(wèn)題和決策欺詐現(xiàn)象進(jìn),提出了基于聚類離群因子的離群點(diǎn)檢測(cè)算法,該算法引入相互鄰居和相互鄰居搜索算法用以解決參數(shù)問(wèn)題;提出相互密度的概念用以刻畫數(shù)據(jù)與周圍數(shù)據(jù)點(diǎn)的緊密程度以抑制決策欺詐現(xiàn)象;提出聚類的離群因子用以度量聚類離群程度。該算法根據(jù)聚類的離群因子找出離群聚類以檢測(cè)離群點(diǎn)。其次,對(duì)基于唯一最近鄰居集和密度聚類的離群點(diǎn)檢測(cè)算法進(jìn)行了研究,為解決該算法存在的假近鄰現(xiàn)象、聚類合并現(xiàn)象進(jìn),提出了一種改進(jìn)的基于唯一最近鄰居集的離群點(diǎn)檢測(cè)算法。該算法使用唯一最近鄰居集基數(shù)檢測(cè)孤立離群點(diǎn),使用聚類離群因子檢測(cè)離群小聚類,并引入傳播范圍閾的概念,用以解決聚類...
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
服從高斯分布的樣本點(diǎn)分布情況
數(shù)據(jù)集中出現(xiàn)明顯不同于其它對(duì)象的數(shù)據(jù)點(diǎn),離群點(diǎn)檢測(cè)是用來(lái)確定小部分?jǐn)?shù)據(jù)對(duì)象與剩余的大部分?jǐn)?shù)據(jù)明顯不同或者不一致的問(wèn)題。獲得廣大研究人員認(rèn)可的是Hawkins[1]1-2給出的離群點(diǎn)定義,離群點(diǎn)是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù),由于偏離其它記錄的規(guī)則太多,使人懷疑這些數(shù)據(jù)的偏離并非由隨機(jī)因素產(chǎn)生,而是因?yàn)橥耆煌囊蛩禺a(chǎn)生的。例如圖 2-1 中,一共 102 個(gè)數(shù)據(jù)點(diǎn)其中大部分對(duì)象服從高斯分布,然而區(qū)域 R中的數(shù)據(jù)對(duì)象顯著不同,他們只是散亂分布的點(diǎn),因此在該數(shù)據(jù)集中區(qū)域 R 中的數(shù)據(jù)點(diǎn)為離群點(diǎn)。例如圖 2-2 中展示的是傳感器某時(shí)間段內(nèi)監(jiān)測(cè)到的森林環(huán)境的溫度和濕度信息,在指定半徑的 R 區(qū)域中紅色對(duì)象 x1~x4的鄰居數(shù)數(shù)量均少于 3 個(gè),遠(yuǎn)小于綠色數(shù)據(jù)點(diǎn)的鄰居數(shù)量,因此被認(rèn)為是離群點(diǎn),通過(guò)分析可以發(fā)現(xiàn),x1,x2對(duì)象的濕度較小而溫度較高,推斷該區(qū)域可能是因?yàn)殛?yáng)光直曬導(dǎo)致的局部溫度過(guò)高導(dǎo)致森林火災(zāi)。同理,x3,x4數(shù)據(jù)點(diǎn)處的溫度較低而濕度較大,推斷可能是因?yàn)楹闈碁?zāi)害導(dǎo)致的。由此可見離群點(diǎn)檢測(cè)可用于決策支持,給生產(chǎn)生活帶來(lái)指導(dǎo)作用,意義重大。
圖 2-3 離群點(diǎn)的分類標(biāo)準(zhǔn)合中,一個(gè)樣本點(diǎn)是情景離群點(diǎn)(Contextual O地偏離其它對(duì)象[32]545-546。例如,今的溫度為-3間和地點(diǎn),如果在哈爾濱的冬天這是正常的,與全局離群點(diǎn)不同,情景離群點(diǎn)依賴于特定的定的條件必須做為定義的一部分加以說(shuō)明,情景下檢測(cè)離群點(diǎn),這一點(diǎn)很具使用價(jià)值。局部離群點(diǎn)[33]的推廣。局部密度是基于密度的果如果一個(gè)樣本點(diǎn)的密度明顯偏離它所在的局局部離群點(diǎn)。
【參考文獻(xiàn)】:
期刊論文
[1]聚類剪枝算法在離群點(diǎn)檢測(cè)中的應(yīng)用[J]. 張青. 廣東通信技術(shù). 2018(12)
[2]改進(jìn)的DBSCAN聚類和LAOF兩階段混合數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 石鴻雁,馬曉娟. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[3]基于密度的局部離群數(shù)據(jù)挖掘算法研究[J]. 許琳,趙茂先. 山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(06)
[4]基于累積全熵的子空間聚類離群點(diǎn)檢測(cè)算法[J]. 張忠平,房春珍. 計(jì)算機(jī)集成制造系統(tǒng). 2015(08)
[5]一種基于偏離的局部離群點(diǎn)檢測(cè)算法[J]. 周世波,徐維祥. 儀器儀表學(xué)報(bào). 2014(10)
[6]一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. 古平,劉海波,羅志恒. 計(jì)算機(jī)應(yīng)用研究. 2013(03)
[7]離群點(diǎn)挖掘研究[J]. 徐翔,劉建偉,羅雄麟. 計(jì)算機(jī)應(yīng)用研究. 2009(01)
[8]一種基于K-Means局部最優(yōu)性的高效聚類算法[J]. 雷小鋒,謝昆青,林帆,夏征義. 軟件學(xué)報(bào). 2008(07)
[9]局部離群點(diǎn)挖掘算法研究[J]. 薛安榮,鞠時(shí)光,何偉華,陳偉鶴. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[10]離群數(shù)據(jù)挖掘綜述[J]. 黃洪宇,林甲祥,陳崇成,樊明輝. 計(jì)算機(jī)應(yīng)用研究. 2006(08)
碩士論文
[1]局部離群點(diǎn)檢測(cè)算法的研究[D]. 馬菲.淮北師范大學(xué) 2016
[2]基于聚類和密度的離群點(diǎn)檢測(cè)方法[D]. 陶晶.華南理工大學(xué) 2014
[3]數(shù)據(jù)挖掘中的離群點(diǎn)檢測(cè)算法研究[D]. 胡婷婷.廈門大學(xué) 2014
[4]GML時(shí)空離群點(diǎn)挖掘技術(shù)研究[D]. 吳國(guó)洋.江西理工大學(xué) 2011
本文編號(hào):3134040
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
服從高斯分布的樣本點(diǎn)分布情況
數(shù)據(jù)集中出現(xiàn)明顯不同于其它對(duì)象的數(shù)據(jù)點(diǎn),離群點(diǎn)檢測(cè)是用來(lái)確定小部分?jǐn)?shù)據(jù)對(duì)象與剩余的大部分?jǐn)?shù)據(jù)明顯不同或者不一致的問(wèn)題。獲得廣大研究人員認(rèn)可的是Hawkins[1]1-2給出的離群點(diǎn)定義,離群點(diǎn)是數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù),由于偏離其它記錄的規(guī)則太多,使人懷疑這些數(shù)據(jù)的偏離并非由隨機(jī)因素產(chǎn)生,而是因?yàn)橥耆煌囊蛩禺a(chǎn)生的。例如圖 2-1 中,一共 102 個(gè)數(shù)據(jù)點(diǎn)其中大部分對(duì)象服從高斯分布,然而區(qū)域 R中的數(shù)據(jù)對(duì)象顯著不同,他們只是散亂分布的點(diǎn),因此在該數(shù)據(jù)集中區(qū)域 R 中的數(shù)據(jù)點(diǎn)為離群點(diǎn)。例如圖 2-2 中展示的是傳感器某時(shí)間段內(nèi)監(jiān)測(cè)到的森林環(huán)境的溫度和濕度信息,在指定半徑的 R 區(qū)域中紅色對(duì)象 x1~x4的鄰居數(shù)數(shù)量均少于 3 個(gè),遠(yuǎn)小于綠色數(shù)據(jù)點(diǎn)的鄰居數(shù)量,因此被認(rèn)為是離群點(diǎn),通過(guò)分析可以發(fā)現(xiàn),x1,x2對(duì)象的濕度較小而溫度較高,推斷該區(qū)域可能是因?yàn)殛?yáng)光直曬導(dǎo)致的局部溫度過(guò)高導(dǎo)致森林火災(zāi)。同理,x3,x4數(shù)據(jù)點(diǎn)處的溫度較低而濕度較大,推斷可能是因?yàn)楹闈碁?zāi)害導(dǎo)致的。由此可見離群點(diǎn)檢測(cè)可用于決策支持,給生產(chǎn)生活帶來(lái)指導(dǎo)作用,意義重大。
圖 2-3 離群點(diǎn)的分類標(biāo)準(zhǔn)合中,一個(gè)樣本點(diǎn)是情景離群點(diǎn)(Contextual O地偏離其它對(duì)象[32]545-546。例如,今的溫度為-3間和地點(diǎn),如果在哈爾濱的冬天這是正常的,與全局離群點(diǎn)不同,情景離群點(diǎn)依賴于特定的定的條件必須做為定義的一部分加以說(shuō)明,情景下檢測(cè)離群點(diǎn),這一點(diǎn)很具使用價(jià)值。局部離群點(diǎn)[33]的推廣。局部密度是基于密度的果如果一個(gè)樣本點(diǎn)的密度明顯偏離它所在的局局部離群點(diǎn)。
【參考文獻(xiàn)】:
期刊論文
[1]聚類剪枝算法在離群點(diǎn)檢測(cè)中的應(yīng)用[J]. 張青. 廣東通信技術(shù). 2018(12)
[2]改進(jìn)的DBSCAN聚類和LAOF兩階段混合數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 石鴻雁,馬曉娟. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[3]基于密度的局部離群數(shù)據(jù)挖掘算法研究[J]. 許琳,趙茂先. 山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(06)
[4]基于累積全熵的子空間聚類離群點(diǎn)檢測(cè)算法[J]. 張忠平,房春珍. 計(jì)算機(jī)集成制造系統(tǒng). 2015(08)
[5]一種基于偏離的局部離群點(diǎn)檢測(cè)算法[J]. 周世波,徐維祥. 儀器儀表學(xué)報(bào). 2014(10)
[6]一種基于多重聚類的離群點(diǎn)檢測(cè)算法[J]. 古平,劉海波,羅志恒. 計(jì)算機(jī)應(yīng)用研究. 2013(03)
[7]離群點(diǎn)挖掘研究[J]. 徐翔,劉建偉,羅雄麟. 計(jì)算機(jī)應(yīng)用研究. 2009(01)
[8]一種基于K-Means局部最優(yōu)性的高效聚類算法[J]. 雷小鋒,謝昆青,林帆,夏征義. 軟件學(xué)報(bào). 2008(07)
[9]局部離群點(diǎn)挖掘算法研究[J]. 薛安榮,鞠時(shí)光,何偉華,陳偉鶴. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[10]離群數(shù)據(jù)挖掘綜述[J]. 黃洪宇,林甲祥,陳崇成,樊明輝. 計(jì)算機(jī)應(yīng)用研究. 2006(08)
碩士論文
[1]局部離群點(diǎn)檢測(cè)算法的研究[D]. 馬菲.淮北師范大學(xué) 2016
[2]基于聚類和密度的離群點(diǎn)檢測(cè)方法[D]. 陶晶.華南理工大學(xué) 2014
[3]數(shù)據(jù)挖掘中的離群點(diǎn)檢測(cè)算法研究[D]. 胡婷婷.廈門大學(xué) 2014
[4]GML時(shí)空離群點(diǎn)挖掘技術(shù)研究[D]. 吳國(guó)洋.江西理工大學(xué) 2011
本文編號(hào):3134040
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3134040.html
最近更新
教材專著