基于密度和距離的離群點(diǎn)檢測(cè)方法研究與應(yīng)用
發(fā)布時(shí)間:2022-01-19 17:08
離群點(diǎn)檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要的研究領(lǐng)域,它的主要任務(wù)是找出那些與大部分對(duì)象產(chǎn)生機(jī)制不相同的對(duì)象。目前,離群點(diǎn)檢測(cè)方法已經(jīng)得到了深入的研究,但是使用單一離群因子的離群點(diǎn)檢測(cè)方法已經(jīng)難以提升算法的精度。因此,使用多條件混合參數(shù)組成離群因子的離群點(diǎn)檢測(cè)方法已經(jīng)成為離群點(diǎn)檢測(cè)分析領(lǐng)域的一個(gè)重要的研究方向。本論文詳細(xì)的介紹了離群點(diǎn)檢測(cè)的概念,主要包括:離群點(diǎn)的形成機(jī)理,定義以及分類。在分析了已有的離群點(diǎn)檢測(cè)方法的優(yōu)缺點(diǎn)之后,本文提出了兩種新的離群點(diǎn)檢測(cè)算法。(1)提出了一種基于密度和距離雙參數(shù)的離群點(diǎn)檢測(cè)算法——DDPOS算法。通過(guò)分析發(fā)現(xiàn)使用單一的密度離群因子或單一的距離離群因子的離群點(diǎn)檢測(cè)算法很難再提升檢測(cè)的精度,并且難以消除邊界點(diǎn)的干擾。因此,DDPOS通過(guò)計(jì)算對(duì)象的局部密度來(lái)觀察對(duì)象之間的關(guān)聯(lián)度;再根據(jù)局部密度來(lái)計(jì)算對(duì)象之間的全局距離,進(jìn)而評(píng)估對(duì)象的平均偏離程度,同時(shí)消除邊界點(diǎn)的干擾;最后將二者組合成新的離群因子來(lái)判斷離群點(diǎn)。DDPOS綜合了近鄰算法框架完成離群點(diǎn)檢測(cè)。理論分析與實(shí)驗(yàn)結(jié)果表明,DDPOS算法可以有效地進(jìn)行離群點(diǎn)檢測(cè)。(2)提出了一種基于劃分候選集的離群點(diǎn)檢測(cè)算法——CP...
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
離群點(diǎn)示意圖
圖 2-2 標(biāo)準(zhǔn)正態(tài)分布Fig.2-2 Standard Normal Distribution圖 2-2 所示,標(biāo)準(zhǔn)正態(tài)分布是以均值為 0,標(biāo)準(zhǔn)差為 1 的正態(tài)分布,記為態(tài)分布又稱為高斯正態(tài)分布。這種分布當(dāng)數(shù)據(jù)量很大時(shí),估計(jì)效果很好,從兩端的值的概率將遠(yuǎn)遠(yuǎn)的小于中間的部分的值。從統(tǒng)計(jì)學(xué)中的大數(shù)定律可情況下使用正態(tài)分布可以得到很好的擬合。于統(tǒng)計(jì)學(xué)習(xí)方法的離群點(diǎn)檢測(cè)使用起來(lái)非常的方便,只需要找對(duì)符合數(shù)據(jù)集型就能夠得到想要的結(jié)果。但是,這種方法存在著以下幾個(gè)問(wèn)題: 對(duì)于數(shù)據(jù)集的知識(shí)背景的了解有很高的要求,雖然存在許多類型的數(shù)據(jù)集較常見(jiàn)的高斯模型,二項(xiàng)分布,卡方統(tǒng)計(jì)量等來(lái)描述[9][20][50]。但是在具體的著非標(biāo)準(zhǔn)的數(shù)據(jù)集,基于統(tǒng)計(jì)模型的方法通常是根據(jù)數(shù)據(jù)集的分布情況來(lái)選具體的真實(shí)數(shù)據(jù)集中很難做到,目前使用未知情況的真實(shí)數(shù)據(jù)集才是發(fā)展時(shí)也更加符合實(shí)際生活中的情況。所以模型的選擇能夠直接影響最終的檢的數(shù)據(jù)集并不能適應(yīng)于所選擇的模型,反而會(huì)降低檢測(cè)的精度。 對(duì)于數(shù)據(jù)的格式要求比較嚴(yán)苛,基于模型的方法都是使用一元屬性的數(shù)據(jù)
西安理工大學(xué)工程碩士專業(yè)學(xué)位論文計(jì)與結(jié)果境和實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)采用的設(shè)備是聯(lián)想 ThinkPad PC 機(jī),Intel i5 3210M器,8G 內(nèi)存,操作系統(tǒng)是 Windows 7 旗艦版 64 位系統(tǒng),算用 Eclipse IDE 編寫(xiě)。用人造合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集來(lái)測(cè)試。人造合成數(shù)據(jù)集中的真實(shí)數(shù)據(jù)集均來(lái)自 UCI 標(biāo)準(zhǔn)數(shù)據(jù)集或者按照一定規(guī)則經(jīng)過(guò)數(shù)數(shù)據(jù)集數(shù)據(jù)集中包含兩個(gè)高斯簇,它們的簇中心分別位于(0.5,0.6)和含了 100 個(gè)數(shù)據(jù)點(diǎn),其中含有 4 個(gè)離群點(diǎn)。在圖 3-1 中,我們布情況。
【參考文獻(xiàn)】:
期刊論文
[1]基于高斯核函數(shù)改進(jìn)的電力用戶用電數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 孫毅,李世豪,崔燦,李彬,陳宋宋,崔高穎. 電網(wǎng)技術(shù). 2018(05)
[2]一種基于多標(biāo)記的局部離群點(diǎn)檢測(cè)算法[J]. 錢(qián)景輝,梁棟. 微電子學(xué)與計(jì)算機(jī). 2017(10)
[3]基于高斯過(guò)程模型的異常檢測(cè)算法[J]. 于冰潔,夏戰(zhàn)國(guó),王久龍. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[4]NLOF:一種新的基于密度的局部離群點(diǎn)檢測(cè)算法[J]. 王敬華,趙新想,張國(guó)燕,劉建銀. 計(jì)算機(jī)科學(xué). 2013(08)
本文編號(hào):3597244
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
離群點(diǎn)示意圖
圖 2-2 標(biāo)準(zhǔn)正態(tài)分布Fig.2-2 Standard Normal Distribution圖 2-2 所示,標(biāo)準(zhǔn)正態(tài)分布是以均值為 0,標(biāo)準(zhǔn)差為 1 的正態(tài)分布,記為態(tài)分布又稱為高斯正態(tài)分布。這種分布當(dāng)數(shù)據(jù)量很大時(shí),估計(jì)效果很好,從兩端的值的概率將遠(yuǎn)遠(yuǎn)的小于中間的部分的值。從統(tǒng)計(jì)學(xué)中的大數(shù)定律可情況下使用正態(tài)分布可以得到很好的擬合。于統(tǒng)計(jì)學(xué)習(xí)方法的離群點(diǎn)檢測(cè)使用起來(lái)非常的方便,只需要找對(duì)符合數(shù)據(jù)集型就能夠得到想要的結(jié)果。但是,這種方法存在著以下幾個(gè)問(wèn)題: 對(duì)于數(shù)據(jù)集的知識(shí)背景的了解有很高的要求,雖然存在許多類型的數(shù)據(jù)集較常見(jiàn)的高斯模型,二項(xiàng)分布,卡方統(tǒng)計(jì)量等來(lái)描述[9][20][50]。但是在具體的著非標(biāo)準(zhǔn)的數(shù)據(jù)集,基于統(tǒng)計(jì)模型的方法通常是根據(jù)數(shù)據(jù)集的分布情況來(lái)選具體的真實(shí)數(shù)據(jù)集中很難做到,目前使用未知情況的真實(shí)數(shù)據(jù)集才是發(fā)展時(shí)也更加符合實(shí)際生活中的情況。所以模型的選擇能夠直接影響最終的檢的數(shù)據(jù)集并不能適應(yīng)于所選擇的模型,反而會(huì)降低檢測(cè)的精度。 對(duì)于數(shù)據(jù)的格式要求比較嚴(yán)苛,基于模型的方法都是使用一元屬性的數(shù)據(jù)
西安理工大學(xué)工程碩士專業(yè)學(xué)位論文計(jì)與結(jié)果境和實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行的實(shí)驗(yàn)采用的設(shè)備是聯(lián)想 ThinkPad PC 機(jī),Intel i5 3210M器,8G 內(nèi)存,操作系統(tǒng)是 Windows 7 旗艦版 64 位系統(tǒng),算用 Eclipse IDE 編寫(xiě)。用人造合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集來(lái)測(cè)試。人造合成數(shù)據(jù)集中的真實(shí)數(shù)據(jù)集均來(lái)自 UCI 標(biāo)準(zhǔn)數(shù)據(jù)集或者按照一定規(guī)則經(jīng)過(guò)數(shù)數(shù)據(jù)集數(shù)據(jù)集中包含兩個(gè)高斯簇,它們的簇中心分別位于(0.5,0.6)和含了 100 個(gè)數(shù)據(jù)點(diǎn),其中含有 4 個(gè)離群點(diǎn)。在圖 3-1 中,我們布情況。
【參考文獻(xiàn)】:
期刊論文
[1]基于高斯核函數(shù)改進(jìn)的電力用戶用電數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 孫毅,李世豪,崔燦,李彬,陳宋宋,崔高穎. 電網(wǎng)技術(shù). 2018(05)
[2]一種基于多標(biāo)記的局部離群點(diǎn)檢測(cè)算法[J]. 錢(qián)景輝,梁棟. 微電子學(xué)與計(jì)算機(jī). 2017(10)
[3]基于高斯過(guò)程模型的異常檢測(cè)算法[J]. 于冰潔,夏戰(zhàn)國(guó),王久龍. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(04)
[4]NLOF:一種新的基于密度的局部離群點(diǎn)檢測(cè)算法[J]. 王敬華,趙新想,張國(guó)燕,劉建銀. 計(jì)算機(jī)科學(xué). 2013(08)
本文編號(hào):3597244
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3597244.html
最近更新
教材專著