基于K-核心空間和K-medoids聚類的離群點(diǎn)檢測(cè)算法
發(fā)布時(shí)間:2021-11-20 14:07
離群點(diǎn)檢測(cè)能夠挖掘出大量數(shù)據(jù)中包含有價(jià)值信息的少量數(shù)據(jù),在實(shí)際生活中有著廣泛的應(yīng)用,因此離群點(diǎn)檢測(cè)成為了數(shù)據(jù)挖掘中的熱點(diǎn)問(wèn)題。離群點(diǎn)檢測(cè)的主要任務(wù)是檢測(cè)出異常的數(shù)據(jù),從而在這些異常數(shù)據(jù)中獲得有價(jià)值的信息。基于密度的離群點(diǎn)檢測(cè)和基于聚類的離群點(diǎn)檢測(cè)是目前研究的熱點(diǎn)問(wèn)題。本文深入分析了離群點(diǎn)檢測(cè)的相關(guān)方法,針對(duì)基于密度和基于聚類的離群點(diǎn)檢測(cè)中存在的一些挖掘性能不佳的問(wèn)題提出了改進(jìn)策略,旨在提高離群點(diǎn)的檢測(cè)效率。本文的主要內(nèi)容分為以下幾部分。首先,本文針對(duì)基于密度的離群點(diǎn)檢測(cè)中存在的密度分布不均造成檢測(cè)效率不高,以及引入反k鄰域以后算法的運(yùn)行時(shí)間明顯增加的問(wèn)題提出了一種基于K核心空間的快速局部離群點(diǎn)檢測(cè)算法。該算法通過(guò)引入k核心空間把數(shù)據(jù)集中的對(duì)象劃分為近k鄰域點(diǎn)和遠(yuǎn)k鄰域點(diǎn),減少了需要計(jì)算反k鄰域的點(diǎn)的個(gè)數(shù),從而減少算法的運(yùn)行時(shí)間。通過(guò)引入可達(dá)距離和可達(dá)密度減少距離統(tǒng)計(jì)波動(dòng)從而提升了離群點(diǎn)檢測(cè)的精確度。其次,針對(duì)已有算法對(duì)于具有多個(gè)簇且簇與簇之間密度不同,距離相隔較遠(yuǎn)的數(shù)據(jù)集檢測(cè)效率不高的問(wèn)題,本文根據(jù)離群點(diǎn)的屬性——離群點(diǎn)距離密度較高的點(diǎn)較遠(yuǎn),離群點(diǎn)的密度要比其鄰居內(nèi)的密度低,提出了一種...
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘涉及到的相關(guān)技術(shù)
燕山大學(xué)工學(xué)碩士學(xué)位論文(4) 有時(shí)需要對(duì)數(shù)據(jù)進(jìn)行提前預(yù)測(cè);(5) 數(shù)據(jù)挖掘中的規(guī)則是對(duì)于大樣本的,不必適用所有的數(shù)據(jù);(6) 數(shù)據(jù)挖掘的規(guī)則隨著數(shù)據(jù)的變化而變化,并不是一成不變的。2.1.2 數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘是一個(gè)相對(duì)新興的技術(shù),具有廣泛的應(yīng)用。數(shù)據(jù)挖掘的任務(wù)主要分為兩類,一類是為了描述事務(wù),另一類是為了預(yù)測(cè)事務(wù)的發(fā)展方向。描述性的任務(wù)主要是通過(guò)數(shù)據(jù)挖掘來(lái)對(duì)一些數(shù)據(jù)進(jìn)行描述,從而發(fā)現(xiàn)數(shù)據(jù)的有用的價(jià)值。預(yù)測(cè)主要是通過(guò)收集大量的數(shù)據(jù)從而對(duì)未來(lái)的事務(wù)進(jìn)行預(yù)測(cè),常見(jiàn)的預(yù)測(cè)任務(wù)包括天氣預(yù)報(bào),公司未來(lái)的發(fā)展方向,農(nóng)作物生長(zhǎng)情況新穎事物的出現(xiàn)等。圖 2-2 顯示了數(shù)據(jù)挖掘的主要任務(wù)。
圖 2-3 數(shù)據(jù)挖掘的主要數(shù)據(jù)類型2.1.3 數(shù)據(jù)挖掘的主要問(wèn)題數(shù)據(jù)挖掘是一個(gè)動(dòng)態(tài)的過(guò)程,已經(jīng)強(qiáng)勢(shì)快速擴(kuò)展到各個(gè)鄰域。研究的學(xué)者們把數(shù)據(jù)挖掘研究的主要問(wèn)題劃分為 5 類:挖掘方法、用戶交互、有效性與可伸縮性、數(shù)據(jù)類型的多樣性、數(shù)據(jù)挖掘與社會(huì)[41]。這其中的有些研究已經(jīng)相對(duì)成熟并已經(jīng)應(yīng)用到實(shí)際生活中,而有些只是處在理論研究階段,要想有廣泛的應(yīng)用還需要進(jìn)一步改進(jìn)。(1) 挖掘方法目前數(shù)據(jù)挖掘的方法種類很多,而且涉及到的知識(shí)和領(lǐng)域也很豐富。挖掘的方法應(yīng)該考慮到數(shù)據(jù)的類型和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜程度,只有這樣才能發(fā)現(xiàn)更加高效的挖掘方法。(2) 用戶交互
【參考文獻(xiàn)】:
期刊論文
[1]基于局部密度的快速離群點(diǎn)檢測(cè)算法[J]. 鄒云峰,張昕,宋世淵,倪巍偉. 計(jì)算機(jī)應(yīng)用. 2017(10)
[2]基于離群點(diǎn)挖掘的工業(yè)控制系統(tǒng)異常檢測(cè)[J]. 陳莊,黃勇,鄒航. 計(jì)算機(jī)科學(xué). 2014(05)
[3]離群點(diǎn)挖掘技術(shù)在交通事件檢測(cè)中的應(yīng)用[J]. 諸彤宇,王奇,高夢(mèng)丹. 計(jì)算機(jī)科學(xué)與探索. 2014(01)
[4]利用子空間劃分的局部離群數(shù)據(jù)挖掘算法[J]. 劉愛(ài)琴,葛凌云,楊海峰,張繼福. 小型微型計(jì)算機(jī)系統(tǒng). 2011(08)
[5]基于劃分和孤立點(diǎn)檢測(cè)的審計(jì)證據(jù)獲取研究[J]. 張曉偉,謝強(qiáng),陳偉. 計(jì)算機(jī)應(yīng)用研究. 2009(07)
[6]離群點(diǎn)挖掘方法綜述[J]. 薛安榮,姚林,鞠時(shí)光,陳偉鶴,馬漢達(dá). 計(jì)算機(jī)科學(xué). 2008(11)
[7]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
[8]一種基于數(shù)據(jù)場(chǎng)的層次聚類方法[J]. 淦文燕,李德毅,王建民. 電子學(xué)報(bào). 2006(02)
[9]一種加權(quán)歐氏距離聚類方法[J]. 董旭,魏振軍. 信息工程大學(xué)學(xué)報(bào). 2005(01)
[10]數(shù)據(jù)挖掘技術(shù)[J]. 吉根林,孫志揮. 中國(guó)圖象圖形學(xué)報(bào). 2001(08)
碩士論文
[1]基于條件漸增總熵和全局鄰域的局部離群點(diǎn)挖掘算法[D]. 孫影.燕山大學(xué) 2017
[2]基于密度的高維數(shù)據(jù)子空間聚類算法研究[D]. 苗立云.燕山大學(xué) 2012
本文編號(hào):3507485
【文章來(lái)源】:燕山大學(xué)河北省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘涉及到的相關(guān)技術(shù)
燕山大學(xué)工學(xué)碩士學(xué)位論文(4) 有時(shí)需要對(duì)數(shù)據(jù)進(jìn)行提前預(yù)測(cè);(5) 數(shù)據(jù)挖掘中的規(guī)則是對(duì)于大樣本的,不必適用所有的數(shù)據(jù);(6) 數(shù)據(jù)挖掘的規(guī)則隨著數(shù)據(jù)的變化而變化,并不是一成不變的。2.1.2 數(shù)據(jù)挖掘應(yīng)用數(shù)據(jù)挖掘是一個(gè)相對(duì)新興的技術(shù),具有廣泛的應(yīng)用。數(shù)據(jù)挖掘的任務(wù)主要分為兩類,一類是為了描述事務(wù),另一類是為了預(yù)測(cè)事務(wù)的發(fā)展方向。描述性的任務(wù)主要是通過(guò)數(shù)據(jù)挖掘來(lái)對(duì)一些數(shù)據(jù)進(jìn)行描述,從而發(fā)現(xiàn)數(shù)據(jù)的有用的價(jià)值。預(yù)測(cè)主要是通過(guò)收集大量的數(shù)據(jù)從而對(duì)未來(lái)的事務(wù)進(jìn)行預(yù)測(cè),常見(jiàn)的預(yù)測(cè)任務(wù)包括天氣預(yù)報(bào),公司未來(lái)的發(fā)展方向,農(nóng)作物生長(zhǎng)情況新穎事物的出現(xiàn)等。圖 2-2 顯示了數(shù)據(jù)挖掘的主要任務(wù)。
圖 2-3 數(shù)據(jù)挖掘的主要數(shù)據(jù)類型2.1.3 數(shù)據(jù)挖掘的主要問(wèn)題數(shù)據(jù)挖掘是一個(gè)動(dòng)態(tài)的過(guò)程,已經(jīng)強(qiáng)勢(shì)快速擴(kuò)展到各個(gè)鄰域。研究的學(xué)者們把數(shù)據(jù)挖掘研究的主要問(wèn)題劃分為 5 類:挖掘方法、用戶交互、有效性與可伸縮性、數(shù)據(jù)類型的多樣性、數(shù)據(jù)挖掘與社會(huì)[41]。這其中的有些研究已經(jīng)相對(duì)成熟并已經(jīng)應(yīng)用到實(shí)際生活中,而有些只是處在理論研究階段,要想有廣泛的應(yīng)用還需要進(jìn)一步改進(jìn)。(1) 挖掘方法目前數(shù)據(jù)挖掘的方法種類很多,而且涉及到的知識(shí)和領(lǐng)域也很豐富。挖掘的方法應(yīng)該考慮到數(shù)據(jù)的類型和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜程度,只有這樣才能發(fā)現(xiàn)更加高效的挖掘方法。(2) 用戶交互
【參考文獻(xiàn)】:
期刊論文
[1]基于局部密度的快速離群點(diǎn)檢測(cè)算法[J]. 鄒云峰,張昕,宋世淵,倪巍偉. 計(jì)算機(jī)應(yīng)用. 2017(10)
[2]基于離群點(diǎn)挖掘的工業(yè)控制系統(tǒng)異常檢測(cè)[J]. 陳莊,黃勇,鄒航. 計(jì)算機(jī)科學(xué). 2014(05)
[3]離群點(diǎn)挖掘技術(shù)在交通事件檢測(cè)中的應(yīng)用[J]. 諸彤宇,王奇,高夢(mèng)丹. 計(jì)算機(jī)科學(xué)與探索. 2014(01)
[4]利用子空間劃分的局部離群數(shù)據(jù)挖掘算法[J]. 劉愛(ài)琴,葛凌云,楊海峰,張繼福. 小型微型計(jì)算機(jī)系統(tǒng). 2011(08)
[5]基于劃分和孤立點(diǎn)檢測(cè)的審計(jì)證據(jù)獲取研究[J]. 張曉偉,謝強(qiáng),陳偉. 計(jì)算機(jī)應(yīng)用研究. 2009(07)
[6]離群點(diǎn)挖掘方法綜述[J]. 薛安榮,姚林,鞠時(shí)光,陳偉鶴,馬漢達(dá). 計(jì)算機(jī)科學(xué). 2008(11)
[7]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
[8]一種基于數(shù)據(jù)場(chǎng)的層次聚類方法[J]. 淦文燕,李德毅,王建民. 電子學(xué)報(bào). 2006(02)
[9]一種加權(quán)歐氏距離聚類方法[J]. 董旭,魏振軍. 信息工程大學(xué)學(xué)報(bào). 2005(01)
[10]數(shù)據(jù)挖掘技術(shù)[J]. 吉根林,孫志揮. 中國(guó)圖象圖形學(xué)報(bào). 2001(08)
碩士論文
[1]基于條件漸增總熵和全局鄰域的局部離群點(diǎn)挖掘算法[D]. 孫影.燕山大學(xué) 2017
[2]基于密度的高維數(shù)據(jù)子空間聚類算法研究[D]. 苗立云.燕山大學(xué) 2012
本文編號(hào):3507485
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3507485.html
最近更新
教材專著