面向不平衡數(shù)據(jù)的離群點(diǎn)檢測(cè)研究
本文關(guān)鍵詞:面向不平衡數(shù)據(jù)的離群點(diǎn)檢測(cè)研究 出處:《青島科技大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 離群點(diǎn) 不平衡數(shù)據(jù) K-modes 聚類 SMOTE 過采樣技術(shù) 混合采樣 集成學(xué)習(xí)
【摘要】:隨著信息技術(shù)、網(wǎng)絡(luò)的日益普及,收集和存儲(chǔ)的數(shù)據(jù)越來越多,這些數(shù)據(jù)雜亂無章、毫無規(guī)律。數(shù)據(jù)挖掘技術(shù)就是從這些大量的、雜亂的數(shù)據(jù)中獲得對(duì)人們有價(jià)值的信息。近年來,離群點(diǎn)檢測(cè)已成為數(shù)據(jù)挖掘中一個(gè)重要的研究領(lǐng)域。離群點(diǎn)是指與其他對(duì)象具有明顯差異的數(shù)據(jù)。離群點(diǎn)檢測(cè)可以挖掘出數(shù)據(jù)中一小部分具有異常行為或?qū)傩缘膶?duì)象,這些對(duì)象背后可能隱藏著非常有價(jià)值的信息或知識(shí)。在欺詐檢測(cè)、入侵檢測(cè)、故障診斷等許多領(lǐng)域中,離群點(diǎn)檢測(cè)都有廣泛的應(yīng)用,F(xiàn)有的離群點(diǎn)檢測(cè)方法還存在不少問題,例如,沒有考慮數(shù)據(jù)的類別不平衡問題。離群點(diǎn)的數(shù)量要遠(yuǎn)少于非離群點(diǎn),因此,將不平衡數(shù)據(jù)的處理方法引入到離群點(diǎn)檢測(cè)之中,可以更加有效地對(duì)離群點(diǎn)進(jìn)行檢測(cè)。然而,當(dāng)前的不平衡數(shù)據(jù)處理方法主要針對(duì)數(shù)值型數(shù)據(jù)進(jìn)行分析,不能有效處理類別型數(shù)據(jù)。在現(xiàn)實(shí)生活中,我們經(jīng)常會(huì)遇到大量的類別型數(shù)據(jù),我們需要從這些類別型數(shù)據(jù)中檢測(cè)離群點(diǎn)。由于類別型數(shù)據(jù)不具備數(shù)值型數(shù)據(jù)的幾何特性,因此,不能直接采用現(xiàn)有的方法進(jìn)行處理,需要針對(duì)類別型不平衡數(shù)據(jù)提出專門的處理方法。為了解決上述問題,本文將研究類別型不平衡數(shù)據(jù)中的離群點(diǎn)檢測(cè)問題。首先,提出一種基于加權(quán)重疊距離的K-modes聚類算法WODKM;其次,將WODKM算法與SMOTE方法結(jié)合在一起,提出一種針對(duì)類別型不平衡數(shù)據(jù)的混合采樣算法HS_WODKM;第三,利用HS_WODKM算法以及集成學(xué)習(xí)來進(jìn)行離群點(diǎn)檢測(cè),從而可以從類別型不平衡數(shù)據(jù)中有效地檢測(cè)出離群點(diǎn)。本文的工作主要包括以下幾個(gè)方面:首先,對(duì)傳統(tǒng)的K-modes聚類算法進(jìn)行改進(jìn),提出一種基于加權(quán)重疊距離的K-modes聚類算法WODKM。WODKM算法充分考慮了重要性不同的屬性對(duì)聚類的影響,不同的屬性在聚類時(shí)被賦予不同的權(quán)值,從而提高了聚類質(zhì)量。實(shí)驗(yàn)結(jié)果表明,WODKM算法在聚類精度上比傳統(tǒng)的K-modes算法更加高效。其次,針對(duì)類別型不平衡數(shù)據(jù),提出一種混合采樣算法HS_WODKM。HS_WODKM算法通過增加正類樣本個(gè)數(shù)并減少負(fù)類樣本個(gè)數(shù)這種混合采樣策略來解決類別型數(shù)據(jù)的不平衡問題。利用改進(jìn)的SMOTE方法對(duì)正類樣本進(jìn)行過采樣,并利用WODKM算法對(duì)負(fù)類樣本進(jìn)行降采樣。通過上述兩種采樣策略的共同使用,可以有效避免由于樣本類別不平衡而導(dǎo)致的過擬合問題。實(shí)驗(yàn)結(jié)果表明,采用HS_WODKM來處理類別型不平衡數(shù)據(jù)是有效的。第三,提出一種基于混合采樣與集成學(xué)習(xí)的離群點(diǎn)檢測(cè)方法,可以從類別型不平衡數(shù)據(jù)中有效地檢測(cè)出離群點(diǎn)。該方法首先利用HS_WODKM算法對(duì)不平衡數(shù)據(jù)集進(jìn)行混合采樣,從而得到一個(gè)平衡的數(shù)據(jù)集,然后在預(yù)處理之后的數(shù)據(jù)集上利用集成學(xué)習(xí)算法進(jìn)行離群點(diǎn)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,我們所提出的方法具有更好的離群點(diǎn)檢測(cè)性能。
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 柴雯;左美云;許偉;王軼博;;SNS中影響力用戶預(yù)測(cè)研究——基于不平衡數(shù)據(jù)的多種數(shù)據(jù)挖掘方法對(duì)比[J];系統(tǒng)科學(xué)與數(shù)學(xué);2015年09期
2 辛麗玲;何威;于劍;賈彩燕;;一種基于密度差異的離群點(diǎn)檢測(cè)算法[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2015年03期
3 江峰;王莎莎;杜軍威;眭躍飛;;基于近似決策熵的屬性約簡(jiǎn)[J];控制與決策;2015年01期
4 薛安榮;何峰;聞丹丹;;基于全息熵的空間離群點(diǎn)挖掘算法研究[J];計(jì)算機(jī)應(yīng)用研究;2014年02期
5 王敬華;趙新想;張國燕;劉建銀;;NLOF:一種新的基于密度的局部離群點(diǎn)檢測(cè)算法[J];計(jì)算機(jī)科學(xué);2013年08期
6 楊福萍;王洪國;董樹霞;牛家洋;丁艷輝;;基于聚類劃分的兩階段離群點(diǎn)檢測(cè)算法[J];計(jì)算機(jī)應(yīng)用研究;2013年07期
7 江峰;眭躍飛;曹存根;;粗糙集中的距離度量與離群點(diǎn)檢測(cè)[J];控制與決策;2013年02期
8 于重重;田蕊;譚勵(lì);涂序彥;;非平衡樣本分類的集成遷移學(xué)習(xí)算法[J];電子學(xué)報(bào);2012年07期
9 李雄飛;李軍;董元方;屈成偉;;一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J];計(jì)算機(jī)學(xué)報(bào);2012年02期
10 林舒楊;李翠華;江弋;林琛;鄒權(quán);;不平衡數(shù)據(jù)的降采樣方法研究[J];計(jì)算機(jī)研究與發(fā)展;2011年S3期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張友強(qiáng);基于選擇性集成學(xué)習(xí)的離群點(diǎn)檢測(cè)研究[D];青島科技大學(xué);2016年
2 陳斌;SMOTE不平衡數(shù)據(jù)過采樣算法的改進(jìn)與應(yīng)用[D];廣西大學(xué);2015年
3 張佃倫;基于粗糙集的聚類算法及其在入侵檢測(cè)中的應(yīng)用[D];青島科技大學(xué);2015年
4 徐子龍;代價(jià)敏感學(xué)習(xí)中屬性約簡(jiǎn)與決策樹分類若干關(guān)鍵問題研究[D];閩南師范大學(xué);2014年
5 王莎莎;基于粗糙集和離群點(diǎn)挖掘的網(wǎng)絡(luò)入侵檢測(cè)研究[D];青島科技大學(xué);2014年
6 余澤;混合屬性聚類融合及數(shù)據(jù)流聚類算法研究[D];浙江工業(yè)大學(xué);2014年
7 歐陽源怞;基于混合采樣的非平衡數(shù)據(jù)集分類研究[D];重慶大學(xué);2014年
8 胡婷婷;數(shù)據(jù)挖掘中的離群點(diǎn)檢測(cè)算法研究[D];廈門大學(xué);2014年
9 陸洪濤;偏最小二乘回歸數(shù)學(xué)模型及其算法研究[D];華北電力大學(xué);2014年
10 宋海燕;基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類[D];西安電子科技大學(xué);2014年
,本文編號(hào):1308402
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1308402.html