天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

KNN分類方法在不平衡數(shù)據(jù)中的應(yīng)用

發(fā)布時(shí)間:2021-06-13 01:35
  分類問題一直以來(lái)是統(tǒng)計(jì)、機(jī)器學(xué)習(xí)及計(jì)算機(jī)等領(lǐng)域研究的重點(diǎn)及熱點(diǎn)問題之一。傳統(tǒng)的分類方法在處理平衡數(shù)據(jù)時(shí),都有很好的預(yù)測(cè)效果,但是這些方法無(wú)法直接應(yīng)用到不平衡數(shù)據(jù)分類中來(lái)。有很多學(xué)者對(duì)實(shí)際生活中經(jīng)常遇到的不平衡數(shù)據(jù)分類做了大量的研究,主要可以分為兩類:一是從算法入手,對(duì)算法進(jìn)行改進(jìn),修補(bǔ)在不平衡數(shù)據(jù)問題中出現(xiàn)的缺陷,使之能更好的處理不平衡數(shù)據(jù)問題。二是從數(shù)據(jù)入手,通過采樣等方法降低數(shù)據(jù)不平衡程度。KNN算法是簡(jiǎn)單、易于理解和實(shí)現(xiàn)的算法,在平衡數(shù)據(jù)集的分類問題中取得良好的分類效果。在不平衡數(shù)據(jù)集的分類問題中,KNN的缺陷顯露明顯,受樣本分布的影響,會(huì)把少數(shù)類更多的往多數(shù)類判別上偏移。為了解決這一問題,在算法方面,本文提出類別加權(quán)的KNN方法,就是對(duì)選出的K個(gè)近鄰中的少數(shù)類加一個(gè)大的權(quán)重,來(lái)提高少數(shù)類的分類準(zhǔn)確率。在數(shù)據(jù)層面,把多數(shù)類樣本平均分成m份,每一份與少數(shù)類樣本構(gòu)成一個(gè)樣本子集,再用KNN分類器對(duì)這m個(gè)樣本子集進(jìn)行訓(xùn)練,最后通過集成的方法組合成一個(gè)最終分類器。本文所建議的兩種方法在銀行定期存款的不平衡數(shù)據(jù)中都顯著提高了少數(shù)類的分類精度。 

【文章來(lái)源】:暨南大學(xué)廣東省 211工程院校

【文章頁(yè)數(shù)】:55 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

KNN分類方法在不平衡數(shù)據(jù)中的應(yīng)用


各評(píng)價(jià)指標(biāo)隨K變動(dòng)而變化的趨勢(shì)圖

直方圖,召回率,準(zhǔn)確率,權(quán)重


KNN 分類方法在不平衡數(shù)據(jù)中的應(yīng)用應(yīng)的總體分類精度降低。當(dāng)權(quán)重為 2 時(shí),總體分類正確率達(dá)到了 89.89%,與加權(quán)重前的整體分類正確率相差很少,少數(shù)類的分類效果也有了提升,但沒有權(quán)重為 7 時(shí)的少數(shù)類分類精度高。從數(shù)據(jù)可以看出具體數(shù)值變化,但沒有直方圖直觀,因此將不同權(quán)重下的準(zhǔn)確率和召回率畫出直方圖,可以直觀的看出它們的變化。

直方圖,評(píng)價(jià)指標(biāo)值,分類器,權(quán)重


所以取 K 為 3。我們可以通過直方圖來(lái)看權(quán)重為 2 時(shí),K=3 與 K=7 的各評(píng)價(jià)指標(biāo)值,如圖4-4 所示:圖 4-4 權(quán)重為 2 時(shí) K=3 與 K=7 的 KNN 分類器評(píng)價(jià)指標(biāo)值從圖 4-4 可以發(fā)現(xiàn),K=3 時(shí)整體的分類準(zhǔn)確率達(dá)到 0.9129,少數(shù)類分類正確率即召回率達(dá)到 0.5462,分別比 K=7 時(shí)高了 0.014 和 0.0607,不僅整體的分類效果較好,少數(shù)類的分類效果也得到提升,沒有犧牲整體的預(yù)測(cè)準(zhǔn)確率就提高了少數(shù)類的分類性能。還可發(fā)現(xiàn),當(dāng) K=3 時(shí)所有的評(píng)價(jià)指標(biāo)值都要高于 K=7 時(shí)的評(píng)價(jià)指標(biāo)值,無(wú)論從哪一個(gè)評(píng)價(jià)指標(biāo)值來(lái)看都證明 K=3 時(shí)分類器的分類性能優(yōu)于K=7 時(shí)分類器的分類性能。因此,在權(quán)重為 2 時(shí),最好的分類器的 K 值為 3。(2) 當(dāng)權(quán)重為 3 時(shí)

【參考文獻(xiàn)】:
期刊論文
[1]一種改進(jìn)的支持向量機(jī)參數(shù)優(yōu)化方法[J]. 趙朝賀.  地理空間信息. 2017(01)
[2]一種基于改進(jìn)遺傳算法的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法研究[J]. 劉浩然,趙翠香,李軒,王艷霞,郭長(zhǎng)江.  儀器儀表學(xué)報(bào). 2016(07)
[3]基于粒子群算法的決策樹SVM多分類方法研究[J]. 王道明,魯昌華,蔣薇薇,肖明霞,李必然.  電子測(cè)量與儀器學(xué)報(bào). 2015(04)
[4]基于隨機(jī)森林的烤煙香型分類研究[J]. 郭東鋒,胡海洲,汪季濤,姚忠達(dá),楊輝,徐瑋,劉新民.  中國(guó)農(nóng)學(xué)通報(bào). 2015(06)
[5]改進(jìn)型加權(quán)KNN算法的不平衡數(shù)據(jù)集分類[J]. 王超學(xué),潘正茂,馬春森,董麗麗,張濤.  計(jì)算機(jī)工程. 2012(20)
[6]基于KNN-SVM的混合協(xié)同過濾推薦算法[J]. 呂成戍,王維國(guó),丁永健.  計(jì)算機(jī)應(yīng)用研究. 2012(05)
[7]改進(jìn)的線性判別分析算法[J]. 劉忠寶,王士同.  計(jì)算機(jī)應(yīng)用. 2011(01)
[8]基于密度的kNN文本分類器訓(xùn)練樣本裁剪方法[J]. 李榮陸,胡運(yùn)發(fā).  計(jì)算機(jī)研究與發(fā)展. 2004(04)

碩士論文
[1]半監(jiān)督支持向量機(jī)分類方法研究[D]. 陳永健.陜西師范大學(xué) 2014
[2]基于偏斜數(shù)據(jù)集的中文文本分類問題的改進(jìn)特征權(quán)重算法研究[D]. 張玉杰.東北師范大學(xué) 2010
[3]基于距離學(xué)習(xí)的集成KNN分類器的研究[D]. 于飛.大連理工大學(xué) 2009
[4]線性判別分析新方法研究及其應(yīng)用[D]. 李道紅.南京航空航天大學(xué) 2005



本文編號(hào):3226720

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3226720.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f120b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com