天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

KNN分類方法在不平衡數(shù)據(jù)中的應用

發(fā)布時間:2021-06-13 01:35
  分類問題一直以來是統(tǒng)計、機器學習及計算機等領域研究的重點及熱點問題之一。傳統(tǒng)的分類方法在處理平衡數(shù)據(jù)時,都有很好的預測效果,但是這些方法無法直接應用到不平衡數(shù)據(jù)分類中來。有很多學者對實際生活中經(jīng)常遇到的不平衡數(shù)據(jù)分類做了大量的研究,主要可以分為兩類:一是從算法入手,對算法進行改進,修補在不平衡數(shù)據(jù)問題中出現(xiàn)的缺陷,使之能更好的處理不平衡數(shù)據(jù)問題。二是從數(shù)據(jù)入手,通過采樣等方法降低數(shù)據(jù)不平衡程度。KNN算法是簡單、易于理解和實現(xiàn)的算法,在平衡數(shù)據(jù)集的分類問題中取得良好的分類效果。在不平衡數(shù)據(jù)集的分類問題中,KNN的缺陷顯露明顯,受樣本分布的影響,會把少數(shù)類更多的往多數(shù)類判別上偏移。為了解決這一問題,在算法方面,本文提出類別加權的KNN方法,就是對選出的K個近鄰中的少數(shù)類加一個大的權重,來提高少數(shù)類的分類準確率。在數(shù)據(jù)層面,把多數(shù)類樣本平均分成m份,每一份與少數(shù)類樣本構成一個樣本子集,再用KNN分類器對這m個樣本子集進行訓練,最后通過集成的方法組合成一個最終分類器。本文所建議的兩種方法在銀行定期存款的不平衡數(shù)據(jù)中都顯著提高了少數(shù)類的分類精度。 

【文章來源】:暨南大學廣東省 211工程院校

【文章頁數(shù)】:55 頁

【學位級別】:碩士

【部分圖文】:

KNN分類方法在不平衡數(shù)據(jù)中的應用


各評價指標隨K變動而變化的趨勢圖

直方圖,召回率,準確率,權重


KNN 分類方法在不平衡數(shù)據(jù)中的應用應的總體分類精度降低。當權重為 2 時,總體分類正確率達到了 89.89%,與加權重前的整體分類正確率相差很少,少數(shù)類的分類效果也有了提升,但沒有權重為 7 時的少數(shù)類分類精度高。從數(shù)據(jù)可以看出具體數(shù)值變化,但沒有直方圖直觀,因此將不同權重下的準確率和召回率畫出直方圖,可以直觀的看出它們的變化。

直方圖,評價指標值,分類器,權重


所以取 K 為 3。我們可以通過直方圖來看權重為 2 時,K=3 與 K=7 的各評價指標值,如圖4-4 所示:圖 4-4 權重為 2 時 K=3 與 K=7 的 KNN 分類器評價指標值從圖 4-4 可以發(fā)現(xiàn),K=3 時整體的分類準確率達到 0.9129,少數(shù)類分類正確率即召回率達到 0.5462,分別比 K=7 時高了 0.014 和 0.0607,不僅整體的分類效果較好,少數(shù)類的分類效果也得到提升,沒有犧牲整體的預測準確率就提高了少數(shù)類的分類性能。還可發(fā)現(xiàn),當 K=3 時所有的評價指標值都要高于 K=7 時的評價指標值,無論從哪一個評價指標值來看都證明 K=3 時分類器的分類性能優(yōu)于K=7 時分類器的分類性能。因此,在權重為 2 時,最好的分類器的 K 值為 3。(2) 當權重為 3 時

【參考文獻】:
期刊論文
[1]一種改進的支持向量機參數(shù)優(yōu)化方法[J]. 趙朝賀.  地理空間信息. 2017(01)
[2]一種基于改進遺傳算法的神經(jīng)網(wǎng)絡優(yōu)化算法研究[J]. 劉浩然,趙翠香,李軒,王艷霞,郭長江.  儀器儀表學報. 2016(07)
[3]基于粒子群算法的決策樹SVM多分類方法研究[J]. 王道明,魯昌華,蔣薇薇,肖明霞,李必然.  電子測量與儀器學報. 2015(04)
[4]基于隨機森林的烤煙香型分類研究[J]. 郭東鋒,胡海洲,汪季濤,姚忠達,楊輝,徐瑋,劉新民.  中國農(nóng)學通報. 2015(06)
[5]改進型加權KNN算法的不平衡數(shù)據(jù)集分類[J]. 王超學,潘正茂,馬春森,董麗麗,張濤.  計算機工程. 2012(20)
[6]基于KNN-SVM的混合協(xié)同過濾推薦算法[J]. 呂成戍,王維國,丁永健.  計算機應用研究. 2012(05)
[7]改進的線性判別分析算法[J]. 劉忠寶,王士同.  計算機應用. 2011(01)
[8]基于密度的kNN文本分類器訓練樣本裁剪方法[J]. 李榮陸,胡運發(fā).  計算機研究與發(fā)展. 2004(04)

碩士論文
[1]半監(jiān)督支持向量機分類方法研究[D]. 陳永健.陜西師范大學 2014
[2]基于偏斜數(shù)據(jù)集的中文文本分類問題的改進特征權重算法研究[D]. 張玉杰.東北師范大學 2010
[3]基于距離學習的集成KNN分類器的研究[D]. 于飛.大連理工大學 2009
[4]線性判別分析新方法研究及其應用[D]. 李道紅.南京航空航天大學 2005



本文編號:3226720

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3226720.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f120b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com