基于不平衡數(shù)據(jù)集的分類問題研究
發(fā)布時間:2021-09-03 08:44
信息技術的高速發(fā)展和互聯(lián)網(wǎng)平臺的普及,使得互聯(lián)網(wǎng)+各種傳統(tǒng)行業(yè)可以得到更加深入的融合與應用,利用以往的歷史數(shù)據(jù)可以更好的為各行各業(yè)服務,而現(xiàn)實生活當中,我們會發(fā)現(xiàn)在眾多的數(shù)據(jù)集當中往往會存在數(shù)據(jù)不平衡的現(xiàn)象,也就是多數(shù)類樣本和少數(shù)類樣本存在著較為嚴重的不平衡現(xiàn)象,而通常我們所要研究關注的重點在于少數(shù)類樣本,例如在醫(yī)療領域,患癌患者只占到總體樣本的少數(shù),而如果忽視或者誤判這些少數(shù)類樣本,那么無論對于個人、家庭還是整個社會而言,產(chǎn)生的損失以及負面影響是遠遠高于多數(shù)類的影響程度。而在以往傳統(tǒng)的分類器學習當中,對于二分類問題,往往是將總體的分類準確率作為最重要的評價指標,然而這種評價方法在不平衡數(shù)據(jù)當中通常會導致分類學習器會向多數(shù)類樣本進行偏袒,從而提高整體樣本的分類準確率,降低了對于少數(shù)類的識別率,而少數(shù)類樣本往往是關注的重點,因而這樣的評價指標對于不平衡數(shù)據(jù)的分類預測往往是不太合理的。本文以俄亥俄州真實的醫(yī)院患者數(shù)據(jù)作為原始數(shù)據(jù)集,總共包括110466個樣本數(shù)據(jù)集以及14個原始特征字段,由于是原始數(shù)據(jù)集,因而對數(shù)據(jù)集首先進行缺失數(shù)據(jù)和異常數(shù)據(jù)的檢驗和處理,例如對存在的年齡小于0的異常值進行...
【文章來源】:云南財經(jīng)大學云南省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
SMOTE人工合成新樣本
第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系
第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系
【參考文獻】:
期刊論文
[1]基于代價敏感不平衡數(shù)據(jù)流分類算法[J]. 孫艷歌,邵罕,楊艷聰. 信陽師范學院學報(自然科學版). 2019(04)
[2]不平衡數(shù)據(jù)分類研究及在疾病診斷中的應用[J]. 張濤. 黃河科技學院學報. 2019(05)
[3]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計算機工程與科學. 2019(06)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[5]代價敏感深度學習方法研究綜述[J]. 吳雨茜,王俊麗,楊麗,余淼淼. 計算機科學. 2019(05)
[6]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[7]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚帆,張海鵬,孫俊. 計算機工程與應用. 2019(16)
[8]網(wǎng)絡在線預約掛號系統(tǒng)用戶的爽約行為研究[J]. 顧東曉,李培培,楊雪潔. 情報科學. 2017(06)
[9]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權文. 控制與決策. 2012(02)
[10]醫(yī)院預約掛號爽約相關因素調(diào)查分析[J]. 白冰,張英蓮. 貴陽醫(yī)學院學報. 2011(03)
博士論文
[1]不平衡網(wǎng)絡異常數(shù)據(jù)代價敏感特征及實例選擇[D]. 邊婧.太原理工大學 2016
[2]面向互聯(lián)網(wǎng)應用的不平衡數(shù)據(jù)分類技術研究[D]. 李虎.國防科學技術大學 2016
[3]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學 2014
[4]針對類別不平衡和代價敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學技術大學 2013
碩士論文
[1]不平衡數(shù)據(jù)集的分類方法研究[D]. 劉勝蘭.北京郵電大學 2019
[2]基于算法融合的客戶流失預測方法研究[D]. 趙婷婷.東北財經(jīng)大學 2018
[3]基于kNN-Smote-LSTM的信用卡欺詐風險檢測網(wǎng)絡模型[D]. 陳冠宇.浙江工商大學 2018
[4]數(shù)據(jù)挖掘分類算法的改進研究[D]. 陳潔.南京郵電大學 2018
[5]非平衡數(shù)據(jù)集分類算法的改進和并行化研究[D]. 王莉.西南交通大學 2018
[6]混合采樣方法的研究及其在醫(yī)療問答系統(tǒng)中的應用[D]. 張麗霞.鄭州大學 2018
[7]非均衡分類的集成學習應用研究[D]. 從威.南京信息工程大學 2017
[8]關聯(lián)分類改進及不平衡數(shù)據(jù)分類算法研究[D]. 王衛(wèi)平.閩南師范大學 2016
[9]利用Logistic模型對預約掛號爽約行為的研究[D]. 原續(xù)菲.昆明理工大學 2016
本文編號:3380798
【文章來源】:云南財經(jīng)大學云南省
【文章頁數(shù)】:82 頁
【學位級別】:碩士
【部分圖文】:
SMOTE人工合成新樣本
第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系
第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系
【參考文獻】:
期刊論文
[1]基于代價敏感不平衡數(shù)據(jù)流分類算法[J]. 孫艷歌,邵罕,楊艷聰. 信陽師范學院學報(自然科學版). 2019(04)
[2]不平衡數(shù)據(jù)分類研究及在疾病診斷中的應用[J]. 張濤. 黃河科技學院學報. 2019(05)
[3]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計算機工程與科學. 2019(06)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計算機應用. 2019(09)
[5]代價敏感深度學習方法研究綜述[J]. 吳雨茜,王俊麗,楊麗,余淼淼. 計算機科學. 2019(05)
[6]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[7]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚帆,張海鵬,孫俊. 計算機工程與應用. 2019(16)
[8]網(wǎng)絡在線預約掛號系統(tǒng)用戶的爽約行為研究[J]. 顧東曉,李培培,楊雪潔. 情報科學. 2017(06)
[9]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權文. 控制與決策. 2012(02)
[10]醫(yī)院預約掛號爽約相關因素調(diào)查分析[J]. 白冰,張英蓮. 貴陽醫(yī)學院學報. 2011(03)
博士論文
[1]不平衡網(wǎng)絡異常數(shù)據(jù)代價敏感特征及實例選擇[D]. 邊婧.太原理工大學 2016
[2]面向互聯(lián)網(wǎng)應用的不平衡數(shù)據(jù)分類技術研究[D]. 李虎.國防科學技術大學 2016
[3]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學 2014
[4]針對類別不平衡和代價敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學技術大學 2013
碩士論文
[1]不平衡數(shù)據(jù)集的分類方法研究[D]. 劉勝蘭.北京郵電大學 2019
[2]基于算法融合的客戶流失預測方法研究[D]. 趙婷婷.東北財經(jīng)大學 2018
[3]基于kNN-Smote-LSTM的信用卡欺詐風險檢測網(wǎng)絡模型[D]. 陳冠宇.浙江工商大學 2018
[4]數(shù)據(jù)挖掘分類算法的改進研究[D]. 陳潔.南京郵電大學 2018
[5]非平衡數(shù)據(jù)集分類算法的改進和并行化研究[D]. 王莉.西南交通大學 2018
[6]混合采樣方法的研究及其在醫(yī)療問答系統(tǒng)中的應用[D]. 張麗霞.鄭州大學 2018
[7]非均衡分類的集成學習應用研究[D]. 從威.南京信息工程大學 2017
[8]關聯(lián)分類改進及不平衡數(shù)據(jù)分類算法研究[D]. 王衛(wèi)平.閩南師范大學 2016
[9]利用Logistic模型對預約掛號爽約行為的研究[D]. 原續(xù)菲.昆明理工大學 2016
本文編號:3380798
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3380798.html
最近更新
教材專著