基于不平衡數(shù)據(jù)集的分類問題研究
發(fā)布時(shí)間:2021-09-03 08:44
信息技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)平臺(tái)的普及,使得互聯(lián)網(wǎng)+各種傳統(tǒng)行業(yè)可以得到更加深入的融合與應(yīng)用,利用以往的歷史數(shù)據(jù)可以更好的為各行各業(yè)服務(wù),而現(xiàn)實(shí)生活當(dāng)中,我們會(huì)發(fā)現(xiàn)在眾多的數(shù)據(jù)集當(dāng)中往往會(huì)存在數(shù)據(jù)不平衡的現(xiàn)象,也就是多數(shù)類樣本和少數(shù)類樣本存在著較為嚴(yán)重的不平衡現(xiàn)象,而通常我們所要研究關(guān)注的重點(diǎn)在于少數(shù)類樣本,例如在醫(yī)療領(lǐng)域,患癌患者只占到總體樣本的少數(shù),而如果忽視或者誤判這些少數(shù)類樣本,那么無論對(duì)于個(gè)人、家庭還是整個(gè)社會(huì)而言,產(chǎn)生的損失以及負(fù)面影響是遠(yuǎn)遠(yuǎn)高于多數(shù)類的影響程度。而在以往傳統(tǒng)的分類器學(xué)習(xí)當(dāng)中,對(duì)于二分類問題,往往是將總體的分類準(zhǔn)確率作為最重要的評(píng)價(jià)指標(biāo),然而這種評(píng)價(jià)方法在不平衡數(shù)據(jù)當(dāng)中通常會(huì)導(dǎo)致分類學(xué)習(xí)器會(huì)向多數(shù)類樣本進(jìn)行偏袒,從而提高整體樣本的分類準(zhǔn)確率,降低了對(duì)于少數(shù)類的識(shí)別率,而少數(shù)類樣本往往是關(guān)注的重點(diǎn),因而這樣的評(píng)價(jià)指標(biāo)對(duì)于不平衡數(shù)據(jù)的分類預(yù)測(cè)往往是不太合理的。本文以俄亥俄州真實(shí)的醫(yī)院患者數(shù)據(jù)作為原始數(shù)據(jù)集,總共包括110466個(gè)樣本數(shù)據(jù)集以及14個(gè)原始特征字段,由于是原始數(shù)據(jù)集,因而對(duì)數(shù)據(jù)集首先進(jìn)行缺失數(shù)據(jù)和異常數(shù)據(jù)的檢驗(yàn)和處理,例如對(duì)存在的年齡小于0的異常值進(jìn)行...
【文章來源】:云南財(cái)經(jīng)大學(xué)云南省
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SMOTE人工合成新樣本
第三章數(shù)據(jù)預(yù)處理和特征選擇21圖3.1異常值檢驗(yàn)但是鑒于只有一名患者的年齡是小于0,對(duì)于整個(gè)樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時(shí)候造成的錯(cuò)誤,所以采取對(duì)該條記錄進(jìn)行刪除處理的策略,這對(duì)于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達(dá)3539名,通過以往的經(jīng)驗(yàn)可以猜測(cè)到這些年齡為0歲的患者應(yīng)該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實(shí)了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個(gè)年齡段的患者頻數(shù)進(jìn)行相應(yīng)的統(tǒng)計(jì)分析,得到了如下的可視化結(jié)果:圖3.2各年齡段患者頻數(shù)統(tǒng)計(jì)圖3.3是否爽約和年齡段關(guān)系
第三章數(shù)據(jù)預(yù)處理和特征選擇21圖3.1異常值檢驗(yàn)但是鑒于只有一名患者的年齡是小于0,對(duì)于整個(gè)樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時(shí)候造成的錯(cuò)誤,所以采取對(duì)該條記錄進(jìn)行刪除處理的策略,這對(duì)于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達(dá)3539名,通過以往的經(jīng)驗(yàn)可以猜測(cè)到這些年齡為0歲的患者應(yīng)該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實(shí)了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個(gè)年齡段的患者頻數(shù)進(jìn)行相應(yīng)的統(tǒng)計(jì)分析,得到了如下的可視化結(jié)果:圖3.2各年齡段患者頻數(shù)統(tǒng)計(jì)圖3.3是否爽約和年齡段關(guān)系
【參考文獻(xiàn)】:
期刊論文
[1]基于代價(jià)敏感不平衡數(shù)據(jù)流分類算法[J]. 孫艷歌,邵罕,楊艷聰. 信陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(04)
[2]不平衡數(shù)據(jù)分類研究及在疾病診斷中的應(yīng)用[J]. 張濤. 黃河科技學(xué)院學(xué)報(bào). 2019(05)
[3]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計(jì)算機(jī)工程與科學(xué). 2019(06)
[4]改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計(jì)算機(jī)應(yīng)用. 2019(09)
[5]代價(jià)敏感深度學(xué)習(xí)方法研究綜述[J]. 吳雨茜,王俊麗,楊麗,余淼淼. 計(jì)算機(jī)科學(xué). 2019(05)
[6]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[7]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚(yáng)帆,張海鵬,孫俊. 計(jì)算機(jī)工程與應(yīng)用. 2019(16)
[8]網(wǎng)絡(luò)在線預(yù)約掛號(hào)系統(tǒng)用戶的爽約行為研究[J]. 顧東曉,李培培,楊雪潔. 情報(bào)科學(xué). 2017(06)
[9]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[10]醫(yī)院預(yù)約掛號(hào)爽約相關(guān)因素調(diào)查分析[J]. 白冰,張英蓮. 貴陽醫(yī)學(xué)院學(xué)報(bào). 2011(03)
博士論文
[1]不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價(jià)敏感特征及實(shí)例選擇[D]. 邊婧.太原理工大學(xué) 2016
[2]面向互聯(lián)網(wǎng)應(yīng)用的不平衡數(shù)據(jù)分類技術(shù)研究[D]. 李虎.國防科學(xué)技術(shù)大學(xué) 2016
[3]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學(xué) 2014
[4]針對(duì)類別不平衡和代價(jià)敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學(xué)技術(shù)大學(xué) 2013
碩士論文
[1]不平衡數(shù)據(jù)集的分類方法研究[D]. 劉勝蘭.北京郵電大學(xué) 2019
[2]基于算法融合的客戶流失預(yù)測(cè)方法研究[D]. 趙婷婷.東北財(cái)經(jīng)大學(xué) 2018
[3]基于kNN-Smote-LSTM的信用卡欺詐風(fēng)險(xiǎn)檢測(cè)網(wǎng)絡(luò)模型[D]. 陳冠宇.浙江工商大學(xué) 2018
[4]數(shù)據(jù)挖掘分類算法的改進(jìn)研究[D]. 陳潔.南京郵電大學(xué) 2018
[5]非平衡數(shù)據(jù)集分類算法的改進(jìn)和并行化研究[D]. 王莉.西南交通大學(xué) 2018
[6]混合采樣方法的研究及其在醫(yī)療問答系統(tǒng)中的應(yīng)用[D]. 張麗霞.鄭州大學(xué) 2018
[7]非均衡分類的集成學(xué)習(xí)應(yīng)用研究[D]. 從威.南京信息工程大學(xué) 2017
[8]關(guān)聯(lián)分類改進(jìn)及不平衡數(shù)據(jù)分類算法研究[D]. 王衛(wèi)平.閩南師范大學(xué) 2016
[9]利用Logistic模型對(duì)預(yù)約掛號(hào)爽約行為的研究[D]. 原續(xù)菲.昆明理工大學(xué) 2016
本文編號(hào):3380798
【文章來源】:云南財(cái)經(jīng)大學(xué)云南省
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SMOTE人工合成新樣本
第三章數(shù)據(jù)預(yù)處理和特征選擇21圖3.1異常值檢驗(yàn)但是鑒于只有一名患者的年齡是小于0,對(duì)于整個(gè)樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時(shí)候造成的錯(cuò)誤,所以采取對(duì)該條記錄進(jìn)行刪除處理的策略,這對(duì)于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達(dá)3539名,通過以往的經(jīng)驗(yàn)可以猜測(cè)到這些年齡為0歲的患者應(yīng)該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實(shí)了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個(gè)年齡段的患者頻數(shù)進(jìn)行相應(yīng)的統(tǒng)計(jì)分析,得到了如下的可視化結(jié)果:圖3.2各年齡段患者頻數(shù)統(tǒng)計(jì)圖3.3是否爽約和年齡段關(guān)系
第三章數(shù)據(jù)預(yù)處理和特征選擇21圖3.1異常值檢驗(yàn)但是鑒于只有一名患者的年齡是小于0,對(duì)于整個(gè)樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時(shí)候造成的錯(cuò)誤,所以采取對(duì)該條記錄進(jìn)行刪除處理的策略,這對(duì)于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達(dá)3539名,通過以往的經(jīng)驗(yàn)可以猜測(cè)到這些年齡為0歲的患者應(yīng)該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實(shí)了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個(gè)年齡段的患者頻數(shù)進(jìn)行相應(yīng)的統(tǒng)計(jì)分析,得到了如下的可視化結(jié)果:圖3.2各年齡段患者頻數(shù)統(tǒng)計(jì)圖3.3是否爽約和年齡段關(guān)系
【參考文獻(xiàn)】:
期刊論文
[1]基于代價(jià)敏感不平衡數(shù)據(jù)流分類算法[J]. 孫艷歌,邵罕,楊艷聰. 信陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版). 2019(04)
[2]不平衡數(shù)據(jù)分類研究及在疾病診斷中的應(yīng)用[J]. 張濤. 黃河科技學(xué)院學(xué)報(bào). 2019(05)
[3]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平. 計(jì)算機(jī)工程與科學(xué). 2019(06)
[4]改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟. 計(jì)算機(jī)應(yīng)用. 2019(09)
[5]代價(jià)敏感深度學(xué)習(xí)方法研究綜述[J]. 吳雨茜,王俊麗,楊麗,余淼淼. 計(jì)算機(jī)科學(xué). 2019(05)
[6]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強(qiáng),尹宏鵬. 控制與決策. 2019(04)
[7]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚(yáng)帆,張海鵬,孫俊. 計(jì)算機(jī)工程與應(yīng)用. 2019(16)
[8]網(wǎng)絡(luò)在線預(yù)約掛號(hào)系統(tǒng)用戶的爽約行為研究[J]. 顧東曉,李培培,楊雪潔. 情報(bào)科學(xué). 2017(06)
[9]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
[10]醫(yī)院預(yù)約掛號(hào)爽約相關(guān)因素調(diào)查分析[J]. 白冰,張英蓮. 貴陽醫(yī)學(xué)院學(xué)報(bào). 2011(03)
博士論文
[1]不平衡網(wǎng)絡(luò)異常數(shù)據(jù)代價(jià)敏感特征及實(shí)例選擇[D]. 邊婧.太原理工大學(xué) 2016
[2]面向互聯(lián)網(wǎng)應(yīng)用的不平衡數(shù)據(jù)分類技術(shù)研究[D]. 李虎.國防科學(xué)技術(shù)大學(xué) 2016
[3]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學(xué) 2014
[4]針對(duì)類別不平衡和代價(jià)敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學(xué)技術(shù)大學(xué) 2013
碩士論文
[1]不平衡數(shù)據(jù)集的分類方法研究[D]. 劉勝蘭.北京郵電大學(xué) 2019
[2]基于算法融合的客戶流失預(yù)測(cè)方法研究[D]. 趙婷婷.東北財(cái)經(jīng)大學(xué) 2018
[3]基于kNN-Smote-LSTM的信用卡欺詐風(fēng)險(xiǎn)檢測(cè)網(wǎng)絡(luò)模型[D]. 陳冠宇.浙江工商大學(xué) 2018
[4]數(shù)據(jù)挖掘分類算法的改進(jìn)研究[D]. 陳潔.南京郵電大學(xué) 2018
[5]非平衡數(shù)據(jù)集分類算法的改進(jìn)和并行化研究[D]. 王莉.西南交通大學(xué) 2018
[6]混合采樣方法的研究及其在醫(yī)療問答系統(tǒng)中的應(yīng)用[D]. 張麗霞.鄭州大學(xué) 2018
[7]非均衡分類的集成學(xué)習(xí)應(yīng)用研究[D]. 從威.南京信息工程大學(xué) 2017
[8]關(guān)聯(lián)分類改進(jìn)及不平衡數(shù)據(jù)分類算法研究[D]. 王衛(wèi)平.閩南師范大學(xué) 2016
[9]利用Logistic模型對(duì)預(yù)約掛號(hào)爽約行為的研究[D]. 原續(xù)菲.昆明理工大學(xué) 2016
本文編號(hào):3380798
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3380798.html
最近更新
教材專著