天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于不平衡數(shù)據(jù)集的分類問題研究

發(fā)布時間:2021-09-03 08:44
  信息技術的高速發(fā)展和互聯(lián)網(wǎng)平臺的普及,使得互聯(lián)網(wǎng)+各種傳統(tǒng)行業(yè)可以得到更加深入的融合與應用,利用以往的歷史數(shù)據(jù)可以更好的為各行各業(yè)服務,而現(xiàn)實生活當中,我們會發(fā)現(xiàn)在眾多的數(shù)據(jù)集當中往往會存在數(shù)據(jù)不平衡的現(xiàn)象,也就是多數(shù)類樣本和少數(shù)類樣本存在著較為嚴重的不平衡現(xiàn)象,而通常我們所要研究關注的重點在于少數(shù)類樣本,例如在醫(yī)療領域,患癌患者只占到總體樣本的少數(shù),而如果忽視或者誤判這些少數(shù)類樣本,那么無論對于個人、家庭還是整個社會而言,產(chǎn)生的損失以及負面影響是遠遠高于多數(shù)類的影響程度。而在以往傳統(tǒng)的分類器學習當中,對于二分類問題,往往是將總體的分類準確率作為最重要的評價指標,然而這種評價方法在不平衡數(shù)據(jù)當中通常會導致分類學習器會向多數(shù)類樣本進行偏袒,從而提高整體樣本的分類準確率,降低了對于少數(shù)類的識別率,而少數(shù)類樣本往往是關注的重點,因而這樣的評價指標對于不平衡數(shù)據(jù)的分類預測往往是不太合理的。本文以俄亥俄州真實的醫(yī)院患者數(shù)據(jù)作為原始數(shù)據(jù)集,總共包括110466個樣本數(shù)據(jù)集以及14個原始特征字段,由于是原始數(shù)據(jù)集,因而對數(shù)據(jù)集首先進行缺失數(shù)據(jù)和異常數(shù)據(jù)的檢驗和處理,例如對存在的年齡小于0的異常值進行... 

【文章來源】:云南財經(jīng)大學云南省

【文章頁數(shù)】:82 頁

【學位級別】:碩士

【部分圖文】:

基于不平衡數(shù)據(jù)集的分類問題研究


SMOTE人工合成新樣本

異常值,患者,年齡段


第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系

頻數(shù)圖,年齡段,頻數(shù),患者


第三章數(shù)據(jù)預處理和特征選擇21圖3.1異常值檢驗但是鑒于只有一名患者的年齡是小于0,對于整個樣本數(shù)據(jù)集而言,這樣一條數(shù)據(jù)的占比微乎其微,因此我們就假定這可能是由于人工輸入數(shù)據(jù)的時候造成的錯誤,所以采取對該條記錄進行刪除處理的策略,這對于整體的數(shù)據(jù)分析幾乎沒有什么影響。而且我們發(fā)現(xiàn)在患者中年齡為0歲的患者高達3539名,通過以往的經(jīng)驗可以猜測到這些年齡為0歲的患者應該指的是未滿周歲的嬰兒,而查閱了kaggle數(shù)據(jù)的出處背景,也同樣證實了這一猜想是正確的。為了更加清楚直白的看到來醫(yī)院就診患者的年齡分布情況,我們將各個年齡段的患者頻數(shù)進行相應的統(tǒng)計分析,得到了如下的可視化結果:圖3.2各年齡段患者頻數(shù)統(tǒng)計圖3.3是否爽約和年齡段關系

【參考文獻】:
期刊論文
[1]基于代價敏感不平衡數(shù)據(jù)流分類算法[J]. 孫艷歌,邵罕,楊艷聰.  信陽師范學院學報(自然科學版). 2019(04)
[2]不平衡數(shù)據(jù)分類研究及在疾病診斷中的應用[J]. 張濤.  黃河科技學院學報. 2019(05)
[3]基于概率閾值Bagging算法的不平衡數(shù)據(jù)分類方法[J]. 張忠林,吳擋平.  計算機工程與科學. 2019(06)
[4]改進SMOTE的不平衡數(shù)據(jù)集成分類算法[J]. 王忠震,黃勃,方志軍,高永彬,張娟.  計算機應用. 2019(09)
[5]代價敏感深度學習方法研究綜述[J]. 吳雨茜,王俊麗,楊麗,余淼淼.  計算機科學. 2019(05)
[6]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬.  控制與決策. 2019(04)
[7]基于Lévy分布的不平衡數(shù)據(jù)過采樣方法[J]. 張揚帆,張海鵬,孫俊.  計算機工程與應用. 2019(16)
[8]網(wǎng)絡在線預約掛號系統(tǒng)用戶的爽約行為研究[J]. 顧東曉,李培培,楊雪潔.  情報科學. 2017(06)
[9]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權文.  控制與決策. 2012(02)
[10]醫(yī)院預約掛號爽約相關因素調(diào)查分析[J]. 白冰,張英蓮.  貴陽醫(yī)學院學報. 2011(03)

博士論文
[1]不平衡網(wǎng)絡異常數(shù)據(jù)代價敏感特征及實例選擇[D]. 邊婧.太原理工大學 2016
[2]面向互聯(lián)網(wǎng)應用的不平衡數(shù)據(jù)分類技術研究[D]. 李虎.國防科學技術大學 2016
[3]不均衡數(shù)據(jù)分類方法的研究[D]. 曹鵬.東北大學 2014
[4]針對類別不平衡和代價敏感分類問題的特征選擇和分類算法[D]. 王瑞.中國科學技術大學 2013

碩士論文
[1]不平衡數(shù)據(jù)集的分類方法研究[D]. 劉勝蘭.北京郵電大學 2019
[2]基于算法融合的客戶流失預測方法研究[D]. 趙婷婷.東北財經(jīng)大學 2018
[3]基于kNN-Smote-LSTM的信用卡欺詐風險檢測網(wǎng)絡模型[D]. 陳冠宇.浙江工商大學 2018
[4]數(shù)據(jù)挖掘分類算法的改進研究[D]. 陳潔.南京郵電大學 2018
[5]非平衡數(shù)據(jù)集分類算法的改進和并行化研究[D]. 王莉.西南交通大學 2018
[6]混合采樣方法的研究及其在醫(yī)療問答系統(tǒng)中的應用[D]. 張麗霞.鄭州大學 2018
[7]非均衡分類的集成學習應用研究[D]. 從威.南京信息工程大學 2017
[8]關聯(lián)分類改進及不平衡數(shù)據(jù)分類算法研究[D]. 王衛(wèi)平.閩南師范大學 2016
[9]利用Logistic模型對預約掛號爽約行為的研究[D]. 原續(xù)菲.昆明理工大學 2016



本文編號:3380798

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3380798.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶4027c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
成人午夜在线视频观看| 五月天婷亚洲天婷综合网| 好吊日在线视频免费观看| 好吊日在线观看免费视频| 激情内射日本一区二区三区| 欧美日韩人妻中文一区二区| 99久久精品久久免费| 亚洲精品成人福利在线| 国产精品一区二区三区日韩av| 国产一区二区不卡在线播放| 国产精品久久熟女吞精| 亚洲伦理中文字幕在线观看| 欧美一区二区三区十区| 日本丰满大奶熟女一区二区| 欧美美女视频在线免费看| 99精品国产一区二区青青| 国产午夜福利一区二区| 国产二级一级内射视频播放| 99一级特黄色性生活片| 日本加勒比系列在线播放| 91欧美日韩国产在线观看| 久草精品视频精品视频精品 | 精品人妻一区二区四区| 激情内射日本一区二区三区| 91久久国产福利自产拍| 能在线看的视频你懂的| 午夜传媒视频免费在线观看| 亚洲一区二区福利在线| 日韩欧美中文字幕av| 色哟哟在线免费一区二区三区| 欧美精品亚洲精品日韩专区| 日本加勒比在线观看不卡| 99久久国产综合精品二区| 久久免费精品拍拍一区二区| 久久亚洲精品成人国产| 欧美人妻盗摄日韩偷拍| 国产又长又粗又爽免费视频 | 欧美人妻免费一区二区三区| 国产又大又硬又粗又黄| 欧美丰满大屁股一区二区三区| 欧美偷拍一区二区三区四区|