天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 醫(yī)學論文 > 兒科論文 >

基于集成學習與不平衡多標簽數(shù)據(jù)集的兒科常見病預(yù)測模型構(gòu)建

發(fā)布時間:2020-05-26 05:54
【摘要】:對于疾病的預(yù)測常常需要收集一定量的臨床病歷作為數(shù)據(jù)集,將病歷中的癥狀描述作為實例特征,初步診斷作為疾病標簽,并采用數(shù)據(jù)挖掘與機器學習算法來構(gòu)造疾病的預(yù)測模型。然而,醫(yī)學中的樣本數(shù)據(jù)經(jīng)常會存在不平衡的現(xiàn)象,由此產(chǎn)生模型預(yù)測效果不佳的問題。鑒于醫(yī)學數(shù)據(jù)集具有不平衡和多標簽的特點,本文將利用集成學習算法構(gòu)建一個兒科常見病的預(yù)測模型。文中對于兒科常見病的預(yù)測模型的構(gòu)建,采取過采樣與AdaBoost相結(jié)合并利用最大互信息生成樹的算法。具體表述為:首先采用BR策略對兒科常見病的實驗數(shù)據(jù)集拆分成每個標簽所對應(yīng)的二分類數(shù)據(jù)集;其次針對每個二分類數(shù)據(jù)集,AdaBoost在其訓練與迭代過程中不斷對少數(shù)類的可靠樣本在指定閾值內(nèi)進行一定量的復(fù)制,因此構(gòu)成了所有單個疾病標簽的預(yù)測模型,最后利用所有單個疾病標簽預(yù)測模型的結(jié)果,并依據(jù)標簽之間的最大互信息生成樹進行預(yù)測。預(yù)測時需要遍歷生成樹,根據(jù)該結(jié)點的預(yù)測概率,父親結(jié)點的預(yù)測概率以及其與該結(jié)點之間互信息的乘積,選取其中的最大值并更新為該結(jié)點的預(yù)測概率,設(shè)定適當閾值,把滿足條件的標簽添加到標簽的結(jié)果集中。實驗方面,兩類單個疾病標簽的二分類數(shù)據(jù)集與三個不平衡的二分類公共數(shù)據(jù)集運用不同的抽樣技術(shù)與單個疾病標簽的預(yù)測模型進行了對比,結(jié)果表明該模型的精確率、召回率和F1值均有不同程度的提升;而在文中的兒科常見病實驗數(shù)據(jù)集上,將兒科常見病的預(yù)測模型與主流的多標簽算法ML-KNN等進行了對比,實驗證明在三類評價指標上,該模型優(yōu)于其他算法的效果,因此該算法在不平衡多標簽的數(shù)據(jù)集上所構(gòu)造的兒科常見病的預(yù)測模型是相當有效的。
【圖文】:

分類圖,圖片展示,示例,分類圖


單標簽與多標簽圖片展示(a)二類分類圖片示例(b)多標簽圖片示例

示意圖,示意圖,樣本點,屬性


圖 2.2 SMOTE 算法的幾何示意圖綜上所述,SMOTE 方法是采取 鄰近算法來查找原始少數(shù)類中合適的樣本點成樣本點提供了近鄰樣本點。 鄰近的自身屬性是一種以度量距離為規(guī)則,并中兩兩之間的間距。若為數(shù)值屬性,一般采用歐式距離;若為非數(shù)值屬性,,則數(shù)值度量規(guī)則去判定。
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R72;TP181

【參考文獻】

相關(guān)期刊論文 前2條

1 郭喬進;李立斌;李寧;;一種用于不平衡數(shù)據(jù)分類的改進AdaBoost算法[J];計算機工程與應(yīng)用;2008年21期

2 劉胥影;吳建鑫;周志華;;一種基于級聯(lián)模型的類別不平衡數(shù)據(jù)分類方法[J];南京大學學報(自然科學版);2006年02期



本文編號:2681382

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/eklw/2681382.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9146c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com