基于集成學(xué)習(xí)與不平衡多標(biāo)簽數(shù)據(jù)集的兒科常見病預(yù)測模型構(gòu)建
發(fā)布時間:2020-05-26 05:54
【摘要】:對于疾病的預(yù)測常常需要收集一定量的臨床病歷作為數(shù)據(jù)集,將病歷中的癥狀描述作為實例特征,初步診斷作為疾病標(biāo)簽,并采用數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法來構(gòu)造疾病的預(yù)測模型。然而,醫(yī)學(xué)中的樣本數(shù)據(jù)經(jīng)常會存在不平衡的現(xiàn)象,由此產(chǎn)生模型預(yù)測效果不佳的問題。鑒于醫(yī)學(xué)數(shù)據(jù)集具有不平衡和多標(biāo)簽的特點(diǎn),本文將利用集成學(xué)習(xí)算法構(gòu)建一個兒科常見病的預(yù)測模型。文中對于兒科常見病的預(yù)測模型的構(gòu)建,采取過采樣與AdaBoost相結(jié)合并利用最大互信息生成樹的算法。具體表述為:首先采用BR策略對兒科常見病的實驗數(shù)據(jù)集拆分成每個標(biāo)簽所對應(yīng)的二分類數(shù)據(jù)集;其次針對每個二分類數(shù)據(jù)集,AdaBoost在其訓(xùn)練與迭代過程中不斷對少數(shù)類的可靠樣本在指定閾值內(nèi)進(jìn)行一定量的復(fù)制,因此構(gòu)成了所有單個疾病標(biāo)簽的預(yù)測模型,最后利用所有單個疾病標(biāo)簽預(yù)測模型的結(jié)果,并依據(jù)標(biāo)簽之間的最大互信息生成樹進(jìn)行預(yù)測。預(yù)測時需要遍歷生成樹,根據(jù)該結(jié)點(diǎn)的預(yù)測概率,父親結(jié)點(diǎn)的預(yù)測概率以及其與該結(jié)點(diǎn)之間互信息的乘積,選取其中的最大值并更新為該結(jié)點(diǎn)的預(yù)測概率,設(shè)定適當(dāng)閾值,把滿足條件的標(biāo)簽添加到標(biāo)簽的結(jié)果集中。實驗方面,兩類單個疾病標(biāo)簽的二分類數(shù)據(jù)集與三個不平衡的二分類公共數(shù)據(jù)集運(yùn)用不同的抽樣技術(shù)與單個疾病標(biāo)簽的預(yù)測模型進(jìn)行了對比,結(jié)果表明該模型的精確率、召回率和F1值均有不同程度的提升;而在文中的兒科常見病實驗數(shù)據(jù)集上,將兒科常見病的預(yù)測模型與主流的多標(biāo)簽算法ML-KNN等進(jìn)行了對比,實驗證明在三類評價指標(biāo)上,該模型優(yōu)于其他算法的效果,因此該算法在不平衡多標(biāo)簽的數(shù)據(jù)集上所構(gòu)造的兒科常見病的預(yù)測模型是相當(dāng)有效的。
【圖文】:
單標(biāo)簽與多標(biāo)簽圖片展示(a)二類分類圖片示例(b)多標(biāo)簽圖片示例
圖 2.2 SMOTE 算法的幾何示意圖綜上所述,SMOTE 方法是采取 鄰近算法來查找原始少數(shù)類中合適的樣本點(diǎn)成樣本點(diǎn)提供了近鄰樣本點(diǎn)。 鄰近的自身屬性是一種以度量距離為規(guī)則,并中兩兩之間的間距。若為數(shù)值屬性,一般采用歐式距離;若為非數(shù)值屬性,,則數(shù)值度量規(guī)則去判定。
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:R72;TP181
本文編號:2681382
【圖文】:
單標(biāo)簽與多標(biāo)簽圖片展示(a)二類分類圖片示例(b)多標(biāo)簽圖片示例
圖 2.2 SMOTE 算法的幾何示意圖綜上所述,SMOTE 方法是采取 鄰近算法來查找原始少數(shù)類中合適的樣本點(diǎn)成樣本點(diǎn)提供了近鄰樣本點(diǎn)。 鄰近的自身屬性是一種以度量距離為規(guī)則,并中兩兩之間的間距。若為數(shù)值屬性,一般采用歐式距離;若為非數(shù)值屬性,,則數(shù)值度量規(guī)則去判定。
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:R72;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 郭喬進(jìn);李立斌;李寧;;一種用于不平衡數(shù)據(jù)分類的改進(jìn)AdaBoost算法[J];計算機(jī)工程與應(yīng)用;2008年21期
2 劉胥影;吳建鑫;周志華;;一種基于級聯(lián)模型的類別不平衡數(shù)據(jù)分類方法[J];南京大學(xué)學(xué)報(自然科學(xué)版);2006年02期
本文編號:2681382
本文鏈接:http://sikaile.net/yixuelunwen/eklw/2681382.html
最近更新
教材專著