【摘要】:目的:肝性腦病是肝硬化最常見的并發(fā)癥之一,臨床表現(xiàn)復(fù)雜多變、治愈率低、預(yù)后差,已成為導(dǎo)致肝硬化患者生存率低的重要原因,因此針對(duì)肝硬化患者構(gòu)建肝性腦病風(fēng)險(xiǎn)預(yù)測(cè)模型顯得極為重要。同時(shí),肝硬化并發(fā)肝性腦病數(shù)據(jù)具有類別非均衡的特征,傳統(tǒng)統(tǒng)計(jì)學(xué)方法與機(jī)器學(xué)習(xí)算法存在著無法有效識(shí)別少數(shù)類,預(yù)測(cè)性能欠佳的問題。因此,本課題針對(duì)上述問題,采用基于代價(jià)敏感的隨機(jī)森林與支持向量機(jī)算法構(gòu)建肝硬化并發(fā)肝性腦病風(fēng)險(xiǎn)預(yù)測(cè)模型,以提高對(duì)肝硬化并發(fā)肝性腦病的預(yù)測(cè)效能,為臨床醫(yī)生識(shí)別肝性腦病高危人群,選擇合理的治療措施提供依據(jù),為其他疾病風(fēng)險(xiǎn)預(yù)測(cè)研究提供方法學(xué)借鑒。方法:采用2010年1月至2017年4月山西醫(yī)科大學(xué)第二附屬醫(yī)院消化內(nèi)科確診為肝硬化住院患者的病歷資料,按照納入排除標(biāo)準(zhǔn)整理數(shù)據(jù)資料后獲得1256例有效數(shù)據(jù)。利用單因素分析及基于隨機(jī)森林的受試者工作特征曲線下面積算法(The area under the receiver operating characteristic curve of the random forest,AUC-RF)的自變量篩選方法選出與肝硬化并發(fā)肝性腦病相關(guān)的因素。然后以篩選出的變量作為輸入變量,是否并發(fā)肝性腦病作為結(jié)局變量,構(gòu)建Logistic回歸、加權(quán)隨機(jī)森林(Weighted Random Forest,WRF)和基于代價(jià)敏感的支持向量機(jī)(Cost Sensitive Support Vector Machine,CS-SVM)分類預(yù)測(cè)模型,探討其分類預(yù)測(cè)性能,同時(shí)與傳統(tǒng)隨機(jī)森林、支持向量機(jī)分類預(yù)測(cè)模型的識(shí)別能力進(jìn)行比較。最后,采用Logistic回歸與WRF算法實(shí)現(xiàn)對(duì)肝硬化患者并發(fā)肝性腦病的概率預(yù)測(cè)。結(jié)果:1、通過單因素檢驗(yàn)與基于AUC-RF自變量篩選方法,篩選出與肝硬化并發(fā)肝性腦病相關(guān)的20個(gè)變量,分別為:便秘、浮腫、電解質(zhì)紊亂、上消化道出血、感染、利尿劑、白細(xì)胞、紅細(xì)胞、血紅蛋白、中性粒細(xì)胞百分比、谷草轉(zhuǎn)氨酶、鈉、氯、白蛋白、總蛋白、直接膽紅素、間接膽紅素、凝血酶原時(shí)間、纖維蛋白原和活化部分凝血活酶時(shí)間。將其作為輸入變量引入到Logistic回歸、WRF和CS-SVM算法,構(gòu)建出肝硬化并發(fā)肝性腦病風(fēng)險(xiǎn)預(yù)測(cè)模型。2、分類模型預(yù)測(cè)性能評(píng)價(jià):Logistic回歸分類預(yù)測(cè)模型評(píng)價(jià)指標(biāo)的中位數(shù)分別為:靈敏度70.00%,特異度83.38%,準(zhǔn)確度82.54%,G-means 0.7679,F-measure 0.3688,AUC值0.7721;WRF的分類預(yù)測(cè)模型評(píng)價(jià)指標(biāo)中位數(shù)分別為:靈敏度70.00%,特異度85.82%,準(zhǔn)確度84.69%,G-means 0.7739,F-measure 0.3930,AUC值0.7778;CS-SVM分類預(yù)測(cè)模型評(píng)價(jià)指標(biāo)中位數(shù)分別為:靈敏度71.66%,特異度82.99%,準(zhǔn)確度82.06%,G-means 0.7657,F-measure 0.3560,AUC值0.7688。3、分類模型預(yù)測(cè)性能比較:在同一數(shù)據(jù)集上構(gòu)建上述三種模型及傳統(tǒng)隨機(jī)森林、支持向量機(jī)分類預(yù)測(cè)模型,比較各指標(biāo)顯示:WRF、CS-SVM與Logistic回歸模型對(duì)并發(fā)肝性腦病患者的識(shí)別能力高于傳統(tǒng)機(jī)器學(xué)習(xí)模型(靈敏度高于70.00%),對(duì)未并發(fā)肝性腦病患者的識(shí)別能力略低于傳統(tǒng)模型(特異度約為85.00%),模型綜合評(píng)價(jià)指標(biāo)高于其他模型(G-means高于0.8000,F-measure高于0.4000)。WRF的三個(gè)指標(biāo)Gmeans(0.8221)、F-measure(0.4646)以及AUC(0.8241)均優(yōu)于Logistic回歸與CS-SVM模型。4、概率預(yù)測(cè)模型:WRF不僅可用于構(gòu)建肝硬化并發(fā)肝性腦病分類預(yù)測(cè)模型,同時(shí)也可較好地預(yù)測(cè)患者發(fā)病概率。結(jié)論:基于代價(jià)敏感的隨機(jī)森林與支持向量機(jī)算法可以彌補(bǔ)傳統(tǒng)機(jī)器學(xué)習(xí)在非均衡數(shù)據(jù)分類問題中的不足,提高模型對(duì)于此類數(shù)據(jù)的分類預(yù)測(cè)性能。在進(jìn)行肝硬化并發(fā)肝性腦病分類預(yù)測(cè)時(shí),基于代價(jià)敏感的隨機(jī)森林與支持向量機(jī)算法的預(yù)測(cè)性能高于其他模型,而且加權(quán)隨機(jī)森林可提供患者的發(fā)病概率,使得肝性腦病發(fā)生概率的估計(jì)更為直觀與高效。本文采用WRF與CS-SVM建立的分類與概率預(yù)測(cè)模型可幫助臨床醫(yī)生識(shí)別肝性腦病高;颊,對(duì)延長肝性腦病患者的生存期,提高其生存質(zhì)量具有重要的現(xiàn)實(shí)意義。
【學(xué)位授予單位】:山西醫(yī)科大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:R575.2;R575.3
【圖文】:
圖2-1支持向量與間隔式中被稱為“間隔”(margin),SVM的目標(biāo)是尋找具有“最大間隔”的劃分

軟間隔示意圖

隨機(jī)森林模型中自變量重要性對(duì)比
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 金宇;周可新;高吉喜;穆少杰;張小華;;基于隨機(jī)森林模型的國家重點(diǎn)保護(hù)陸生脊椎動(dòng)物物種優(yōu)先保護(hù)區(qū)的識(shí)別[J];生態(tài)學(xué)報(bào);2016年23期
2 曹文哲;應(yīng)俊;陳廣飛;周丹;;基于Logistic回歸和隨機(jī)森林算法的2型糖尿病并發(fā)視網(wǎng)膜病變風(fēng)險(xiǎn)預(yù)測(cè)及對(duì)比研究[J];中國醫(yī)療設(shè)備;2016年03期
3 弓孟春;陸亮;;醫(yī)學(xué)大數(shù)據(jù)研究進(jìn)展及應(yīng)用前景[J];醫(yī)學(xué)信息學(xué)雜志;2016年02期
4 Ji-Yao Wang;Ning-Ping Zhang;Bao-Rong Chi;Yu-Qing Mi;Li-Na Meng;Ying-Di Liu;Jiang-Bin Wang;Hai-Xing Jiang;Jin-Hui Yang;Yun Xu;Xiao Li;Jian-Ming Xu;Guo Zhang;Xin-Min Zhou;Yu-Zheng Zhuge;De-An Tian;Jin Ye;Yu-Lan Liu;;Prevalence of minimal hepatic encephalopathy and quality of life evaluations in hospitalized cirrhotic patients in China[J];World Journal of Gastroenterology;2013年30期
5 高憲超;陳一銘;俞志維;季彤;;基于數(shù)據(jù)挖掘技術(shù)的老年口腔癌患者圍術(shù)期并發(fā)癥發(fā)生概率評(píng)估系統(tǒng)的建立[J];中國口腔頜面外科雜志;2013年02期
6 陶新民;郝思媛;張冬雪;徐鵬;;不均衡數(shù)據(jù)分類算法的綜述[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年01期
7 谷瓊;袁磊;寧彬;吳釗;華麗;李文新;;一種基于混合重取樣策略的非均衡數(shù)據(jù)集分類算法[J];計(jì)算機(jī)工程與科學(xué);2012年10期
8 吳耿;李杰;楊文保;;基于代價(jià)敏感決策樹的網(wǎng)絡(luò)流量分類研究[J];電腦與信息技術(shù);2011年05期
9 李建更;高志坤;;隨機(jī)森林針對(duì)小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計(jì)算機(jī)工程與應(yīng)用;2009年26期
10 涂傳濤;張順財(cái);;肝性腦病的診斷方法及其研究進(jìn)展[J];實(shí)用肝臟病雜志;2009年02期
相關(guān)博士學(xué)位論文 前1條
1 錢云;非均衡數(shù)據(jù)分類算法若干應(yīng)用研究[D];吉林大學(xué);2014年
相關(guān)碩士學(xué)位論文 前4條
1 逄凱;三種機(jī)器學(xué)習(xí)方法在冠心病篩查中的比較研究[D];吉林大學(xué);2016年
2 黃衍;基于隨機(jī)森林的制造業(yè)上市公司財(cái)務(wù)預(yù)警模型研究[D];華東交通大學(xué);2013年
3 姚睿;基于代價(jià)敏感Boosting算法的醫(yī)學(xué)影像分析方法研究[D];上海交通大學(xué);2011年
4 尹建杰;Logistic回歸模型分析綜述及應(yīng)用研究[D];黑龍江大學(xué);2011年
本文編號(hào):
2754849
本文鏈接:http://sikaile.net/yixuelunwen/jjyx/2754849.html