基于梯度提升決策樹(shù)的患者30天再入院預(yù)測(cè)模型研究
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:R197.3
【圖文】:
數(shù)類的樣本由于其數(shù)據(jù)量較少,導(dǎo)致算法的分類結(jié)果偏向多數(shù)類的樣本,從得該算法不能夠有效的對(duì)少數(shù)類樣本進(jìn)行判斷。為此,本文主要研究怎樣通不平衡再入院數(shù)據(jù)進(jìn)行處理的操作,從而使得算法可以對(duì)再入院患者的識(shí)別達(dá)到最優(yōu)。.2 國(guó)內(nèi)外的研究現(xiàn)狀導(dǎo)致再入院的原因是多種多樣的,目前大量研究發(fā)現(xiàn)年齡、種族、是否經(jīng)行醫(yī)療健康檢查、是否進(jìn)行過(guò)手術(shù)、合并癥類型、上次住院時(shí)間、上一年是入院、藥物使用情況等多種因素對(duì)再入院都存在影響(圖 1)[7]。因此,只醫(yī)生的臨床專業(yè)知識(shí)或者醫(yī)院管理者的經(jīng)驗(yàn)對(duì)再次入院風(fēng)險(xiǎn)進(jìn)行評(píng)估,這都較有難度的。同時(shí)對(duì)再入院進(jìn)行預(yù)測(cè)評(píng)估目前的主流方法分為兩種,一是采統(tǒng)的統(tǒng)計(jì)學(xué)方法,如線性回歸、邏輯回歸等;另一種是選用機(jī)器學(xué)習(xí)的方化預(yù)測(cè)模型特征參數(shù),利用 SVM、樸素貝葉斯、決策樹(shù)和深度神經(jīng)網(wǎng)絡(luò)等進(jìn)行再入院預(yù)測(cè),可以有效解決傳統(tǒng)方法的預(yù)測(cè)精度不足的問(wèn)題[8]。
昆明理工大學(xué)碩士學(xué)位論文④針對(duì)患者再入院預(yù)測(cè)研究中臨床數(shù)據(jù)特征屬性較多問(wèn)題,本文采用梯度提升決策樹(shù)算法對(duì)特征重要性進(jìn)行排序,然后選擇其中重要屬性參與模型構(gòu)建,降低模型的復(fù)雜度。同時(shí),在模型的參數(shù)選擇過(guò)程中,使用貝葉斯超參數(shù)優(yōu)化模型,可以有效提高模型的泛化能力。
圖 2.1 ROC 曲線ROC(receiver operating characteristic, 受試者工作曲線)曲線[36]常用找出真陽(yáng)性和避免假陽(yáng)性之間的權(quán)衡。其圖像如上圖所示,其中圖的橫坐測(cè)假陽(yáng)性數(shù)據(jù)的占比,而縱坐標(biāo)則表示為預(yù)測(cè)真陽(yáng)性的數(shù)據(jù)占比。因此曲線上的點(diǎn)則為不同假陽(yáng)性與真陽(yáng)性的比例表示。同時(shí)可以使用 ROC 曲面積來(lái)度量分類器的性能,因此 AUC 的值分布在 0.5 到 1.0 之間。2.2 決策樹(shù)2.2.1 決策樹(shù)算法決策樹(shù)算法是目前普遍使用的分類算法,由于訓(xùn)練過(guò)程中需要預(yù)先學(xué)標(biāo)簽,因此該算法屬于有監(jiān)督學(xué)習(xí)。按照數(shù)據(jù)的屬性使用樹(shù)狀結(jié)構(gòu)來(lái)構(gòu)建模型。于是,決策樹(shù)模型常用來(lái)解決分類和回歸問(wèn)題。常見(jiàn)的決策樹(shù)算CART、ID3 和 C4.5 等[37]。決策樹(shù)算法又是一系列的 If-Then 語(yǔ)句,既可以用于回歸問(wèn)題,也可
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙榮珍;王雪冬;鄧林峰;;基于PCA-KLFDA的小樣本故障數(shù)據(jù)集降維方法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年12期
2 趙永彬;陳碩;劉明;曹鵬;;基于置信度代價(jià)敏感的支持向量機(jī)不均衡數(shù)據(jù)學(xué)習(xí)[J];計(jì)算機(jī)工程;2015年10期
3 朱亞奇;鄧維斌;;一種基于不平衡數(shù)據(jù)的聚類抽樣方法[J];南京大學(xué)學(xué)報(bào)(自然科學(xué));2015年02期
4 鄭燕;王楊;郝青峰;甘振韜;;用于不平衡數(shù)據(jù)分類的代價(jià)敏感超網(wǎng)絡(luò)算法[J];計(jì)算機(jī)應(yīng)用;2014年05期
5 王超學(xué);張濤;馬春森;;面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J];計(jì)算機(jī)科學(xué)與探索;2014年06期
6 胡小生;張潤(rùn)晶;鐘勇;;兩層聚類的類別不平衡數(shù)據(jù)挖掘算法[J];計(jì)算機(jī)科學(xué);2013年11期
7 樓曉俊;孫雨軒;劉海濤;;聚類邊界過(guò)采樣不平衡數(shù)據(jù)分類方法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2013年06期
8 張永;李卓然;劉小丹;;基于主動(dòng)學(xué)習(xí)SMOTE的非均衡數(shù)據(jù)分類[J];計(jì)算機(jī)應(yīng)用與軟件;2012年03期
9 蔣盛益;苗邦;余雯;;基于一趟聚類的不平衡數(shù)據(jù)下抽樣算法[J];小型微型計(jì)算機(jī)系統(tǒng);2012年02期
10 蔣盛益;謝照青;余雯;;基于代價(jià)敏感的樸素貝葉斯不平衡數(shù)據(jù)分類研究[J];計(jì)算機(jī)研究與發(fā)展;2011年S1期
相關(guān)碩士學(xué)位論文 前3條
1 閆欣;綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D];東北電力大學(xué);2016年
2 朱春燕;心血管疾病患者再次入院風(fēng)險(xiǎn)評(píng)估系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年
3 韓曉敏;基于LGC算法的代價(jià)敏感分類方法研究[D];大連理工大學(xué);2015年
本文編號(hào):2792255
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2792255.html