【摘要】:目的:在醫(yī)學(xué)研究中,對(duì)于存在系統(tǒng)結(jié)構(gòu)特征的實(shí)際資料,往往采用混合線性模型進(jìn)行效應(yīng)估計(jì),但是對(duì)于進(jìn)一步探索患者亞組與治療方式間復(fù)雜的(高階)交互作用時(shí)則效率較低。而決策樹模型作為數(shù)據(jù)挖掘方法中的一種預(yù)測(cè)模型,具有較強(qiáng)的探索性能,可以同時(shí)分析多個(gè)預(yù)測(cè)變量,并且可以自動(dòng)檢測(cè)預(yù)測(cè)變量之間潛在的關(guān)系,對(duì)于醫(yī)學(xué)療效評(píng)價(jià)具有重要的意義。但是對(duì)于系統(tǒng)結(jié)構(gòu)數(shù)據(jù),傳統(tǒng)CART回歸樹模型估計(jì)效率低下,模型構(gòu)建準(zhǔn)確性較低,偏倚較大。因此提高回歸樹模型的擬合效果及預(yù)測(cè)性能是將其應(yīng)用在醫(yī)學(xué)系統(tǒng)結(jié)構(gòu)數(shù)據(jù)的重要前提。隨機(jī)效應(yīng)-最大期望回歸樹模型(Random Effect-Expectation Maximization Regression Tree,RE-EM)基于回歸樹模型和混合線性模型的思想,將隨機(jī)效應(yīng)從系統(tǒng)結(jié)構(gòu)數(shù)據(jù)中分離出來,從而提高回歸樹模型構(gòu)建的準(zhǔn)確性與預(yù)測(cè)性能。本研究旨在介紹并驗(yàn)證隨機(jī)效應(yīng)-最大期望回歸樹模型的原理,并通過模擬實(shí)驗(yàn)與傳統(tǒng)CART回歸樹模型進(jìn)行橫向?qū)Ρ。同時(shí),基于慢性乙型肝炎初治患者診療的真實(shí)數(shù)據(jù)進(jìn)行實(shí)證分析及模擬實(shí)驗(yàn),進(jìn)一步評(píng)價(jià)RE-EM回歸樹模型在不同數(shù)據(jù)結(jié)構(gòu)下的擬合效果及預(yù)測(cè)性能,為更精準(zhǔn)的醫(yī)學(xué)療效評(píng)價(jià)和回歸樹模型構(gòu)建提供方法學(xué)支持和模型選擇,為患者診療和干預(yù)提供方法學(xué)建議。方法:第一部分,設(shè)置隨機(jī)效應(yīng)及殘差協(xié)方差結(jié)構(gòu),生成三個(gè)終端節(jié)點(diǎn)的回歸樹模型模擬數(shù)據(jù),分別擬合RE-EM回歸樹模型與CART回歸樹模型,進(jìn)而評(píng)價(jià)兩種回歸樹模型在準(zhǔn)確性和偏倚方面的優(yōu)劣,驗(yàn)證RE-EM回歸樹模型對(duì)擬合系統(tǒng)結(jié)構(gòu)數(shù)據(jù)的適用性。第二部分,基于臨床HIS數(shù)據(jù)中的慢性乙型肝炎初治患者的抗病毒治療信息,分別擬合一般線性模型、混合線性模型、CART回歸樹模型以及RE-EM回歸樹模型,進(jìn)行抗病毒療效評(píng)估。第三部分,基于四種模型的慢乙肝抗病毒療效分析結(jié)果,探索不同參數(shù)(樣本量、時(shí)間點(diǎn)、殘差相關(guān)性、底層模型)條件下,RE-EM回歸樹模型的擬合效果及預(yù)測(cè)性能。如設(shè)定研究對(duì)象樣本量為50、100、200、500、1000,對(duì)應(yīng)時(shí)間點(diǎn)10、20、50、100。預(yù)測(cè)性能評(píng)價(jià)分為兩部分:(1)預(yù)測(cè)研究對(duì)象新觀測(cè),以研究對(duì)象前70%的觀測(cè)作為訓(xùn)練集,分別擬合四種模型,剩余的30%作為測(cè)試集,進(jìn)行模型預(yù)測(cè)性能評(píng)價(jià);(2)預(yù)測(cè)新研究對(duì)象,以70%的研究對(duì)象作為訓(xùn)練集,分別擬合四種模型,剩余的30%作為測(cè)試集,進(jìn)行模型預(yù)測(cè)性能評(píng)價(jià)。結(jié)果:第一部分結(jié)果顯示,在模型構(gòu)建的準(zhǔn)確性和擬合偏倚上,RE-EM回歸樹模型的表現(xiàn)優(yōu)于CART回歸樹模型。在不同數(shù)據(jù)結(jié)構(gòu)下,RE-EM回歸樹模型均能準(zhǔn)確構(gòu)建假定的回歸樹模型,而CART回歸樹模型對(duì)于系統(tǒng)結(jié)構(gòu)數(shù)據(jù)的擬合效果則不理想,MSE值較大,無法準(zhǔn)確構(gòu)建假定的回歸樹模型。第二部分結(jié)果顯示,在擬合適配度和偏倚上,混合線性模型的表現(xiàn)優(yōu)于一般線性模型。在基于一般線性模型的慢乙肝患者療效分析中,時(shí)依性ALT水平對(duì)結(jié)局定量HBV DNA檢測(cè)值的影響差異有統(tǒng)計(jì)學(xué)意義,而考慮了隨機(jī)效應(yīng)及殘差協(xié)方差結(jié)構(gòu)的混合線性模型則無該關(guān)系。在回歸樹模型的分析中,RE-EM回歸樹模型的MSE值最小,為0.8048,低于一般線性模型、混合線性模型及CART回歸樹模型。第三部分結(jié)果顯示,在模型擬合效果評(píng)價(jià)中,當(dāng)線性模擬數(shù)據(jù)不含隨機(jī)效應(yīng)時(shí),線性模型擬合效果優(yōu)于回歸樹模型,而對(duì)于非線性數(shù)據(jù),回歸樹模型的擬合效果則明顯優(yōu)于線性模型,其中RE-EM回歸樹模型的擬合效果與CART回歸樹模型相近。當(dāng)模擬數(shù)據(jù)為系統(tǒng)結(jié)構(gòu)數(shù)據(jù)時(shí),混合線性模型與RE-EM回歸樹模型的擬合效果相近,優(yōu)于一般線性模型和CART回歸樹模型。綜合各種情況,RE-EM回歸樹模型擬合效果較好,優(yōu)于CART回歸樹模型。在模型預(yù)測(cè)新觀測(cè)的性能評(píng)價(jià)中,對(duì)于具有系統(tǒng)結(jié)構(gòu)特征的線性模擬數(shù)據(jù),線性模型預(yù)測(cè)新觀測(cè)的性能明顯優(yōu)于回歸樹模型,其中RE-EM回歸樹模型的預(yù)測(cè)性能優(yōu)于CART回歸樹模型。對(duì)于具有系統(tǒng)結(jié)構(gòu)特征的非線性模擬數(shù)據(jù),RE-EM回歸樹模型與混合線性模型預(yù)測(cè)新觀測(cè)的性能最優(yōu),明顯優(yōu)于CART回歸樹模型,一般線性模型擬合效果最差。綜合各種情況,RE-EM回歸樹模型預(yù)測(cè)新觀測(cè)的性能較好,優(yōu)于CART回歸樹模型。在模型預(yù)測(cè)新對(duì)象的性能評(píng)價(jià)中,當(dāng)線性模擬數(shù)據(jù)不存在系統(tǒng)結(jié)構(gòu)特征時(shí),線性模型預(yù)測(cè)新對(duì)象的性能優(yōu)于回歸樹模型,當(dāng)非線性模擬數(shù)據(jù)不存在系統(tǒng)結(jié)構(gòu)特征時(shí),回歸樹模型預(yù)測(cè)新對(duì)象的性能優(yōu)于線性模型,與前述情況一致。而對(duì)于系統(tǒng)結(jié)構(gòu)數(shù)據(jù),RE-EM回歸樹模型預(yù)測(cè)新對(duì)象的性能始終最優(yōu)。綜合各種情況,RE-EM回歸樹模型預(yù)測(cè)新對(duì)象的性能較好。結(jié)論:對(duì)于系統(tǒng)結(jié)構(gòu)數(shù)據(jù),RE-EM回歸樹模型能夠有效地識(shí)別預(yù)測(cè)變量間潛在的聯(lián)系,提高模型的擬合效果,體現(xiàn)了RE-EM回歸模型在系統(tǒng)結(jié)構(gòu)數(shù)據(jù)中的適用性與可行性。從回歸樹模型的建模過程中可以看出,與線性模型相比,樹模型是由根節(jié)點(diǎn)到終端節(jié)點(diǎn)的路徑組成,類似于人的決策形式,其結(jié)果直觀簡(jiǎn)潔具有較強(qiáng)的解釋性。在本研究中,通過模擬實(shí)驗(yàn)和慢乙肝抗病毒療效評(píng)估,驗(yàn)證了RE-EM回歸樹模型對(duì)于醫(yī)學(xué)系統(tǒng)結(jié)構(gòu)數(shù)據(jù)分析的有效性。RE-EM回歸樹模型對(duì)于系統(tǒng)結(jié)構(gòu)數(shù)據(jù)的擬合效果及預(yù)測(cè)性能均優(yōu)于CART回歸樹模型。對(duì)于線性系統(tǒng)結(jié)構(gòu)數(shù)據(jù),RE-EM回歸樹模型預(yù)測(cè)新對(duì)象的性能接近甚至優(yōu)于混合線性模型。
【圖文】:
廣東藥科大學(xué)碩士研究生畢業(yè)論文 ( ) ∑ д ) 式(中 為每個(gè)葉節(jié)點(diǎn)的預(yù)測(cè)值。 為指示變量,取值為 0 或 1。 , 征空間或終端節(jié)點(diǎn),若自變量屬于哪一特征空間則 ,即取相應(yīng)

圖 2-2 特征空間劃分研究中構(gòu)建的 CART 回歸樹模型以及 RE-EM 回歸樹模型,,均及 REEMtree 包中的默認(rèn)設(shè)置,具體定義如下:生長(zhǎng)深度(the maximum depth),指的是決策樹模型的生長(zhǎng)點(diǎn)且不為空,則深度為 1,在本研究中設(shè)定為 30;參數(shù)(complexityparameter,cp),指的是決策樹模型每生長(zhǎng)的減少量,在本研究中設(shè)定最小 cp 值為 0.01,即當(dāng)模型相于 0.01,則樹停止生長(zhǎng);驗(yàn)證(cross validations, CV),在本研究中,采用 k 折交叉驗(yàn)ations)進(jìn)行回歸樹模型生長(zhǎng),其思想為將數(shù)據(jù)隨機(jī)分為 k 份訓(xùn)練集,余下的作為測(cè)試集,進(jìn)行 k 次模型擬合,求得每方殘差的平均值,在本研究中 k 折交叉驗(yàn)證設(shè)定為 10 折;樹模型的剪枝采用目前應(yīng)用較為廣泛的 1-SE 規(guī)則,此規(guī)則(通過交叉驗(yàn)證獲得)盡量小,但不一定取最小值,而是允+一個(gè)相應(yīng)標(biāo)準(zhǔn)差”的范圍內(nèi), 并在此范圍內(nèi)選取盡量小的復(fù)
【學(xué)位授予單位】:廣東藥科大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:O212.1;R195.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李偉南;林暢琪;廖海寧;潘敏儀;郜艷暉;周舒冬;;隨機(jī)效應(yīng)-最大期望回歸樹模型的模擬研究與評(píng)價(jià)[J];中國衛(wèi)生統(tǒng)計(jì);2019年05期
2 肖靜;許瓊瓊;高月霞;仲亞琴;吳徐明;強(qiáng)福林;沈康;;基于回歸樹模型的乳腺癌住院費(fèi)用病例組合研究[J];中國衛(wèi)生統(tǒng)計(jì);2016年05期
3 佘玉萍;陳淑清;;基于增強(qiáng)回歸樹的水藻預(yù)測(cè)分析[J];長(zhǎng)春大學(xué)學(xué)報(bào);2015年06期
4 徐魯雄;謝超凡;徐琳;;基于回歸樹模型的教師評(píng)價(jià)分析——以福建師范大學(xué)福清分校為例[J];太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2015年03期
5 朱秋麗;張濤;丁云芳;張學(xué)蘭;趙根明;;呼吸道合胞病毒感染兒童住院費(fèi)用影響因素的回歸樹分析[J];復(fù)旦學(xué)報(bào)(醫(yī)學(xué)版);2011年04期
6 莫春梅,倪宗瓚,高鳳瓊;回歸樹的建模與應(yīng)用[J];中華預(yù)防醫(yī)學(xué)雜志;2002年05期
7 黃德生;關(guān)鵬;郭軍巧;王萍;周寶森;;沈陽市細(xì)菌性痢疾疫情分類回歸樹分析[J];中國醫(yī)科大學(xué)學(xué)報(bào);2008年03期
8 蔡杰;李洪濤;;按病種分值付費(fèi)分值細(xì)分方法研究[J];中國衛(wèi)生經(jīng)濟(jì);2018年06期
9 劉澄;胡巧紅;孫瑩;;基于分類回歸樹的會(huì)計(jì)信息失真識(shí)別研究[J];中國管理信息化;2013年06期
10 杜志成;張王劍;于石成;郝元濤;;廣東省手足口病氣象危險(xiǎn)因素閾值效應(yīng)的研究[J];現(xiàn)代預(yù)防醫(yī)學(xué);2015年19期
相關(guān)碩士學(xué)位論文 前4條
1 李偉南;隨機(jī)效應(yīng)-最大期望回歸樹模型在醫(yī)學(xué)系統(tǒng)結(jié)構(gòu)數(shù)據(jù)中的應(yīng)用及模型評(píng)價(jià)[D];廣東藥科大學(xué);2019年
2 羅明宇;濟(jì)南市部分城市社區(qū)老年人焦慮、抑郁狀態(tài)影響因素回歸樹分析[D];山東大學(xué);2016年
3 孟祥虎;基因表達(dá)預(yù)測(cè)模型研究[D];西安電子科技大學(xué);2014年
4 陳秋艷;長(zhǎng)江中下游地區(qū)樹輪氣候響應(yīng)特征分析與區(qū)域冬春季溫度的重建[D];蘭州大學(xué);2015年
本文編號(hào):
2654076
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2654076.html