決策樹模型在預(yù)測乳腺癌5年生存狀況研究中的應(yīng)用
發(fā)布時(shí)間:2022-01-27 09:47
目的:通過構(gòu)建決策樹(Decision Tree,DT)模型對女性乳腺癌5年內(nèi)生存狀況進(jìn)行預(yù)測,為臨床醫(yī)生預(yù)測乳腺癌患者的預(yù)后和調(diào)整個(gè)體化的隨訪策略提供參考。方法:本研究對2010年1月至2014年10月確診的405例乳腺癌患者的生存狀況進(jìn)行了隨訪,確定了患者自確診乳腺癌后5年內(nèi)的生存狀況(生存或死亡),并記錄了與乳腺癌預(yù)后可能相關(guān)的17種因素。通過多種模型篩選,最后選擇DT的回歸樹算法(Classification and Regression Tree,CART)構(gòu)建了預(yù)測模型,在參數(shù)調(diào)整后,對這405例患者進(jìn)行了10折交叉驗(yàn)證(cross validation,CV)的訓(xùn)練及測試。最后通過受試者特征(Receiver Operating Characteristic Curve,ROC)曲線、Precision–Recall(PR)曲線、學(xué)習(xí)曲線、校正曲線對模型性能進(jìn)行了評估。結(jié)果:經(jīng)過計(jì)算,決策樹模型在十倍交叉驗(yàn)證中獲得了理想的結(jié)果:平均召回率=0.91,標(biāo)準(zhǔn)差=0.05。而預(yù)測結(jié)果驗(yàn)證了結(jié)果和模型的穩(wěn)定性:召回率=0.88,準(zhǔn)確率=0.92,F1值=0.86,真陽性率(Tru...
【文章來源】:吉林大學(xué)吉林省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
混淆矩陣構(gòu)成
第4章過程與結(jié)果18第4章過程與結(jié)果機(jī)器學(xué)習(xí)針對不同的數(shù)據(jù)和要求有著不同的方法,但對于具有明顯分類屬性的乳腺癌數(shù)據(jù),整體過程基本相同,主要步驟如圖2。圖4.1機(jī)器學(xué)習(xí)基本過程4.1數(shù)據(jù)分析(1)數(shù)據(jù)預(yù)處理:收集到的數(shù)據(jù)包含多個(gè)特征,且各種變量的原始描述方式包含連續(xù)型變量、離散型變量和非數(shù)值變量等,因此在進(jìn)行計(jì)算之前,首先對所有特征進(jìn)行預(yù)處理,將特征描述數(shù)值化和歸一化。同時(shí)需要對數(shù)據(jù)進(jìn)行分析,檢測缺失值及異常值,并篩除不必要的特征。(見表4.1)
第4章過程與結(jié)果26圖4.9部分預(yù)測數(shù)據(jù)及結(jié)果4.3.2特征與原理模型預(yù)測納入了17項(xiàng)特征,為了明確17項(xiàng)特征對本模型的影響程度,我們得到了特征重要性的分布圖。圖中所示,特征權(quán)重最大的是病理分期,且權(quán)重占比約0.30,是第2位特征(分子分型)的近3倍,其次是HER2表達(dá)狀態(tài)、腫瘤大小和月經(jīng)狀態(tài)。而年齡、內(nèi)分泌治療和有無周邊組織浸潤等特征在本模型預(yù)測過程中所表現(xiàn)出的重要性近占比0.03左右。由參數(shù)max_features=14可知,ER表達(dá)、放射治療和化學(xué)治療三項(xiàng)特征未參與模型的預(yù)測。(見圖4.10)。圖4.10特征重要性
【參考文獻(xiàn)】:
期刊論文
[1]C4.5決策樹算法的閾值自適應(yīng)色譜峰研究與實(shí)現(xiàn)[J]. 廖建平,單杰,李志軍,陳昊旻,楚金偉,萬福. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于人工智能的心臟疾病診斷[J]. 賀文韜. 現(xiàn)代商貿(mào)工業(yè). 2020(02)
[3]21基因檢測對ER陽性、淋巴結(jié)陰性乳腺癌患者術(shù)后復(fù)發(fā)轉(zhuǎn)移的指導(dǎo)價(jià)值[J]. 顧玉琴,華燕艷. 局解手術(shù)學(xué)雜志. 2019(11)
[4]經(jīng)典人工智能算法綜述[J]. 陶陽明. 軟件導(dǎo)刊. 2020(03)
[5]乳腺癌保乳手術(shù)患者不同年齡段病理特征對比及復(fù)發(fā)的危險(xiǎn)因素分析[J]. 謝小軍,劉家利. 檢驗(yàn)醫(yī)學(xué)與臨床. 2019(21)
[6]脈管浸潤對乳腺癌預(yù)后的影響及其發(fā)生機(jī)制[J]. 李作農(nóng),王雋,魏娜,王曉珍,朱珠,呂錚,趙剛. 中國老年學(xué)雜志. 2019(21)
[7]基于SEER數(shù)據(jù)庫利用機(jī)器學(xué)習(xí)方法分析乳腺癌的預(yù)后因素[J]. 章鳴嬛,張璇,郭欣,陳瑛. 北京生物醫(yī)學(xué)工程. 2019(05)
[8]三陰性乳腺癌210例臨床分析[J]. 李玉龍,彭德峰,王自豪,王志軍,董慧明. 蚌埠醫(yī)學(xué)院學(xué)報(bào). 2019(09)
[9]膽固醇——乳腺癌風(fēng)險(xiǎn)和預(yù)后的預(yù)測因子[J]. 陳妮娜,趙磊,曹邦偉. 腫瘤防治研究. 2019(09)
[10]新一代信息技術(shù)與乳腺癌診治模式的變革[J]. 沈坤煒,曹健,李宏為. 外科理論與實(shí)踐. 2019(05)
博士論文
[1]基于GBD大數(shù)據(jù)分析與預(yù)測中國女性乳腺癌發(fā)病與死亡趨勢的研究[D]. 原瑞霞.武漢大學(xué) 2018
碩士論文
[1]基于復(fù)雜臨床數(shù)據(jù)的乳腺癌新輔助化療后病理反應(yīng)的預(yù)測[D]. 李春梅.東北師范大學(xué) 2016
[2]常見乳腺癌危險(xiǎn)因素對患者預(yù)后的影響研究[D]. 白愛麗.天津醫(yī)科大學(xué) 2016
[3]決策樹模型在多普勒超聲診斷乳腺腫瘤應(yīng)用性研究[D]. 張曉慧.南華大學(xué) 2014
本文編號:3612249
【文章來源】:吉林大學(xué)吉林省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
混淆矩陣構(gòu)成
第4章過程與結(jié)果18第4章過程與結(jié)果機(jī)器學(xué)習(xí)針對不同的數(shù)據(jù)和要求有著不同的方法,但對于具有明顯分類屬性的乳腺癌數(shù)據(jù),整體過程基本相同,主要步驟如圖2。圖4.1機(jī)器學(xué)習(xí)基本過程4.1數(shù)據(jù)分析(1)數(shù)據(jù)預(yù)處理:收集到的數(shù)據(jù)包含多個(gè)特征,且各種變量的原始描述方式包含連續(xù)型變量、離散型變量和非數(shù)值變量等,因此在進(jìn)行計(jì)算之前,首先對所有特征進(jìn)行預(yù)處理,將特征描述數(shù)值化和歸一化。同時(shí)需要對數(shù)據(jù)進(jìn)行分析,檢測缺失值及異常值,并篩除不必要的特征。(見表4.1)
第4章過程與結(jié)果26圖4.9部分預(yù)測數(shù)據(jù)及結(jié)果4.3.2特征與原理模型預(yù)測納入了17項(xiàng)特征,為了明確17項(xiàng)特征對本模型的影響程度,我們得到了特征重要性的分布圖。圖中所示,特征權(quán)重最大的是病理分期,且權(quán)重占比約0.30,是第2位特征(分子分型)的近3倍,其次是HER2表達(dá)狀態(tài)、腫瘤大小和月經(jīng)狀態(tài)。而年齡、內(nèi)分泌治療和有無周邊組織浸潤等特征在本模型預(yù)測過程中所表現(xiàn)出的重要性近占比0.03左右。由參數(shù)max_features=14可知,ER表達(dá)、放射治療和化學(xué)治療三項(xiàng)特征未參與模型的預(yù)測。(見圖4.10)。圖4.10特征重要性
【參考文獻(xiàn)】:
期刊論文
[1]C4.5決策樹算法的閾值自適應(yīng)色譜峰研究與實(shí)現(xiàn)[J]. 廖建平,單杰,李志軍,陳昊旻,楚金偉,萬福. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于人工智能的心臟疾病診斷[J]. 賀文韜. 現(xiàn)代商貿(mào)工業(yè). 2020(02)
[3]21基因檢測對ER陽性、淋巴結(jié)陰性乳腺癌患者術(shù)后復(fù)發(fā)轉(zhuǎn)移的指導(dǎo)價(jià)值[J]. 顧玉琴,華燕艷. 局解手術(shù)學(xué)雜志. 2019(11)
[4]經(jīng)典人工智能算法綜述[J]. 陶陽明. 軟件導(dǎo)刊. 2020(03)
[5]乳腺癌保乳手術(shù)患者不同年齡段病理特征對比及復(fù)發(fā)的危險(xiǎn)因素分析[J]. 謝小軍,劉家利. 檢驗(yàn)醫(yī)學(xué)與臨床. 2019(21)
[6]脈管浸潤對乳腺癌預(yù)后的影響及其發(fā)生機(jī)制[J]. 李作農(nóng),王雋,魏娜,王曉珍,朱珠,呂錚,趙剛. 中國老年學(xué)雜志. 2019(21)
[7]基于SEER數(shù)據(jù)庫利用機(jī)器學(xué)習(xí)方法分析乳腺癌的預(yù)后因素[J]. 章鳴嬛,張璇,郭欣,陳瑛. 北京生物醫(yī)學(xué)工程. 2019(05)
[8]三陰性乳腺癌210例臨床分析[J]. 李玉龍,彭德峰,王自豪,王志軍,董慧明. 蚌埠醫(yī)學(xué)院學(xué)報(bào). 2019(09)
[9]膽固醇——乳腺癌風(fēng)險(xiǎn)和預(yù)后的預(yù)測因子[J]. 陳妮娜,趙磊,曹邦偉. 腫瘤防治研究. 2019(09)
[10]新一代信息技術(shù)與乳腺癌診治模式的變革[J]. 沈坤煒,曹健,李宏為. 外科理論與實(shí)踐. 2019(05)
博士論文
[1]基于GBD大數(shù)據(jù)分析與預(yù)測中國女性乳腺癌發(fā)病與死亡趨勢的研究[D]. 原瑞霞.武漢大學(xué) 2018
碩士論文
[1]基于復(fù)雜臨床數(shù)據(jù)的乳腺癌新輔助化療后病理反應(yīng)的預(yù)測[D]. 李春梅.東北師范大學(xué) 2016
[2]常見乳腺癌危險(xiǎn)因素對患者預(yù)后的影響研究[D]. 白愛麗.天津醫(yī)科大學(xué) 2016
[3]決策樹模型在多普勒超聲診斷乳腺腫瘤應(yīng)用性研究[D]. 張曉慧.南華大學(xué) 2014
本文編號:3612249
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3612249.html
最近更新
教材專著