基于放射組學特征的非小細胞肺癌中EGFR突變的預測
發(fā)布時間:2022-01-20 10:19
根據(jù)世界衛(wèi)生組織最近幾年的統(tǒng)計報告可以發(fā)現(xiàn),對于癌癥這種惡性腫瘤疾病,它的發(fā)病率與死亡率都在逐漸變高,已經(jīng)對人類的健康造成了很大的影響。隨著機器學習在醫(yī)學領(lǐng)域的不斷發(fā)展,機器學習的很多方法已經(jīng)可以更準確地預測癌癥的發(fā)生與轉(zhuǎn)移,抓住疾病的最佳治療時機,進而有效控制癌癥的死亡率。針對這一現(xiàn)狀,本文收集到2016年至2018年間長春市某大型醫(yī)院的100名患者的397個放射組學特征,并依據(jù)統(tǒng)計學方法對收集到的放射組學特征來建立數(shù)學模型,進而預測非小細胞肺癌患者是否發(fā)生EGFR的突變。對于EGFR突變,有很多影響因素,為了得到更有效的預測模型,本文首先對收集到的397個放射組學特征,應用LASSO算法進行特征選擇,得到對EGFR的突變影響最大的15個放射組學特征,進而實現(xiàn)對放射組學特征的降維,消除冗余的特征。接下來對得到的放射組學特征建立基于機器學習算法的三種預測模型,分別為高斯過程、樸素貝葉斯模型、LightGBM算法,并進行簡單地對比分析,可以發(fā)現(xiàn)LightGBM算法具有更明顯的優(yōu)勢。依據(jù)這個預測模型可以有效地判斷非小細胞肺癌患者是否發(fā)生EGFR的突變,并且可以為接下來的研究提供了新的思路,...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:34 頁
【學位級別】:碩士
【部分圖文】:
Leaf-wise的葉子生長策略
第2章理論基礎8數(shù)據(jù)都是稀疏的,并且在這些特征中有一些特征之間可能是互斥的。我們可以將這些稀疏的特征合并為一個特征,這時通常是以可以合并,并且合并后的總特征的數(shù)量少為最終目標。這里把合并后的特征稱為獨立特征束,然后用這些獨立特征束來構(gòu)建直方圖,這樣大大地加快了計算的速度,并且模型的準確率也不會受到不好的影響。基于上述的改進方面,LightGBM算法相對于GBDT算法具有更好的預測性能,可以更快地進行模型的訓練與測試,尤其是對于本文的放射組學特征的數(shù)據(jù),表現(xiàn)出很強的優(yōu)勢。2.3混淆矩陣在機器學習領(lǐng)域中,混淆矩陣是一種基于原始數(shù)據(jù)集的預測值和真實值的關(guān)系的分類效果圖,它可以很好地評價分類器的預測性能,已經(jīng)被眾多學者應用于有關(guān)分類的實際問題中。對于最常用的二元分類,其實就是得到一個22的表格,見圖2-2[37]。圖2-2混淆矩陣示意圖對于上面的混淆矩陣,可以知道對于一個很好的預測模型肯定是TN,TP的值越大越好,這樣預測的準確率才會比較高。依據(jù)混淆矩陣能夠計算得到分類模型預測的準確率、特異性、敏感性、精確率、召回率、F1-值,計算的公式為:FPFNTNTPTNTP準確率FPTNTN特異性FNTPTP敏感性、召回率
第2章理論基礎9FPTPTP精確率召回率精確率召回率精確率值F21通過比較它們的值的大小,便可以知道基于某種機器學習算法的預測模型的精度與性能,是不是符合我們的預期。2.4ROC曲線與AUC值ROC曲線即接受者的操作特征曲線(receiveroperatingcharacteristiccurve),也稱感受性曲線。該曲線以假正率(FPR)為x軸,以真正率(TPR)為y軸進行構(gòu)圖,一般地ROC曲線都在yx這條直線的上方(如圖2-3)。當曲線越是“凸”向左上角時,則可以表明預測模型的真實性越高,分類的效果就越好。同時把ROC曲線與圖中橫縱坐標軸圍成的面積記作AUC,很明顯,圖中的面積的取值不會出現(xiàn)大于1的情況,AUC的取值狀況通常介于0.5和1.0這個區(qū)間之內(nèi)。當AUC的取值越大時,即越靠近1.0的時候,說明試驗的結(jié)果處于很好的決策點,具有較高的診斷價值[38]。圖2-3ROC曲線示意圖
【參考文獻】:
期刊論文
[1]機器學習在抑郁癥領(lǐng)域的應用[J]. 董健宇,韋文棋,吳珂,妮娜,王粲霏,付瑩,彭歆. 心理科學進展. 2020(02)
[2]基于機器學習的放射組學預測非小細胞肺癌EGFR基因突變[J]. 胡麗霞,江長思,羅燕,梅東東,龔靜山,馬捷. 醫(yī)學影像學雜志. 2019(07)
[3]LightGBM算法在阿爾茨海默癥結(jié)構(gòu)磁共振成像分類中的應用[J]. 周文,王瑜,李長勝,肖洪兵,邢素霞. 中國醫(yī)學物理學雜志. 2019(04)
[4]基于LightGBM的銀行信用卡違約研究[J]. 張國慶,昌寧. 科技資訊. 2019(12)
[5]ICU患者急性腎損傷發(fā)生風險的LightGBM預測模型[J]. 張淵,馮聰,李開源,張政波,曹德森,黎檀實. 解放軍醫(yī)學院學報. 2019(04)
[6]基于深度學習的癌癥計算機輔助分類診斷研究進展[J]. 肖煥輝,袁程朗,馮仕庭,羅宴吉,黃炳升. 國際醫(yī)學放射學雜志. 2019(01)
[7]左右半結(jié)腸癌研究進展[J]. 閻偉,劉洋,魏云巍. 中國腫瘤臨床. 2018(22)
[8]大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應用淺析[J]. 孫凱. 科學技術(shù)創(chuàng)新. 2018(18)
[9]胃腸道淋巴瘤64排螺旋CT與MRI影像學特點分析[J]. 孫曉云,甄鑫,張強,徐曉燕. 癌癥進展. 2018(03)
[10]不同手術(shù)方式在結(jié)腸癌治療中的效果分析和預后比較[J]. 高勇,李治國. 癌癥進展. 2017(05)
博士論文
[1]基于機器學習的胸部X光片分類及胸部病變定位方法研究[D]. 李子榮.蘭州大學 2019
[2]基于機器學習的腫瘤基因表達譜數(shù)據(jù)分析方法研究[D]. 劉健.中國礦業(yè)大學 2018
碩士論文
[1]基于放射組學在肺癌良惡性預測的初步研究[D]. 方勝儒.天津醫(yī)科大學 2018
[2]基于LightGBM,XGBoost,ERT混合模型的風機葉片結(jié)冰預測研究[D]. 張丹峰.上海師范大學 2018
[3]ROC曲線廣義線性模型及其醫(yī)學應用[D]. 尉潔.山西醫(yī)科大學 2010
[4]Lasso及其相關(guān)方法在廣義線性模型模型選擇中的應用[D]. 龔建朝.中南大學 2008
本文編號:3598648
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:34 頁
【學位級別】:碩士
【部分圖文】:
Leaf-wise的葉子生長策略
第2章理論基礎8數(shù)據(jù)都是稀疏的,并且在這些特征中有一些特征之間可能是互斥的。我們可以將這些稀疏的特征合并為一個特征,這時通常是以可以合并,并且合并后的總特征的數(shù)量少為最終目標。這里把合并后的特征稱為獨立特征束,然后用這些獨立特征束來構(gòu)建直方圖,這樣大大地加快了計算的速度,并且模型的準確率也不會受到不好的影響。基于上述的改進方面,LightGBM算法相對于GBDT算法具有更好的預測性能,可以更快地進行模型的訓練與測試,尤其是對于本文的放射組學特征的數(shù)據(jù),表現(xiàn)出很強的優(yōu)勢。2.3混淆矩陣在機器學習領(lǐng)域中,混淆矩陣是一種基于原始數(shù)據(jù)集的預測值和真實值的關(guān)系的分類效果圖,它可以很好地評價分類器的預測性能,已經(jīng)被眾多學者應用于有關(guān)分類的實際問題中。對于最常用的二元分類,其實就是得到一個22的表格,見圖2-2[37]。圖2-2混淆矩陣示意圖對于上面的混淆矩陣,可以知道對于一個很好的預測模型肯定是TN,TP的值越大越好,這樣預測的準確率才會比較高。依據(jù)混淆矩陣能夠計算得到分類模型預測的準確率、特異性、敏感性、精確率、召回率、F1-值,計算的公式為:FPFNTNTPTNTP準確率FPTNTN特異性FNTPTP敏感性、召回率
第2章理論基礎9FPTPTP精確率召回率精確率召回率精確率值F21通過比較它們的值的大小,便可以知道基于某種機器學習算法的預測模型的精度與性能,是不是符合我們的預期。2.4ROC曲線與AUC值ROC曲線即接受者的操作特征曲線(receiveroperatingcharacteristiccurve),也稱感受性曲線。該曲線以假正率(FPR)為x軸,以真正率(TPR)為y軸進行構(gòu)圖,一般地ROC曲線都在yx這條直線的上方(如圖2-3)。當曲線越是“凸”向左上角時,則可以表明預測模型的真實性越高,分類的效果就越好。同時把ROC曲線與圖中橫縱坐標軸圍成的面積記作AUC,很明顯,圖中的面積的取值不會出現(xiàn)大于1的情況,AUC的取值狀況通常介于0.5和1.0這個區(qū)間之內(nèi)。當AUC的取值越大時,即越靠近1.0的時候,說明試驗的結(jié)果處于很好的決策點,具有較高的診斷價值[38]。圖2-3ROC曲線示意圖
【參考文獻】:
期刊論文
[1]機器學習在抑郁癥領(lǐng)域的應用[J]. 董健宇,韋文棋,吳珂,妮娜,王粲霏,付瑩,彭歆. 心理科學進展. 2020(02)
[2]基于機器學習的放射組學預測非小細胞肺癌EGFR基因突變[J]. 胡麗霞,江長思,羅燕,梅東東,龔靜山,馬捷. 醫(yī)學影像學雜志. 2019(07)
[3]LightGBM算法在阿爾茨海默癥結(jié)構(gòu)磁共振成像分類中的應用[J]. 周文,王瑜,李長勝,肖洪兵,邢素霞. 中國醫(yī)學物理學雜志. 2019(04)
[4]基于LightGBM的銀行信用卡違約研究[J]. 張國慶,昌寧. 科技資訊. 2019(12)
[5]ICU患者急性腎損傷發(fā)生風險的LightGBM預測模型[J]. 張淵,馮聰,李開源,張政波,曹德森,黎檀實. 解放軍醫(yī)學院學報. 2019(04)
[6]基于深度學習的癌癥計算機輔助分類診斷研究進展[J]. 肖煥輝,袁程朗,馮仕庭,羅宴吉,黃炳升. 國際醫(yī)學放射學雜志. 2019(01)
[7]左右半結(jié)腸癌研究進展[J]. 閻偉,劉洋,魏云巍. 中國腫瘤臨床. 2018(22)
[8]大數(shù)據(jù)背景下機器學習在數(shù)據(jù)挖掘中的應用淺析[J]. 孫凱. 科學技術(shù)創(chuàng)新. 2018(18)
[9]胃腸道淋巴瘤64排螺旋CT與MRI影像學特點分析[J]. 孫曉云,甄鑫,張強,徐曉燕. 癌癥進展. 2018(03)
[10]不同手術(shù)方式在結(jié)腸癌治療中的效果分析和預后比較[J]. 高勇,李治國. 癌癥進展. 2017(05)
博士論文
[1]基于機器學習的胸部X光片分類及胸部病變定位方法研究[D]. 李子榮.蘭州大學 2019
[2]基于機器學習的腫瘤基因表達譜數(shù)據(jù)分析方法研究[D]. 劉健.中國礦業(yè)大學 2018
碩士論文
[1]基于放射組學在肺癌良惡性預測的初步研究[D]. 方勝儒.天津醫(yī)科大學 2018
[2]基于LightGBM,XGBoost,ERT混合模型的風機葉片結(jié)冰預測研究[D]. 張丹峰.上海師范大學 2018
[3]ROC曲線廣義線性模型及其醫(yī)學應用[D]. 尉潔.山西醫(yī)科大學 2010
[4]Lasso及其相關(guān)方法在廣義線性模型模型選擇中的應用[D]. 龔建朝.中南大學 2008
本文編號:3598648
本文鏈接:http://sikaile.net/yixuelunwen/zlx/3598648.html
最近更新
教材專著