機(jī)器學(xué)習(xí)構(gòu)建多基因模型預(yù)測(cè)前列腺癌
發(fā)布時(shí)間:2021-12-30 17:31
目的基于基因表達(dá)數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)的方法構(gòu)建模型鑒別前列腺癌。方法下載前列腺癌和前列腺正常組織的RNA測(cè)序數(shù)據(jù),進(jìn)行數(shù)據(jù)過(guò)濾并分析差異表達(dá)基因,選擇關(guān)鍵基因、建立模型并驗(yàn)證模型效能。驗(yàn)證決策樹、隨機(jī)森林、KNN近鄰、邏輯回歸和支持向量機(jī)這5個(gè)模型在默認(rèn)參數(shù)下的性能并選取具有較高檢驗(yàn)效能的模型進(jìn)行優(yōu)化。結(jié)果在5個(gè)模型中隨機(jī)森林的檢驗(yàn)效能最高,決策樹次之。優(yōu)化之后的隨機(jī)森林模型鑒別前列腺癌的準(zhǔn)確度為94%,受試者工作(ROC)曲線下面積為0.94。結(jié)論通過(guò)基因表達(dá)數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型能夠較好地預(yù)測(cè)前列腺癌。
【文章來(lái)源】:現(xiàn)代泌尿外科雜志. 2020,25(07)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
隨機(jī)森林和決策樹的優(yōu)化和驗(yàn)證
鑒于隨機(jī)森林和決策樹模型的檢驗(yàn)效能,對(duì)其進(jìn)行進(jìn)一步優(yōu)化有可能達(dá)到最佳的效果。我們首先探究了決策樹的深度對(duì)決策樹的影響和隨機(jī)森林中子分類器個(gè)數(shù)對(duì)隨機(jī)森林的影響。從圖3A中可以看出,當(dāng)樹的深度在16時(shí)決策樹模型的準(zhǔn)確度最高。此時(shí)模型識(shí)別前列腺癌的準(zhǔn)確度為0.941 4,比默認(rèn)模型上升了0.1個(gè)百分點(diǎn)左右。當(dāng)子評(píng)估器的個(gè)數(shù)取值為21的時(shí)候,隨機(jī)森林模型的分類效果最高,此時(shí)的準(zhǔn)確度為0.948,相比默認(rèn)參數(shù)上升了0.07個(gè)百分點(diǎn)(圖3B)。我們重新計(jì)算了優(yōu)化之后的決策樹和隨機(jī)森林的受試者工作曲線(receiver operating characteristic,ROC),如圖3C、E所示。決策樹的ROC曲線下面積為0.925 3,隨機(jī)森林的ROC曲線下面積為0.945 1,兩者的學(xué)習(xí)曲線如圖3D、F所示,訓(xùn)練集和驗(yàn)證集的評(píng)分較為接近,可見(jiàn)模型的訓(xùn)練達(dá)到了較好的效果。圖2 特征基因的選取和重要性排序
特征基因的選取和重要性排序
【參考文獻(xiàn)】:
期刊論文
[1]前列腺特異性抗原新參數(shù)在早期前列腺癌篩查中的作用[J]. 張志昱,張江磊,臧晉,歐陽(yáng)駿. 現(xiàn)代泌尿外科雜志. 2019(10)
[2]2000-2014年中國(guó)腫瘤登記地區(qū)前列腺癌發(fā)病趨勢(shì)及年齡變化分析[J]. 顧秀瑛,鄭榮壽,張思維,曾紅梅,孫可欣,鄒小農(nóng),夏昌發(fā),楊之洵,李賀,陳萬(wàn)青,赫捷. 中華預(yù)防醫(yī)學(xué)雜志. 2018 (06)
[3]前列腺特異抗原及其相關(guān)參數(shù)在前列腺癌診斷中的意義[J]. 李方龍,劉健,邱建宏,趙新鴻,張世睿,高江平. 現(xiàn)代泌尿外科雜志. 2017(07)
本文編號(hào):3558666
【文章來(lái)源】:現(xiàn)代泌尿外科雜志. 2020,25(07)
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
隨機(jī)森林和決策樹的優(yōu)化和驗(yàn)證
鑒于隨機(jī)森林和決策樹模型的檢驗(yàn)效能,對(duì)其進(jìn)行進(jìn)一步優(yōu)化有可能達(dá)到最佳的效果。我們首先探究了決策樹的深度對(duì)決策樹的影響和隨機(jī)森林中子分類器個(gè)數(shù)對(duì)隨機(jī)森林的影響。從圖3A中可以看出,當(dāng)樹的深度在16時(shí)決策樹模型的準(zhǔn)確度最高。此時(shí)模型識(shí)別前列腺癌的準(zhǔn)確度為0.941 4,比默認(rèn)模型上升了0.1個(gè)百分點(diǎn)左右。當(dāng)子評(píng)估器的個(gè)數(shù)取值為21的時(shí)候,隨機(jī)森林模型的分類效果最高,此時(shí)的準(zhǔn)確度為0.948,相比默認(rèn)參數(shù)上升了0.07個(gè)百分點(diǎn)(圖3B)。我們重新計(jì)算了優(yōu)化之后的決策樹和隨機(jī)森林的受試者工作曲線(receiver operating characteristic,ROC),如圖3C、E所示。決策樹的ROC曲線下面積為0.925 3,隨機(jī)森林的ROC曲線下面積為0.945 1,兩者的學(xué)習(xí)曲線如圖3D、F所示,訓(xùn)練集和驗(yàn)證集的評(píng)分較為接近,可見(jiàn)模型的訓(xùn)練達(dá)到了較好的效果。圖2 特征基因的選取和重要性排序
特征基因的選取和重要性排序
【參考文獻(xiàn)】:
期刊論文
[1]前列腺特異性抗原新參數(shù)在早期前列腺癌篩查中的作用[J]. 張志昱,張江磊,臧晉,歐陽(yáng)駿. 現(xiàn)代泌尿外科雜志. 2019(10)
[2]2000-2014年中國(guó)腫瘤登記地區(qū)前列腺癌發(fā)病趨勢(shì)及年齡變化分析[J]. 顧秀瑛,鄭榮壽,張思維,曾紅梅,孫可欣,鄒小農(nóng),夏昌發(fā),楊之洵,李賀,陳萬(wàn)青,赫捷. 中華預(yù)防醫(yī)學(xué)雜志. 2018 (06)
[3]前列腺特異抗原及其相關(guān)參數(shù)在前列腺癌診斷中的意義[J]. 李方龍,劉健,邱建宏,趙新鴻,張世睿,高江平. 現(xiàn)代泌尿外科雜志. 2017(07)
本文編號(hào):3558666
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3558666.html
最近更新
教材專著