基于網(wǎng)絡分析和機器學習的肝癌中糖鏈相關基因篩選
發(fā)布時間:2021-11-13 10:23
中國癌癥發(fā)病率和死亡率均較高,隨著二代測序的飛速發(fā)展,運用生物統(tǒng)計學和計算機語言對生物學問題的挖掘也變得如火如荼。因此,應用生物信息學揭示并解決生物學問題,在科學研究中扮有越來越重要的角色。糖鏈相關基因如糖基轉移酶、糖苷水解酶,已被證實與腫瘤的遷移、復發(fā)、抗化療藥物等密切相關。已有眾多針對癌癥發(fā)生發(fā)展的糖鏈相關基因及其功能對癌癥表型的影響與分子機制的研究。本課題組前期發(fā)現(xiàn)TCGA數(shù)據(jù)庫的RNA-seq數(shù)據(jù)顯示,在多種癌癥組織中,多種糖鏈相關基因的表達量都有顯著改變;谝陨习l(fā)現(xiàn),本實驗將聚焦于肝癌中差異表達的糖鏈相關基因,運用機器學習和加權基因共表達網(wǎng)絡(WGCNA,Weighted Correlation Network Analysis)網(wǎng)絡進行分析,旨在找到在癌癥的發(fā)生和發(fā)展中發(fā)揮著重要作用的糖鏈相關基因,及與其協(xié)同變化的其它基因,從更大的尺度去整體把握糖鏈相關基因的變化,進一步找到關鍵基因(hub gene),并對其功能進行生物信息分析。本課題選取TCGA和GTEx數(shù)據(jù)庫中糖鏈相關基因的肝癌表達譜,比較了三種機器學習模型(隨機森林,支持向量機,邏輯回歸)預測癌癥發(fā)生的能力,發(fā)現(xiàn)...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
本論文的技術路線
樣本中有 4 個被誤判成癌癥樣本。這表明隨機森林模型強。本節(jié)研究表明隨機森林模型能對肝癌是否發(fā)生進行預表 3-1 隨機森林模型預測混淆矩陣實情況 模型預測結果Cancer NCancer 92 Normal 4 探究隨機森林模型預測的準確度和各基因的權重,本研和節(jié)點純度分析。左側表示隨機森林模型篩選基因得到的變量值受到輕微擾動后的分類正確率和擾動前分類正確率精度下降,平均精度的減少值,數(shù)值越大表明該基因在隨用越大(圖 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 個基因。右側表明 gini 指數(shù),代表節(jié)點純度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 個基因。
樣本中有 4 個被誤判成癌癥樣本。這表明隨機森林模型強。本節(jié)研究表明隨機森林模型能對肝癌是否發(fā)生進行預表 3-1 隨機森林模型預測混淆矩陣實情況 模型預測結果Cancer NCancer 92 Normal 4 探究隨機森林模型預測的準確度和各基因的權重,本研和節(jié)點純度分析。左側表示隨機森林模型篩選基因得到的變量值受到輕微擾動后的分類正確率和擾動前分類正確率精度下降,平均精度的減少值,數(shù)值越大表明該基因在隨用越大(圖 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 個基因。右側表明 gini 指數(shù),代表節(jié)點純度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 個基因。
【參考文獻】:
期刊論文
[1]碳水化合物活性酶數(shù)據(jù)庫(CAZy)及其研究趨勢[J]. 王帥,陳冠軍,張懷強,王祿山. 生物加工過程. 2014(01)
[2]原發(fā)性肝癌的診斷及治療進展[J]. 吳孟超. 中國醫(yī)學科學院學報. 2008(04)
本文編號:3492849
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
本論文的技術路線
樣本中有 4 個被誤判成癌癥樣本。這表明隨機森林模型強。本節(jié)研究表明隨機森林模型能對肝癌是否發(fā)生進行預表 3-1 隨機森林模型預測混淆矩陣實情況 模型預測結果Cancer NCancer 92 Normal 4 探究隨機森林模型預測的準確度和各基因的權重,本研和節(jié)點純度分析。左側表示隨機森林模型篩選基因得到的變量值受到輕微擾動后的分類正確率和擾動前分類正確率精度下降,平均精度的減少值,數(shù)值越大表明該基因在隨用越大(圖 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 個基因。右側表明 gini 指數(shù),代表節(jié)點純度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 個基因。
樣本中有 4 個被誤判成癌癥樣本。這表明隨機森林模型強。本節(jié)研究表明隨機森林模型能對肝癌是否發(fā)生進行預表 3-1 隨機森林模型預測混淆矩陣實情況 模型預測結果Cancer NCancer 92 Normal 4 探究隨機森林模型預測的準確度和各基因的權重,本研和節(jié)點純度分析。左側表示隨機森林模型篩選基因得到的變量值受到輕微擾動后的分類正確率和擾動前分類正確率精度下降,平均精度的減少值,數(shù)值越大表明該基因在隨用越大(圖 3-2)。GBA、PYGB、NEU1、PLOD3 和 B4分最高的 5 個基因。右側表明 gini 指數(shù),代表節(jié)點純度越低。其中,PIGM、FUT2、B4GALNT1、GBA、EXTL1 個基因。
【參考文獻】:
期刊論文
[1]碳水化合物活性酶數(shù)據(jù)庫(CAZy)及其研究趨勢[J]. 王帥,陳冠軍,張懷強,王祿山. 生物加工過程. 2014(01)
[2]原發(fā)性肝癌的診斷及治療進展[J]. 吳孟超. 中國醫(yī)學科學院學報. 2008(04)
本文編號:3492849
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3492849.html
最近更新
教材專著