基于機器學習的腫瘤基因表達譜數(shù)據(jù)分析方法研究
發(fā)布時間:2020-10-12 15:44
近年來,國內(nèi)外研究人員將機器學習理論和方法引入到生物信息學領域,通過對基因表達譜數(shù)據(jù)的綜合分析來發(fā)現(xiàn)蘊含在生物學中的重要信息。本文針對腫瘤基因表達譜數(shù)據(jù),以機器學習為理論基礎,通過對特征基因選擇、腫瘤分類和腫瘤聚類等問題展開研究與探索,提出了一系列基于機器學習的腫瘤基因表達譜數(shù)據(jù)分析方法。主要研究內(nèi)容如下:1.基于深度學習及矩陣分解的腫瘤特征基因選擇。首先,針對深度學習模型無法很好地進行腫瘤特征基因選擇的問題,提出一種基于樣本學習及深度稀疏濾波的腫瘤特征基因選擇方法;其次,基于最優(yōu)均值算法和分塊優(yōu)化理論,提出一種基于最優(yōu)均值的分塊魯棒特征基因選擇方法,并對TCGA中的融合數(shù)據(jù)進行分析;最后,利用散度矩陣將基因表達譜數(shù)據(jù)中已知類別標簽引入無監(jiān)督算法中,提出一種監(jiān)督型懲罰矩陣分解算法,從而對特征基因進行選擇。2.基于樣本擴充及深度學習的腫瘤樣本分類。針對深度學習模型在進行腫瘤基因表達譜數(shù)據(jù)分類時訓練樣本嚴重不足的問題,提出一種基于降噪自動編碼器的樣本擴充方法,以獲得大量的輔助樣本。進一步,針對腫瘤樣本分類問題,將所提樣本擴充方法分別與兩種深度學習模型相結(jié)合,設計了基于樣本擴充的棧式自動編碼器和基于樣本擴充的1維卷積神經(jīng)網(wǎng)絡。3.基于低秩子空間分割的腫瘤樣本聚類。傳統(tǒng)子空間分割方法依賴譜聚類進行腫瘤基因表達數(shù)據(jù)聚類,針對此問題,利用離散約束來直接學習子空間的樣本標簽,提出了兩種基于離散約束的低秩子空間腫瘤樣本聚類方法。首先,考慮腫瘤基因表達譜數(shù)據(jù)內(nèi)部的流形結(jié)構,提出一種基于離散約束及超圖正則化的低秩子空間聚類算法;其次,為了消除腫瘤數(shù)據(jù)中極端離群值對聚類結(jié)果的影響,使用封頂范數(shù)來提高算法的魯棒性,提出基于離散約束及封頂范數(shù)的魯棒低秩子空間聚類算法。4.基于雙超圖正則化主成分分析的腫瘤雙聚類。同時考慮腫瘤數(shù)據(jù)中的樣本流形結(jié)構和基因流形結(jié)構,分別構建樣本超圖和基因超圖來獲取數(shù)據(jù)的局部幾何信息,并將雙超圖作為主成分分析的正則項進行樣本聚類和基因聚類,提出基于雙超圖正則化主成分分析的雙聚類算法。
【學位單位】:中國礦業(yè)大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:R730;TP181
【部分圖文】:
圖 1-1 人類 DNA 雙螺旋結(jié)構Figure 1-1 Human DNA double helix就人類而言,基因攜帶遺傳信息來表達頭發(fā)、眼睛的顏色以及許多其他特征。基因還包含身體細胞何時生長、分裂甚至何時死亡的信息。盡管個體體內(nèi)的每一個細胞都儲存著完整的基因,但一個基因的活性卻因細胞而異。一個細胞只會開啟細胞功能所必需的基因,當一個基因被啟用時,稱為基因表達。基因表達是通過創(chuàng)建 mRNA 來使用基因中的編碼指導蛋白質(zhì)合成,這個過程是分子生物學中心法則的一部分。如圖 1-2 所示,DNA 利用轉(zhuǎn)錄和翻譯使產(chǎn)生蛋白質(zhì)。
35(c)DLBCL 數(shù)據(jù)集 種 DNA 微陣列數(shù)據(jù)集上,5 種方法選擇的特征基gram of genes selected by five methods on three DN特征基因定義為僅通過一種方法選擇而被其 SLDSF 選擇的“獨特的”特征基因,以確擇的特征基因的維恩圖如圖 3-3(a)所示。從共同選擇的特征基因有 9 個,SLDSF 算法”特征基因(多達 81 個),這解釋了表 3-2 能的原因,并且表明這 81 個“獨特的”特征現(xiàn)有文獻研究了 SLDSF 選擇的“獨特的”SF 選擇的前 5 個“獨特的”特征基因,即 GA
博士學位論文A 具有最低的 P-value。表 3-5 3 種方法在 ESCA 數(shù)據(jù)集上的 GO 實驗結(jié)果Table 3-5 GO results of three methods on ESCA datasetIDSLDSF RPCA PMDP-Value P-Value P-ValueGO:0042060 7.30E-16 8.20E-13 7.56E-12GO:0009611 1.38E-12 4.01E-10 4.01E-10GO:0022610 2.01E-12 5.40E-14 3.37E-13GO:0006955 3.37E-12 9.95E-11 9.95E-11GO:0007155 9.34E-12 2.71E-13 1.63E-12GO:0043588 1.06E-11 1.06E-11 NoneGO:0007010 8.65E-11 1.39E-08 8.65E-11GO:0050776 9.56E-11 6.12E-10 3.70E-09GO:0034109 1.92E-10 1.59E-08 1.92E-10GO:0098609 5.20E-10 3.04E-09 3.04E-09
【參考文獻】
本文編號:2837974
【學位單位】:中國礦業(yè)大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:R730;TP181
【部分圖文】:
圖 1-1 人類 DNA 雙螺旋結(jié)構Figure 1-1 Human DNA double helix就人類而言,基因攜帶遺傳信息來表達頭發(fā)、眼睛的顏色以及許多其他特征。基因還包含身體細胞何時生長、分裂甚至何時死亡的信息。盡管個體體內(nèi)的每一個細胞都儲存著完整的基因,但一個基因的活性卻因細胞而異。一個細胞只會開啟細胞功能所必需的基因,當一個基因被啟用時,稱為基因表達。基因表達是通過創(chuàng)建 mRNA 來使用基因中的編碼指導蛋白質(zhì)合成,這個過程是分子生物學中心法則的一部分。如圖 1-2 所示,DNA 利用轉(zhuǎn)錄和翻譯使產(chǎn)生蛋白質(zhì)。
35(c)DLBCL 數(shù)據(jù)集 種 DNA 微陣列數(shù)據(jù)集上,5 種方法選擇的特征基gram of genes selected by five methods on three DN特征基因定義為僅通過一種方法選擇而被其 SLDSF 選擇的“獨特的”特征基因,以確擇的特征基因的維恩圖如圖 3-3(a)所示。從共同選擇的特征基因有 9 個,SLDSF 算法”特征基因(多達 81 個),這解釋了表 3-2 能的原因,并且表明這 81 個“獨特的”特征現(xiàn)有文獻研究了 SLDSF 選擇的“獨特的”SF 選擇的前 5 個“獨特的”特征基因,即 GA
博士學位論文A 具有最低的 P-value。表 3-5 3 種方法在 ESCA 數(shù)據(jù)集上的 GO 實驗結(jié)果Table 3-5 GO results of three methods on ESCA datasetIDSLDSF RPCA PMDP-Value P-Value P-ValueGO:0042060 7.30E-16 8.20E-13 7.56E-12GO:0009611 1.38E-12 4.01E-10 4.01E-10GO:0022610 2.01E-12 5.40E-14 3.37E-13GO:0006955 3.37E-12 9.95E-11 9.95E-11GO:0007155 9.34E-12 2.71E-13 1.63E-12GO:0043588 1.06E-11 1.06E-11 NoneGO:0007010 8.65E-11 1.39E-08 8.65E-11GO:0050776 9.56E-11 6.12E-10 3.70E-09GO:0034109 1.92E-10 1.59E-08 1.92E-10GO:0098609 5.20E-10 3.04E-09 3.04E-09
【參考文獻】
相關期刊論文 前3條
1 簡彩仁;陳曉云;;基于局部保持投影和稀疏表示的無監(jiān)督特征選擇方法[J];模式識別與人工智能;2015年03期
2 陸慧娟;安春霖;馬小平;鄭恩輝;楊小兵;;基于輸出不一致測度的極限學習機集成的基因表達數(shù)據(jù)分類[J];計算機學報;2013年02期
3 閆友彪,陳元琰;機器學習的主要策略綜述[J];計算機應用研究;2004年07期
相關博士學位論文 前2條
1 殷路;基因表達數(shù)據(jù)的雙聚類分析與研究[D];電子科技大學;2017年
2 張樂平;干細胞表達譜的生物信息學與系統(tǒng)生物學分析[D];復旦大學;2011年
相關碩士學位論文 前1條
1 陳科;基于基因表達譜數(shù)據(jù)分析來挖掘接受放療和放化療的子宮頸癌樣本中的關鍵基因[D];浙江大學;2017年
本文編號:2837974
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2837974.html
最近更新
教材專著