天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于機(jī)器學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)分析方法研究

發(fā)布時間:2020-10-12 15:44
   近年來,國內(nèi)外研究人員將機(jī)器學(xué)習(xí)理論和方法引入到生物信息學(xué)領(lǐng)域,通過對基因表達(dá)譜數(shù)據(jù)的綜合分析來發(fā)現(xiàn)蘊(yùn)含在生物學(xué)中的重要信息。本文針對腫瘤基因表達(dá)譜數(shù)據(jù),以機(jī)器學(xué)習(xí)為理論基礎(chǔ),通過對特征基因選擇、腫瘤分類和腫瘤聚類等問題展開研究與探索,提出了一系列基于機(jī)器學(xué)習(xí)的腫瘤基因表達(dá)譜數(shù)據(jù)分析方法。主要研究內(nèi)容如下:1.基于深度學(xué)習(xí)及矩陣分解的腫瘤特征基因選擇。首先,針對深度學(xué)習(xí)模型無法很好地進(jìn)行腫瘤特征基因選擇的問題,提出一種基于樣本學(xué)習(xí)及深度稀疏濾波的腫瘤特征基因選擇方法;其次,基于最優(yōu)均值算法和分塊優(yōu)化理論,提出一種基于最優(yōu)均值的分塊魯棒特征基因選擇方法,并對TCGA中的融合數(shù)據(jù)進(jìn)行分析;最后,利用散度矩陣將基因表達(dá)譜數(shù)據(jù)中已知類別標(biāo)簽引入無監(jiān)督算法中,提出一種監(jiān)督型懲罰矩陣分解算法,從而對特征基因進(jìn)行選擇。2.基于樣本擴(kuò)充及深度學(xué)習(xí)的腫瘤樣本分類。針對深度學(xué)習(xí)模型在進(jìn)行腫瘤基因表達(dá)譜數(shù)據(jù)分類時訓(xùn)練樣本嚴(yán)重不足的問題,提出一種基于降噪自動編碼器的樣本擴(kuò)充方法,以獲得大量的輔助樣本。進(jìn)一步,針對腫瘤樣本分類問題,將所提樣本擴(kuò)充方法分別與兩種深度學(xué)習(xí)模型相結(jié)合,設(shè)計(jì)了基于樣本擴(kuò)充的棧式自動編碼器和基于樣本擴(kuò)充的1維卷積神經(jīng)網(wǎng)絡(luò)。3.基于低秩子空間分割的腫瘤樣本聚類。傳統(tǒng)子空間分割方法依賴譜聚類進(jìn)行腫瘤基因表達(dá)數(shù)據(jù)聚類,針對此問題,利用離散約束來直接學(xué)習(xí)子空間的樣本標(biāo)簽,提出了兩種基于離散約束的低秩子空間腫瘤樣本聚類方法。首先,考慮腫瘤基因表達(dá)譜數(shù)據(jù)內(nèi)部的流形結(jié)構(gòu),提出一種基于離散約束及超圖正則化的低秩子空間聚類算法;其次,為了消除腫瘤數(shù)據(jù)中極端離群值對聚類結(jié)果的影響,使用封頂范數(shù)來提高算法的魯棒性,提出基于離散約束及封頂范數(shù)的魯棒低秩子空間聚類算法。4.基于雙超圖正則化主成分分析的腫瘤雙聚類。同時考慮腫瘤數(shù)據(jù)中的樣本流形結(jié)構(gòu)和基因流形結(jié)構(gòu),分別構(gòu)建樣本超圖和基因超圖來獲取數(shù)據(jù)的局部幾何信息,并將雙超圖作為主成分分析的正則項(xiàng)進(jìn)行樣本聚類和基因聚類,提出基于雙超圖正則化主成分分析的雙聚類算法。
【學(xué)位單位】:中國礦業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:R730;TP181
【部分圖文】:

中心法則,分子生物學(xué)


圖 1-1 人類 DNA 雙螺旋結(jié)構(gòu)Figure 1-1 Human DNA double helix就人類而言,基因攜帶遺傳信息來表達(dá)頭發(fā)、眼睛的顏色以及許多其他特征;蜻包含身體細(xì)胞何時生長、分裂甚至何時死亡的信息。盡管個體體內(nèi)的每一個細(xì)胞都儲存著完整的基因,但一個基因的活性卻因細(xì)胞而異。一個細(xì)胞只會開啟細(xì)胞功能所必需的基因,當(dāng)一個基因被啟用時,稱為基因表達(dá)。基因表達(dá)是通過創(chuàng)建 mRNA 來使用基因中的編碼指導(dǎo)蛋白質(zhì)合成,這個過程是分子生物學(xué)中心法則的一部分。如圖 1-2 所示,DNA 利用轉(zhuǎn)錄和翻譯使產(chǎn)生蛋白質(zhì)。

維恩圖,數(shù)據(jù)集,方法選擇,共同選擇


35(c)DLBCL 數(shù)據(jù)集 種 DNA 微陣列數(shù)據(jù)集上,5 種方法選擇的特征基gram of genes selected by five methods on three DN特征基因定義為僅通過一種方法選擇而被其 SLDSF 選擇的“獨(dú)特的”特征基因,以確擇的特征基因的維恩圖如圖 3-3(a)所示。從共同選擇的特征基因有 9 個,SLDSF 算法”特征基因(多達(dá) 81 個),這解釋了表 3-2 能的原因,并且表明這 81 個“獨(dú)特的”特征現(xiàn)有文獻(xiàn)研究了 SLDSF 選擇的“獨(dú)特的”SF 選擇的前 5 個“獨(dú)特的”特征基因,即 GA

數(shù)據(jù)集,維恩圖,博士學(xué)位論文,實(shí)驗(yàn)結(jié)果


博士學(xué)位論文A 具有最低的 P-value。表 3-5 3 種方法在 ESCA 數(shù)據(jù)集上的 GO 實(shí)驗(yàn)結(jié)果Table 3-5 GO results of three methods on ESCA datasetIDSLDSF RPCA PMDP-Value P-Value P-ValueGO:0042060 7.30E-16 8.20E-13 7.56E-12GO:0009611 1.38E-12 4.01E-10 4.01E-10GO:0022610 2.01E-12 5.40E-14 3.37E-13GO:0006955 3.37E-12 9.95E-11 9.95E-11GO:0007155 9.34E-12 2.71E-13 1.63E-12GO:0043588 1.06E-11 1.06E-11 NoneGO:0007010 8.65E-11 1.39E-08 8.65E-11GO:0050776 9.56E-11 6.12E-10 3.70E-09GO:0034109 1.92E-10 1.59E-08 1.92E-10GO:0098609 5.20E-10 3.04E-09 3.04E-09
【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 簡彩仁;陳曉云;;基于局部保持投影和稀疏表示的無監(jiān)督特征選擇方法[J];模式識別與人工智能;2015年03期

2 陸慧娟;安春霖;馬小平;鄭恩輝;楊小兵;;基于輸出不一致測度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類[J];計(jì)算機(jī)學(xué)報;2013年02期

3 閆友彪,陳元琰;機(jī)器學(xué)習(xí)的主要策略綜述[J];計(jì)算機(jī)應(yīng)用研究;2004年07期


相關(guān)博士學(xué)位論文 前2條

1 殷路;基因表達(dá)數(shù)據(jù)的雙聚類分析與研究[D];電子科技大學(xué);2017年

2 張樂平;干細(xì)胞表達(dá)譜的生物信息學(xué)與系統(tǒng)生物學(xué)分析[D];復(fù)旦大學(xué);2011年


相關(guān)碩士學(xué)位論文 前1條

1 陳科;基于基因表達(dá)譜數(shù)據(jù)分析來挖掘接受放療和放化療的子宮頸癌樣本中的關(guān)鍵基因[D];浙江大學(xué);2017年



本文編號:2837974

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2837974.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶117d9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com