腫瘤亞型分析中針對基因表達數(shù)據(jù)差分進化特征選擇算法的研究
發(fā)布時間:2020-08-28 00:18
【摘要】:生命的遺傳物質(zhì)DNA,我們可以將其蘊含的若干基因同時監(jiān)測,利用芯片雜交技術(shù)和測序技術(shù)在單次試驗中測度這些基因的表達水平,然后基于大數(shù)據(jù)進行科學分析研究,以幫助我們了解生命的奧秘。特別是二代測序技術(shù)的逐漸發(fā)展產(chǎn)生了大量的基因組數(shù)據(jù),替代了 Sanger測序技術(shù)的地位。另外三代、四代測序技術(shù)的嶄露頭角體現(xiàn)了其大片段、單分子等測序特點所帶來的優(yōu)勢。這些高通量測量技術(shù)在打破傳統(tǒng)實驗手段局限性的同時,其快速發(fā)展伴隨著各種生物基因組數(shù)據(jù)的累積。另外大型、跨學科、跨國的研究項目相繼啟動及展開,其相應(yīng)綜合型生物數(shù)據(jù)庫互聯(lián)網(wǎng)平臺為科學研究和精準醫(yī)療做出了巨大的貢獻。因此,挖掘和解釋數(shù)據(jù)的模式與規(guī)律成為當今的熱點主題,特別是生物信息學中各種方法的應(yīng)用,成功解決了分類、聚類、關(guān)聯(lián)分析等相應(yīng)研究的問題。另外機器學習算法對基因表達數(shù)據(jù)模式識別能較智能化的識別具有生物學意義的基因,并使其在實際生活應(yīng)用中幫助生物醫(yī)學臨床的診斷和治療。其中各種特征選擇方法的相繼發(fā)展成為高通量基因表達數(shù)據(jù)集模式識別和基因篩選的常規(guī)手段。雖然監(jiān)督學習的特征選擇方法在對大數(shù)據(jù)集的學習中十分高效、快捷,但對于像基因表達數(shù)據(jù)這樣高維的數(shù)據(jù)來說,隨著維數(shù)的增加其計算效率迅速降低甚至成為一個NP問題。優(yōu)化搜索算法的發(fā)展成功解決了該問題,其中應(yīng)用最多的啟發(fā)式優(yōu)化搜索算法如各種進化算法發(fā)展迅速。在進化算法家族中遺傳算法、差分進化算法在其優(yōu)化搜索上展現(xiàn)了其獨特的競爭力,其中差分進化算法以其魯棒性、快速收斂等特點迅速成為研究人員關(guān)注的焦點。因此我們在基因表達數(shù)據(jù)集上使用Ahmed Al-Ani等人提出的一種隨機種群進化優(yōu)化算法---差分進化特征選擇算法,解決特征基因選擇問題。然而發(fā)現(xiàn)該算法的缺點,由此我們改進該算法適用于基因表達數(shù)據(jù)集,其中將控制進化速率的尺度因子視為一種偏態(tài)分布,然后基于染色體空間結(jié)構(gòu)變動的事實改進基因排列的固定方式以及使種群波動性進化。另外考慮到機器學習中基因表達數(shù)據(jù)集普遍的類不平衡特性,將訓練數(shù)據(jù)集和測試數(shù)據(jù)集保持其類別構(gòu)成比幾乎相同,同時利用權(quán)重精度評估分類器模型的性能,由此緩解犧牲少數(shù)類的訓練影響。算法優(yōu)化的適應(yīng)度函數(shù)我們考慮了不同特征基因子集大小的影響,根據(jù)Dashtban M.等人提出的罰分策略,將適應(yīng)度函數(shù)由權(quán)重精度和罰分項組成。另外,我們從Laura Cantini等人發(fā)現(xiàn)microRNA-mRNA互作網(wǎng)絡(luò)中潛藏著分子亞型而獲得靈感,在對于腫瘤亞型的研究中,將算法優(yōu)化的特征基因子集與腫瘤多類亞型探索聯(lián)系起來,然后特征基因構(gòu)建樣本關(guān)系網(wǎng)絡(luò),利用極大平面過濾圖算法PMFG過濾該網(wǎng)絡(luò),并使用拓撲圖形劃分算法初步探索腫瘤亞型劃分的可行性。在本研究工作中改進的差分進化特征選擇算法即模擬了宏觀的物種進化方式,又模擬了微觀分子間位置關(guān)系的演變,以實現(xiàn)算法更近似模擬研究對象的活動規(guī)律。在真實的數(shù)據(jù)應(yīng)用上,表現(xiàn)出該算法高效的計算能力和良好的結(jié)果。而且在腫瘤亞型拓撲探索研究中,我們將特征基因作為媒介構(gòu)建樣本關(guān)系網(wǎng)絡(luò),其中每個基因都能高效判別。然后以對照組作為一個獨立社團為基準即參照物,利用PMFG算法過濾網(wǎng)絡(luò),拓撲劃分方法實現(xiàn)腫瘤亞型的劃分,而相應(yīng)的特征基因集值得進一步研究分析。雖然沒有驗證拓撲劃分的生物學意義,但我們的研究工作在大數(shù)據(jù)腫瘤背景下提供了借鑒之處。
【學位授予單位】:南方醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R730;Q811.4
【圖文】:
保證對其后GVCE邋(Gene邋Variable邋Coefficient邋Entropy)的計算使其值不為0。在逡逑本文中將GVCE稱為基因變異系數(shù)摘,由于差分進化尺度因子的取值范圍一般逡逑設(shè)置為0?1,因此將其最大值標準化使0<GVCE<1。圖2-1展示了本文中使用的逡逑各個基因表達數(shù)據(jù)集尺度因子的分布情況即基因變異系數(shù)熵的分布圖。逡逑22逡逑
逑在N除以D余數(shù)不為零的情況下,輪盤剩余空位用無窮大符號填充,整個輪盤逡逑的基因排列方式如圖2-2,該圖展示了模擬染色體上基因空間位置親代g與子代逡逑g+1演變的過程,假設(shè)輪盤模板數(shù)D為2,基因數(shù)量N為31,輪盤上的數(shù)值代逡逑表基因?qū)?yīng)的索引,紅色的基因為算法優(yōu)化選擇的較優(yōu)特征,上下兩代遺傳中逡逑保持基因位置的不變性。逡逑g邐g+1逡逑11邐i5邐20邐I邐nr逡逑26邐8邐irj邐TT逡逑1邐24邐1邐24逡逑邐邋邐邋邐邋邐逡逑21邐30邐s邐I逡逑3邐5邐TTl邐5逡逑I邋I邐I逡逑14邐22邐[\邋TH邋22逡逑hr逡逑一邐邐邐邋Genes邋X邐邐邐逡逑19邐IS邐]/邋1?邋I邋26逡逑25邐*邐'逡逑20邐6邐29邐31逡逑n邐23邐6邐r逡逑10邐16邐9邐23逡逑29邐13邐 ̄4|邐18逡逑12邐31邐12邐10逡逑28逡逑圖2-2親代與子代間輪盤模擬染色體上基因空間位置演變的過程。逡逑Fig邋2-2邋The邋roulette邋simulates邋the邋evolution邋process邋of邋the邋gene邋spatial邋position邋on邋chromosome逡逑between邋parent邋and邋offspring.逡逑基于前面輪盤模擬染色體片段的過程,初始種群隨機從輪盤模版上產(chǎn)生,逡逑并用適應(yīng)度函數(shù)評判比較產(chǎn)生初始親本。在計算步驟進入差分進化計算之前,逡逑我們依據(jù)生物表型是由遺傳和環(huán)境共同影響的理論基礎(chǔ),將種群中NP個特征基逡逑因子集的適應(yīng)度函數(shù)值FitEiror進行比較
碩士學位論文逡逑帶來的影響。最后算法終止觀察整個種群中個體的質(zhì)量,一定比初始階段時期逡逑的種群個體要好,并且代與代之間存在差異。圖2-3展示了兩個高度類不平衡數(shù)逡逑據(jù)集在KNN和SVM分類器訓練上的這一現(xiàn)象,圖2-4展示了另外三個數(shù)據(jù)集逡逑在KNN、SVM和NB分類器上的種群波動進化現(xiàn)象,兩圖都表明該操作能波動逡逑性的影響種群的進化歷程,另外對種群的進化整體而言,其呈現(xiàn)出向更優(yōu)方向逡逑進化的發(fā)展趨勢。逡逑Population邋Variability邋on邋BrainTumorl逡逑I邐T邐?曬逡逑J邐1邐+邋SVM逡逑i逡逑L逡逑GeneratKjns逡逑<b)邐Population邋Variability邋on邋Colon逡逑?邐Ciassifier逡逑I邋.邐—逡逑£邐SVM逡逑4逡逑i逡逑Generators逡逑圖2-3利用KNN和SVM分類器訓練的種群進化波動優(yōu)化過程。(a)和(b)分別表示逡逑BrainTumorl和Colon數(shù)據(jù)集的結(jié)果。逡逑Fig邋2-3邋Population邋evolutionary邋volatility邋optimization邋process邋is邋trained邋by邋KNN邋and邋SVM逡逑classifiers,邋(a)邋and邋(b)邋indicate邋the邋results邋on邋BrainTumorl邋and邋Colon邋datasets,邋respectively.逡逑25逡逑
本文編號:2806811
【學位授予單位】:南方醫(yī)科大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R730;Q811.4
【圖文】:
保證對其后GVCE邋(Gene邋Variable邋Coefficient邋Entropy)的計算使其值不為0。在逡逑本文中將GVCE稱為基因變異系數(shù)摘,由于差分進化尺度因子的取值范圍一般逡逑設(shè)置為0?1,因此將其最大值標準化使0<GVCE<1。圖2-1展示了本文中使用的逡逑各個基因表達數(shù)據(jù)集尺度因子的分布情況即基因變異系數(shù)熵的分布圖。逡逑22逡逑
逑在N除以D余數(shù)不為零的情況下,輪盤剩余空位用無窮大符號填充,整個輪盤逡逑的基因排列方式如圖2-2,該圖展示了模擬染色體上基因空間位置親代g與子代逡逑g+1演變的過程,假設(shè)輪盤模板數(shù)D為2,基因數(shù)量N為31,輪盤上的數(shù)值代逡逑表基因?qū)?yīng)的索引,紅色的基因為算法優(yōu)化選擇的較優(yōu)特征,上下兩代遺傳中逡逑保持基因位置的不變性。逡逑g邐g+1逡逑11邐i5邐20邐I邐nr逡逑26邐8邐irj邐TT逡逑1邐24邐1邐24逡逑邐邋邐邋邐邋邐逡逑21邐30邐s邐I逡逑3邐5邐TTl邐5逡逑I邋I邐I逡逑14邐22邐[\邋TH邋22逡逑hr逡逑一邐邐邐邋Genes邋X邐邐邐逡逑19邐IS邐]/邋1?邋I邋26逡逑25邐*邐'逡逑20邐6邐29邐31逡逑n邐23邐6邐r逡逑10邐16邐9邐23逡逑29邐13邐 ̄4|邐18逡逑12邐31邐12邐10逡逑28逡逑圖2-2親代與子代間輪盤模擬染色體上基因空間位置演變的過程。逡逑Fig邋2-2邋The邋roulette邋simulates邋the邋evolution邋process邋of邋the邋gene邋spatial邋position邋on邋chromosome逡逑between邋parent邋and邋offspring.逡逑基于前面輪盤模擬染色體片段的過程,初始種群隨機從輪盤模版上產(chǎn)生,逡逑并用適應(yīng)度函數(shù)評判比較產(chǎn)生初始親本。在計算步驟進入差分進化計算之前,逡逑我們依據(jù)生物表型是由遺傳和環(huán)境共同影響的理論基礎(chǔ),將種群中NP個特征基逡逑因子集的適應(yīng)度函數(shù)值FitEiror進行比較
碩士學位論文逡逑帶來的影響。最后算法終止觀察整個種群中個體的質(zhì)量,一定比初始階段時期逡逑的種群個體要好,并且代與代之間存在差異。圖2-3展示了兩個高度類不平衡數(shù)逡逑據(jù)集在KNN和SVM分類器訓練上的這一現(xiàn)象,圖2-4展示了另外三個數(shù)據(jù)集逡逑在KNN、SVM和NB分類器上的種群波動進化現(xiàn)象,兩圖都表明該操作能波動逡逑性的影響種群的進化歷程,另外對種群的進化整體而言,其呈現(xiàn)出向更優(yōu)方向逡逑進化的發(fā)展趨勢。逡逑Population邋Variability邋on邋BrainTumorl逡逑I邐T邐?曬逡逑J邐1邐+邋SVM逡逑i逡逑L逡逑GeneratKjns逡逑<b)邐Population邋Variability邋on邋Colon逡逑?邐Ciassifier逡逑I邋.邐—逡逑£邐SVM逡逑4逡逑i逡逑Generators逡逑圖2-3利用KNN和SVM分類器訓練的種群進化波動優(yōu)化過程。(a)和(b)分別表示逡逑BrainTumorl和Colon數(shù)據(jù)集的結(jié)果。逡逑Fig邋2-3邋Population邋evolutionary邋volatility邋optimization邋process邋is邋trained邋by邋KNN邋and邋SVM逡逑classifiers,邋(a)邋and邋(b)邋indicate邋the邋results邋on邋BrainTumorl邋and邋Colon邋datasets,邋respectively.逡逑25逡逑
【參考文獻】
相關(guān)期刊論文 前10條
1 楊健;蔡浩洋;;腫瘤生物信息學數(shù)據(jù)庫[J];生物技術(shù)通報;2015年11期
2 桂起權(quán);;解讀系統(tǒng)生物學:還原論與整體論的綜合[J];自然辯證法通訊;2015年05期
3 柳延虎;王璐;于黎;;單分子實時測序技術(shù)的原理與應(yīng)用[J];遺傳;2015年03期
4 李金昌;;大數(shù)據(jù)與統(tǒng)計新思維[J];統(tǒng)計研究;2014年01期
5 賈棟;賈小云;馬瑞燕;;生物信息學數(shù)據(jù)庫及查詢[J];山西農(nóng)業(yè)大學學報(自然科學版);2013年06期
6 王興春;楊致榮;王敏;李瑋;李生才;;高通量測序技術(shù)及其應(yīng)用[J];中國生物工程雜志;2012年01期
7 陳巖;潘龍;;基因芯片技術(shù)研究進展[J];齊齊哈爾醫(yī)學院學報;2011年17期
8 占愛瑤;羅培高;;DNA測序技術(shù)概述[J];生物技術(shù)通訊;2011年04期
9 計智偉;胡珉;尹建新;;特征選擇算法綜述[J];電子設(shè)計工程;2011年09期
10 王渝生;;破譯生命“天書”——人類基因組計劃20年[J];科學世界;2010年12期
本文編號:2806811
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/2806811.html
最近更新
教材專著