基因表達數據的并行聚類及其集成分類研究
發(fā)布時間:2017-10-14 15:09
本文關鍵詞:基因表達數據的并行聚類及其集成分類研究
【摘要】:生物信息學的研究處在一個數據爆炸的時代,近年來在基因組學、代謝組學、轉錄組和蛋白質組學等領域技術的進步,使得生物學家可以有更多的數據從不同方面對生命體進行分析;虮磉_的異常往往意味著非正常的生命活動,這種表達值的變化可以通過微陣列技術以基因表達數據的形成呈現出來。通過對基因表達數據進行分析,可以用來對人類和動物進行疾病診斷,研究植物生長過程中的異,F象。將不同類型的生物數據融合在一起用于分析的方法已成為近年來生物信息學領域的一種趨勢,這種稱為生物數據融合的方法可以幫助研究者發(fā)現數據之間存在的潛在關聯(lián),同時更好地理解某些生物現象的本質。聚類是對基因表達數據進行降維的有效方法,通過對數以萬計的基因進行分簇,每個聚簇的基因個數降到了幾百甚至幾十個。本文在聚類過程中融合生物知識,提高結果的生物學可解釋性。同時針對聚類產生的基因子集之間具有較大差異性的特點,使用集成學習的思想構建分類模型,處理基因表達數據的分類問題;虮倔w數據庫提供了豐富的基因功能注釋信息;诰垲愔蠡蚓鄞厣镄畔⒉蛔愕膯栴},可以使用基因本體知識計算出基因之間的生物功能相似度,并將其與基因表達數據相結合。采用近鄰傳播聚類算法對融合后的數據進行分簇,得到更加具有生物意義的基因子集,并分析生物知識融合對于結果的影響;诰垲惤Y果,使用鄰域粗糙集的方法從每一簇中選出具有代表性的基因用于訓練分類器,并建立更加穩(wěn)定的集成分類模型。通過在植物脅迫響應基因表達數據集上的實驗結果表明了融合基因本體知識的有效性。簡單的基因初選過程可能會損失一些潛在的有分類價值的基因,本文使用并行計算技術,實現近鄰傳播聚類算法的并行化,直接對原始的基因進行聚類。針對聚類之后可能會產生較多基因子集的問題,采用隨機爬山搜索算法對訓練得到的分類器進行篩選,選出一組合適的分類器用于最終的集成分類。由植物脅迫響應數據集上的實驗結果可知該方法可以選擇出分類能力更強的基因集合。
【關鍵詞】:知識融合 集成學習 基因表達數據 并行計算
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:Q811.4;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景與意義9-10
- 1.2 國內外研究現狀10-11
- 1.3 本文的研究內容及結構11-14
- 2 基因選擇與樣本分類相關方法14-22
- 2.1 基于生物知識融合的基因表達數據分析方法14-16
- 2.1.1 常用的生物知識簡介14-15
- 2.1.2 基于生物知識融合的相關方法15-16
- 2.2 基因表達數據樣本的集成分類方法16-18
- 2.3 海量生物數據的并行處理18-20
- 2.4 粒計算的大數據處理中的應用20-21
- 2.5 本章小結21-22
- 3 融合生物知識的基因表達數據集成分類22-37
- 3.1 生物知識融合方法22-23
- 3.2 近鄰傳播聚類23-24
- 3.3 基于生物知識融合的基因表達數據分析方法24-26
- 3.3.1 基因初選24
- 3.3.2 基于生物相關聚簇的基因選擇24-26
- 3.4 實驗結果與分析26-36
- 3.4.1 實驗數據集26-27
- 3.4.2 實驗設置27
- 3.4.3 實驗結果分析27-33
- 3.4.4 對比實驗33-34
- 3.4.5 生物學意義分析34-36
- 3.5 本章小結36-37
- 4 基于并行聚類的基因表達數據集成分類37-47
- 4.1 MapReduce并行編程框架37-38
- 4.2 基于并行計算的基因表達數據分析方法38-43
- 4.2.1 并行近鄰傳播聚類算法38-40
- 4.2.2 隨機爬山搜索分類器選擇方法40-43
- 4.3 實驗結果與分析43-46
- 4.3.1 實驗數據集43
- 4.3.2 實驗設置43
- 4.3.3 實驗結果及分析43-46
- 4.4 本章小結46-47
- 結論47-48
- 參考文獻48-53
- 攻讀碩士學位期間發(fā)表學術論文情況53-54
- 致謝54-55
【參考文獻】
中國期刊全文數據庫 前1條
1 徐計;王國胤;于洪;;基于粒計算的大數據處理[J];計算機學報;2015年08期
,本文編號:1031716
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1031716.html
最近更新
教材專著