基因表達(dá)數(shù)據(jù)的并行聚類及其集成分類研究
發(fā)布時(shí)間:2017-10-14 15:09
本文關(guān)鍵詞:基因表達(dá)數(shù)據(jù)的并行聚類及其集成分類研究
更多相關(guān)文章: 知識融合 集成學(xué)習(xí) 基因表達(dá)數(shù)據(jù) 并行計(jì)算
【摘要】:生物信息學(xué)的研究處在一個(gè)數(shù)據(jù)爆炸的時(shí)代,近年來在基因組學(xué)、代謝組學(xué)、轉(zhuǎn)錄組和蛋白質(zhì)組學(xué)等領(lǐng)域技術(shù)的進(jìn)步,使得生物學(xué)家可以有更多的數(shù)據(jù)從不同方面對生命體進(jìn)行分析。基因表達(dá)的異常往往意味著非正常的生命活動(dòng),這種表達(dá)值的變化可以通過微陣列技術(shù)以基因表達(dá)數(shù)據(jù)的形成呈現(xiàn)出來。通過對基因表達(dá)數(shù)據(jù)進(jìn)行分析,可以用來對人類和動(dòng)物進(jìn)行疾病診斷,研究植物生長過程中的異常現(xiàn)象。將不同類型的生物數(shù)據(jù)融合在一起用于分析的方法已成為近年來生物信息學(xué)領(lǐng)域的一種趨勢,這種稱為生物數(shù)據(jù)融合的方法可以幫助研究者發(fā)現(xiàn)數(shù)據(jù)之間存在的潛在關(guān)聯(lián),同時(shí)更好地理解某些生物現(xiàn)象的本質(zhì)。聚類是對基因表達(dá)數(shù)據(jù)進(jìn)行降維的有效方法,通過對數(shù)以萬計(jì)的基因進(jìn)行分簇,每個(gè)聚簇的基因個(gè)數(shù)降到了幾百甚至幾十個(gè)。本文在聚類過程中融合生物知識,提高結(jié)果的生物學(xué)可解釋性。同時(shí)針對聚類產(chǎn)生的基因子集之間具有較大差異性的特點(diǎn),使用集成學(xué)習(xí)的思想構(gòu)建分類模型,處理基因表達(dá)數(shù)據(jù)的分類問題。基因本體數(shù)據(jù)庫提供了豐富的基因功能注釋信息�;诰垲愔蠡蚓鄞厣镄畔⒉蛔愕膯栴},可以使用基因本體知識計(jì)算出基因之間的生物功能相似度,并將其與基因表達(dá)數(shù)據(jù)相結(jié)合。采用近鄰傳播聚類算法對融合后的數(shù)據(jù)進(jìn)行分簇,得到更加具有生物意義的基因子集,并分析生物知識融合對于結(jié)果的影響�;诰垲惤Y(jié)果,使用鄰域粗糙集的方法從每一簇中選出具有代表性的基因用于訓(xùn)練分類器,并建立更加穩(wěn)定的集成分類模型。通過在植物脅迫響應(yīng)基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了融合基因本體知識的有效性。簡單的基因初選過程可能會(huì)損失一些潛在的有分類價(jià)值的基因,本文使用并行計(jì)算技術(shù),實(shí)現(xiàn)近鄰傳播聚類算法的并行化,直接對原始的基因進(jìn)行聚類。針對聚類之后可能會(huì)產(chǎn)生較多基因子集的問題,采用隨機(jī)爬山搜索算法對訓(xùn)練得到的分類器進(jìn)行篩選,選出一組合適的分類器用于最終的集成分類。由植物脅迫響應(yīng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可知該方法可以選擇出分類能力更強(qiáng)的基因集合。
【關(guān)鍵詞】:知識融合 集成學(xué)習(xí) 基因表達(dá)數(shù)據(jù) 并行計(jì)算
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q811.4;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 本文的研究內(nèi)容及結(jié)構(gòu)11-14
- 2 基因選擇與樣本分類相關(guān)方法14-22
- 2.1 基于生物知識融合的基因表達(dá)數(shù)據(jù)分析方法14-16
- 2.1.1 常用的生物知識簡介14-15
- 2.1.2 基于生物知識融合的相關(guān)方法15-16
- 2.2 基因表達(dá)數(shù)據(jù)樣本的集成分類方法16-18
- 2.3 海量生物數(shù)據(jù)的并行處理18-20
- 2.4 粒計(jì)算的大數(shù)據(jù)處理中的應(yīng)用20-21
- 2.5 本章小結(jié)21-22
- 3 融合生物知識的基因表達(dá)數(shù)據(jù)集成分類22-37
- 3.1 生物知識融合方法22-23
- 3.2 近鄰傳播聚類23-24
- 3.3 基于生物知識融合的基因表達(dá)數(shù)據(jù)分析方法24-26
- 3.3.1 基因初選24
- 3.3.2 基于生物相關(guān)聚簇的基因選擇24-26
- 3.4 實(shí)驗(yàn)結(jié)果與分析26-36
- 3.4.1 實(shí)驗(yàn)數(shù)據(jù)集26-27
- 3.4.2 實(shí)驗(yàn)設(shè)置27
- 3.4.3 實(shí)驗(yàn)結(jié)果分析27-33
- 3.4.4 對比實(shí)驗(yàn)33-34
- 3.4.5 生物學(xué)意義分析34-36
- 3.5 本章小結(jié)36-37
- 4 基于并行聚類的基因表達(dá)數(shù)據(jù)集成分類37-47
- 4.1 MapReduce并行編程框架37-38
- 4.2 基于并行計(jì)算的基因表達(dá)數(shù)據(jù)分析方法38-43
- 4.2.1 并行近鄰傳播聚類算法38-40
- 4.2.2 隨機(jī)爬山搜索分類器選擇方法40-43
- 4.3 實(shí)驗(yàn)結(jié)果與分析43-46
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)集43
- 4.3.2 實(shí)驗(yàn)設(shè)置43
- 4.3.3 實(shí)驗(yàn)結(jié)果及分析43-46
- 4.4 本章小結(jié)46-47
- 結(jié)論47-48
- 參考文獻(xiàn)48-53
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況53-54
- 致謝54-55
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 徐計(jì);王國胤;于洪;;基于粒計(jì)算的大數(shù)據(jù)處理[J];計(jì)算機(jī)學(xué)報(bào);2015年08期
,本文編號:1031716
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1031716.html
最近更新
教材專著