基因表達數據的并行聚類及其集成分類研究

發(fā)布時間：2017-10-14 15:09

本文關鍵詞：基因表達數據的并行聚類及其集成分類研究

【摘要】：生物信息學的研究處在一個數據爆炸的時代,近年來在基因組學、代謝組學、轉錄組和蛋白質組學等領域技術的進步,使得生物學家可以有更多的數據從不同方面對生命體進行分析�；虮磉_的異常往往意味著非正常的生命活動,這種表達值的變化可以通過微陣列技術以基因表達數據的形成呈現出來。通過對基因表達數據進行分析,可以用來對人類和動物進行疾病診斷,研究植物生長過程中的異�，F象。將不同類型的生物數據融合在一起用于分析的方法已成為近年來生物信息學領域的一種趨勢,這種稱為生物數據融合的方法可以幫助研究者發(fā)現數據之間存在的潛在關聯(lián),同時更好地理解某些生物現象的本質。聚類是對基因表達數據進行降維的有效方法,通過對數以萬計的基因進行分簇,每個聚簇的基因個數降到了幾百甚至幾十個。本文在聚類過程中融合生物知識,提高結果的生物學可解釋性。同時針對聚類產生的基因子集之間具有較大差異性的特點,使用集成學習的思想構建分類模型,處理基因表達數據的分類問題�；虮倔w數據庫提供了豐富的基因功能注釋信息�；诰垲愔蠡蚓鄞厣镄畔⒉蛔愕膯栴},可以使用基因本體知識計算出基因之間的生物功能相似度,并將其與基因表達數據相結合。采用近鄰傳播聚類算法對融合后的數據進行分簇,得到更加具有生物意義的基因子集,并分析生物知識融合對于結果的影響�；诰垲惤Y果,使用鄰域粗糙集的方法從每一簇中選出具有代表性的基因用于訓練分類器,并建立更加穩(wěn)定的集成分類模型。通過在植物脅迫響應基因表達數據集上的實驗結果表明了融合基因本體知識的有效性。簡單的基因初選過程可能會損失一些潛在的有分類價值的基因,本文使用并行計算技術,實現近鄰傳播聚類算法的并行化,直接對原始的基因進行聚類。針對聚類之后可能會產生較多基因子集的問題,采用隨機爬山搜索算法對訓練得到的分類器進行篩選,選出一組合適的分類器用于最終的集成分類。由植物脅迫響應數據集上的實驗結果可知該方法可以選擇出分類能力更強的基因集合。
【關鍵詞】：知識融合 集成學習 基因表達數據 并行計算
【學位授予單位】：大連理工大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：Q811.4;TP311.13
【目錄】：

摘要4-5
Abstract5-9
1 緒論9-14
1.1 研究背景與意義9-10
1.2 國內外研究現狀10-11
1.3 本文的研究內容及結構11-14
2 基因選擇與樣本分類相關方法14-22
2.1 基于生物知識融合的基因表達數據分析方法14-16
2.1.1 常用的生物知識簡介14-15
2.1.2 基于生物知識融合的相關方法15-16
2.2 基因表達數據樣本的集成分類方法16-18
2.3 海量生物數據的并行處理18-20
2.4 粒計算的大數據處理中的應用20-21
2.5 本章小結21-22
3 融合生物知識的基因表達數據集成分類22-37
3.1 生物知識融合方法22-23
3.2 近鄰傳播聚類23-24
3.3 基于生物知識融合的基因表達數據分析方法24-26
3.3.1 基因初選24
3.3.2 基于生物相關聚簇的基因選擇24-26
3.4 實驗結果與分析26-36
3.4.1 實驗數據集26-27
3.4.2 實驗設置27
3.4.3 實驗結果分析27-33
3.4.4 對比實驗33-34
3.4.5 生物學意義分析34-36
3.5 本章小結36-37
4 基于并行聚類的基因表達數據集成分類37-47
4.1 MapReduce并行編程框架37-38
4.2 基于并行計算的基因表達數據分析方法38-43
4.2.1 并行近鄰傳播聚類算法38-40
4.2.2 隨機爬山搜索分類器選擇方法40-43
4.3 實驗結果與分析43-46
4.3.1 實驗數據集43
4.3.2 實驗設置43
4.3.3 實驗結果及分析43-46
4.4 本章小結46-47
結論47-48
參考文獻48-53
攻讀碩士學位期間發(fā)表學術論文情況53-54
致謝54-55

【參考文獻】

中國期刊全文數據庫前1條

1 徐計;王國胤;于洪;;基于粒計算的大數據處理[J];計算機學報;2015年08期

，

本文編號：1031716

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/jiyingongcheng/1031716.html

上一篇：豬瘟病毒亞基因復制子及其細胞系的構建
下一篇：S100A10基因沉默對人軟骨細胞內核轉錄因子NF-κB活性的影響

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基因表達數據的并行聚類及其集成分類研究