基于因果定向的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法研究與實現(xiàn)
本文選題:基因調(diào)控網(wǎng)絡(luò) 切入點:轉(zhuǎn)錄調(diào)控關(guān)系 出處:《哈爾濱工業(yè)大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
【摘要】:基因調(diào)控網(wǎng)絡(luò)構(gòu)建和調(diào)控關(guān)系的發(fā)現(xiàn)對于研究物種轉(zhuǎn)錄調(diào)控機制具有重要意義,是能夠促進生物信息學(xué)和系統(tǒng)生物學(xué)研究的一項重要工作。傳統(tǒng)的實驗驗證方法耗費巨大,利用現(xiàn)有的基因表達(dá)譜數(shù)據(jù)和其它生物信息學(xué)數(shù)據(jù),通過機器學(xué)習(xí)和統(tǒng)計學(xué)模型和方法構(gòu)建基因調(diào)控網(wǎng)絡(luò),或者發(fā)現(xiàn)基因調(diào)控關(guān)系,能夠有效減少實驗驗證的規(guī)模,對實驗驗證具有重要的指導(dǎo)作用。 基因的調(diào)控機制是復(fù)雜的,涉及生物體內(nèi)各種分子之間的作用,對此,已有不少模型和方法用于構(gòu)建調(diào)控網(wǎng)絡(luò)和發(fā)現(xiàn)調(diào)控關(guān)系。本文結(jié)合最新的因果定向研究方法,提出基于因果定向的調(diào)控網(wǎng)絡(luò)構(gòu)建方法和調(diào)控網(wǎng)絡(luò)關(guān)系預(yù)測方法,具體的研究內(nèi)容如下: (1)綜述目前的基因調(diào)控網(wǎng)絡(luò)構(gòu)建和調(diào)控關(guān)系預(yù)測模型和方法,分析構(gòu)建基因調(diào)控網(wǎng)絡(luò)和調(diào)控關(guān)系發(fā)現(xiàn)的主要問題:多因子調(diào)控和統(tǒng)計顯著性,本文認(rèn)為特征選擇和監(jiān)督學(xué)習(xí)可以有效的解決這些問題。 (2)介紹基于因果定向模型和方法,這些模型和方法可用于基因調(diào)控關(guān)系方向的確定,因果定向的這些研究方法也可以用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)和調(diào)控關(guān)系的發(fā)現(xiàn)。 (3)受因果定向算法能夠有效定向調(diào)控關(guān)系的啟發(fā),本文提出一個基于加性噪聲模型的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法,用基于加性噪聲的定向算法度量因果關(guān)系程度,該算法首先將加性噪聲模型的因果定向算法擴展為是一個特征選擇算法,通過建立調(diào)控因子集合與每個基因間的加性噪聲模型來選擇基因的調(diào)控因子。在DREAM5的三個數(shù)據(jù)集上,與其他算法進行比較效果有不錯的提升。另外,設(shè)計和開發(fā)基于該算法的工具,用于篩選目標(biāo)基因的候選因子,并將該結(jié)果可視化。 (4)監(jiān)督學(xué)習(xí)方法能夠根據(jù)已發(fā)現(xiàn)的數(shù)據(jù)訓(xùn)練預(yù)測模型,本文提出用一個監(jiān)督學(xué)習(xí)的算法用于調(diào)控關(guān)系的預(yù)測,主要的工作是:生成反映基因表達(dá)譜的特征向量,利用正反例不平衡率抽取樣本。我們采用隨機森林算法訓(xùn)練調(diào)控關(guān)系預(yù)測模型,隨機森林是一種優(yōu)秀的分類算法,在其它類似問題上有很好的表現(xiàn)。最后,與非監(jiān)督的構(gòu)建算法CLR和監(jiān)督算法SIRENE算法在DREAM5的三個數(shù)據(jù)集上進行比較,發(fā)現(xiàn)本文提出的監(jiān)督算法優(yōu)于CLR和SIRENE算法。
[Abstract]:The construction of gene regulatory networks and the discovery of regulatory relationships are of great significance to the study of the transcriptional regulation mechanism of species, which is an important work that can promote the research of bioinformatics and systems biology. Using existing gene expression profile data and other bioinformatics data, constructing gene regulatory networks through machine learning and statistical models and methods, or discovering gene regulation relationships, can effectively reduce the scale of experimental verification. It plays an important guiding role in experimental verification. The mechanism of gene regulation is complex and involves the interaction of various molecules in the organism. Many models and methods have been used to construct the regulatory network and to discover the regulatory relationship. This paper proposes a method to construct regulatory network based on causality orientation and a method to predict the relationship between regulatory and regulatory networks. The specific research contents are as follows:. 1) the current models and methods of gene regulation network construction and regulation relationship prediction are reviewed, and the main problems of gene regulation network construction and regulation relationship discovery are analyzed: multifactor regulation and statistical significance. This paper argues that feature selection and supervised learning can effectively solve these problems. This paper introduces the models and methods based on causality orientation, which can be used to determine the direction of gene regulation relationship, and these research methods of causality orientation can also be used to construct gene regulation network and to discover the regulation relationship. 3) inspired by the fact that the causal orientation algorithm can effectively orient the regulatory relationship, this paper proposes an algorithm for constructing gene regulatory networks based on additive noise model, which measures the degree of causality by using an additive noise-based orientation algorithm. The algorithm firstly extends the cause-and-effect orientation algorithm of additive noise model to a feature selection algorithm. The additive noise model between the set of regulatory factors and each gene is established to select the regulatory factors of genes. In addition, a tool based on this algorithm is designed and developed to screen candidate factors of target gene and visualize the result. 4) the supervised learning method can train the prediction model according to the discovered data. In this paper, a supervised learning algorithm is proposed to predict the regulatory relationship. The main work is to generate feature vectors reflecting the gene expression profile. We use the random forest algorithm to train the predictive model of the regulation relation. The stochastic forest is an excellent classification algorithm, and it has good performance on other similar problems. Compared with the unsupervised construction algorithm (CLR) and the supervised algorithm (SIRENE) on the three datasets of DREAM5, it is found that the proposed supervised algorithm is superior to the CLR and SIRENE algorithms.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP301.6;Q811.3
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 羅萬春;易東;劉恩;龔利紅;;整數(shù)非線性規(guī)劃模型在乳腺癌轉(zhuǎn)移相關(guān)基因表達(dá)調(diào)控網(wǎng)絡(luò)建立中的應(yīng)用[J];北京生物醫(yī)學(xué)工程;2008年02期
2 馬猛;鈕俊清;寧巖;鄭浩然;王煦法;;聚類和關(guān)聯(lián)規(guī)則挖掘在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用研究[J];北京生物醫(yī)學(xué)工程;2008年04期
3 金志超;吳騁;高青斌;姜洋;賀佳;;基于時間序列表達(dá)數(shù)據(jù)基因調(diào)控網(wǎng)絡(luò)模型的研究進展[J];第二軍醫(yī)大學(xué)學(xué)報;2008年09期
4 江寧;劉學(xué)武;劉文超;劉新平;;用比較基因組學(xué)方法分析人NDRG2的生物學(xué)功能[J];第四軍醫(yī)大學(xué)學(xué)報;2009年18期
5 黨春艷;周繼鵬;王桂香;李茹柳;高小玲;陳蔚文;;慢性胃炎脾虛證差異表達(dá)基因識別研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2009年03期
6 劉曉潔;吳家鑫;;貝葉斯網(wǎng)絡(luò)在故障診斷中的應(yīng)用[J];北京聯(lián)合大學(xué)學(xué)報;2014年02期
7 李偉波;齊玉東;彭軍;張光軼;;基于貝葉斯網(wǎng)絡(luò)的導(dǎo)彈仿真數(shù)據(jù)分析方法研究[J];彈箭與制導(dǎo)學(xué)報;2014年02期
8 張繼旺;馬慶春;張來斌;;基于FTA-BN模型的城市燃?xì)夤艿朗эL(fēng)險分析[J];北京石油化工學(xué)院學(xué)報;2014年03期
9 彭天昊;湯敏麗;唐型基;唐林海;;貝葉斯網(wǎng)在高校教學(xué)質(zhì)量分析中的應(yīng)用研究[J];計算機光盤軟件與應(yīng)用;2014年11期
10 聶桂軍;王靖;王加俊;葉錫君;陳強;楊靜宇;;基于微分的cDNA基因芯片圖像自動劃格算法[J];江南大學(xué)學(xué)報(自然科學(xué)版);2010年01期
相關(guān)博士學(xué)位論文 前10條
1 于化龍;基于DNA微陣列數(shù)據(jù)的癌癥分類技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 徐兆華;基因芯片數(shù)據(jù)統(tǒng)合分析方法的若干拓展[D];浙江大學(xué);2010年
3 黎剛果;基因模塊識別與分析相關(guān)問題研究[D];國防科學(xué)技術(shù)大學(xué);2010年
4 祁云嵩;微陣列數(shù)據(jù)分析中的基因選擇及樣本分類方法研究[D];南京理工大學(xué);2011年
5 郭懿;基于基因芯片的鼻咽癌研究[D];復(fù)旦大學(xué);2009年
6 姚佳;孕酮與干擾素-τ對體外培養(yǎng)的牛子宮內(nèi)膜細(xì)胞基因組表達(dá)譜的影響[D];四川農(nóng)業(yè)大學(xué);2011年
7 緱葵香;基于貝葉斯理論的基因調(diào)控網(wǎng)絡(luò)建模研究[D];天津大學(xué);2010年
8 荀鵬程;高維生物學(xué)數(shù)據(jù)分析中的幾個統(tǒng)計問題[D];南京醫(yī)科大學(xué);2007年
9 許嘉;利用生物芯片技術(shù)檢測轉(zhuǎn)基因農(nóng)作物[D];復(fù)旦大學(xué);2007年
10 陳玉旺;基于極值動力學(xué)的自組織優(yōu)化理論、算法與應(yīng)用研究[D];上海交通大學(xué);2008年
,本文編號:1618784
本文鏈接:http://sikaile.net/yixuelunwen/swyx/1618784.html