結(jié)合蛋白水平的多組學(xué)數(shù)據(jù)整合識(shí)別基因功能及致病基因
本文選題:遺傳疾病 切入點(diǎn):功能相似性 出處:《南京航空航天大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:致病基因預(yù)測(cè)一直是生物信息學(xué)領(lǐng)域的一個(gè)核心問題,發(fā)現(xiàn)致病基因是理解疾病發(fā)生機(jī)制、協(xié)助臨床判斷和預(yù)防治療的基礎(chǔ)。近年來產(chǎn)生了越來越多的基于功能相似性的致病基因預(yù)測(cè)方法,然而在目前定位的26000多個(gè)基因中,約有42%的基因的功能是未知的,功能注釋的缺失會(huì)導(dǎo)致一些疾病候選基因在預(yù)測(cè)中被忽視掉。而如果僅僅在基因水平對(duì)基因功能進(jìn)行預(yù)測(cè)是片面的,作為生物體內(nèi)各種功能的主要執(zhí)行者,蛋白質(zhì)表達(dá)與基因功能息息相關(guān),這就需要結(jié)合蛋白水平數(shù)據(jù)研究基因的功能;诖,本文將結(jié)合人類蛋白質(zhì)組表達(dá)數(shù)據(jù)并整合其他多組學(xué)數(shù)據(jù)預(yù)測(cè)人類未知基因的功能,預(yù)測(cè)致病基因。本文主要工作內(nèi)容如下:本文提出了新的基因功能預(yù)測(cè)方法Pemo,其基于結(jié)合了蛋白質(zhì)表達(dá)量的多組學(xué)數(shù)據(jù)預(yù)測(cè)基因功能。首先分析通過質(zhì)譜實(shí)驗(yàn)得到的人類蛋白質(zhì)表達(dá)量數(shù)據(jù),構(gòu)建未知功能基因的相關(guān)系數(shù)矩陣,利用相互作用網(wǎng)絡(luò)篩選假陽性結(jié)果,根據(jù)組織特異性和條件概率構(gòu)建先驗(yàn)概率功能矩陣,通過兩個(gè)矩陣的乘積對(duì)功能注釋進(jìn)行打分排序。接著利用序列信息,RNA-Seq數(shù)據(jù)和互作網(wǎng)絡(luò)數(shù)據(jù)分別對(duì)未知基因的功能進(jìn)行預(yù)測(cè),最后Pemo整合這四種組學(xué)數(shù)據(jù)對(duì)基因注釋。在此基礎(chǔ)上,本文結(jié)合蛋白水平信息和功能注釋計(jì)算候選基因與遺傳疾病之間的相關(guān)性。首先計(jì)算遺傳疾病與Gene Ontology(GO)注釋之間的關(guān)系,然后充分挖掘GO數(shù)據(jù)庫功能注釋之間的關(guān)系,綜合考慮注釋在GO結(jié)構(gòu)中的距離和其父節(jié)點(diǎn)的交集,同時(shí)結(jié)合蛋白質(zhì)表達(dá)量建立合理的評(píng)價(jià)機(jī)制,評(píng)估遺傳疾病與基因的關(guān)系。在基因功能預(yù)測(cè)方面,本文首先比較了多種組學(xué)數(shù)據(jù)的預(yù)測(cè)結(jié)果,其中基于蛋白質(zhì)表達(dá)數(shù)據(jù)集的方法在預(yù)測(cè)準(zhǔn)確率上明顯高于其他組學(xué)數(shù)據(jù)。然后分析了基于單一組學(xué)數(shù)據(jù)的預(yù)測(cè)和整合多組學(xué)數(shù)據(jù)的預(yù)測(cè)結(jié)果,證明Pemo整合多組學(xué)數(shù)據(jù)的策略是有效的,在結(jié)合了蛋白水平的信息后,預(yù)測(cè)準(zhǔn)確率有了很大提高。比較Pemo方法和其他基因功能預(yù)測(cè)方法,在GO的三個(gè)方面Pemo的表現(xiàn)都是最好的。在致病基因預(yù)測(cè)方面,本文成功預(yù)測(cè)出胃癌、肺癌、乳腺癌和先天性心臟病等遺傳疾病的致病基因,假陽性率也較低,在與其他致病基因預(yù)測(cè)方法進(jìn)行比較時(shí),本文方法的結(jié)果也是有優(yōu)勢(shì)的。在致病候選基因的相互作用網(wǎng)絡(luò)圖譜中,大多數(shù)致病基因參與共同的致病生物通路,其中一些參與程度較高的候選基因可能是潛在致病基因,有待今后實(shí)驗(yàn)進(jìn)一步驗(yàn)證。
[Abstract]:The prediction of pathogenic genes has always been a core issue in the field of bioinformatics. In recent years, more and more genetic prediction methods based on functional similarity have been developed. However, about 42% of the more than 26000 genes currently located are unknown. The absence of functional annotation can cause some disease candidate genes to be ignored in the prediction. If it is one-sided to predict gene function only at the gene level, it is the main executor of various functions in the organism. Protein expression is closely related to gene function, which requires the study of gene function with protein level data. Based on this, this paper will combine human proteome expression data and integrate other sets of data to predict the function of unknown human genes. The main work of this paper is as follows: in this paper, a novel gene function prediction method, Pemom, is proposed, which is based on multigroup data combined with protein expression. Human protein expression data, The correlation coefficient matrix of unknown functional genes was constructed, the false positive results were screened by interaction network, and a priori probability function matrix was constructed according to tissue specificity and conditional probability. Then the function of unknown genes was predicted by sequence information RNA-Seq data and interaction network data. Finally, Pemo integrates these four genomes to annotate genes. On this basis, the relationship between candidate genes and genetic diseases is calculated with protein level information and functional annotation. The relationship between genetic diseases and Gene ontology o) annotations is first calculated. Then fully mining the relationship between the functional annotations of go database, considering the distance of annotation in go structure and the intersection of its parent nodes, and establishing a reasonable evaluation mechanism combined with protein expression. To evaluate the relationship between genetic diseases and genes. In the prediction of gene function, we first compared the predicted results of a variety of cluster data. The prediction accuracy of protein expression dataset is obviously higher than that of other sets of data. Then, the prediction results based on a single set of data and the integration of multiple sets of data are analyzed. It is proved that the strategy of integrating multiple sets of data into Pemo is effective, and the prediction accuracy has been greatly improved by combining the information of protein level. Comparing Pemo method with other gene function prediction methods, In the prediction of pathogenicity genes, we successfully predicted the pathogenetic genes of gastric cancer, lung cancer, breast cancer and congenital heart disease, and the false positive rate was also low. The results of this method are also superior when compared with other pathogenetic gene prediction methods. In the interaction network map of candidate genes, most of the pathogenic genes are involved in common pathogenicity pathways. Some of these candidate genes may be potential pathogenic genes, which need to be further verified by future experiments.
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:R440
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 ;數(shù)秒鑒別致病基因已非設(shè)想[J];世界科學(xué)技術(shù);2002年01期
2 ;我國科學(xué)家發(fā)現(xiàn)房顫致病基因[J];中國臨床康復(fù);2003年09期
3 ;上海科學(xué)家發(fā)現(xiàn)一智障致病基因[J];生物學(xué)教學(xué);2012年12期
4 王丹;周敬華;曹學(xué)兵;;常染色體隱性遺傳肢帶型肌營(yíng)養(yǎng)不良癥致病基因研究進(jìn)展[J];國際神經(jīng)病學(xué)神經(jīng)外科學(xué)雜志;2007年03期
5 ;華裔博士楊平發(fā)現(xiàn)肺癌致病基因[J];養(yǎng)生大世界;2010年05期
6 劉文玲,胡大一;家族性預(yù)激綜合征致病基因的發(fā)現(xiàn)[J];中國心臟起搏與心電生理雜志;2001年06期
7 余家駒;智力為何與某些疾病伴生?——德系猶太人的高智商可能與他們帶有的某些致病基因有關(guān)[J];世界科學(xué);2005年07期
8 任翔,梁直厚,姚淇,劉木根;肢帶型肌營(yíng)養(yǎng)不良一家系致病基因排除性定位[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年09期
9 沈軼;曹國凡;蔣沁;;原發(fā)性開角型青光眼三個(gè)致病基因的研究進(jìn)展[J];眼視光學(xué)雜志;2008年02期
10 丁華新,楊曉蘇;兒童型脊髓性肌萎縮癥致病基因的研究進(jìn)展[J];中國當(dāng)代兒科雜志;2003年03期
相關(guān)會(huì)議論文 前10條
1 康曉靜;唐小輝;;表皮松解性掌跖角化病一維吾爾家系致病基因研究[A];中華醫(yī)學(xué)會(huì)第十五次全國皮膚性病學(xué)術(shù)會(huì)議論文集[C];2009年
2 卓業(yè)鴻;李秀梅;段山;侯飛;王梅;李亮;葛堅(jiān);;廣東普寧原發(fā)性開角型青光眼候選致病基因和臨床特征的研究[A];中華醫(yī)學(xué)會(huì)第十二屆全國眼科學(xué)術(shù)大會(huì)論文匯編[C];2007年
3 何君;王培光;楊春俊;楊森;張學(xué)軍;;原發(fā)性紅斑肢痛癥致病基因研究進(jìn)展[A];中華醫(yī)學(xué)會(huì)第14次全國皮膚性病學(xué)術(shù)年會(huì)論文匯編[C];2008年
4 鄭多;潘乾;劉征;席興華;劉小平;胡正茂;夏昆;夏家輝;;一個(gè)常染色體顯性遺傳視網(wǎng)膜色素變性家系致病基因的定位與鑒定[A];中國的遺傳學(xué)研究——中國遺傳學(xué)會(huì)第七次代表大會(huì)暨學(xué)術(shù)討論會(huì)論文摘要匯編[C];2003年
5 崔勇;楊森;高敏;陳建軍;嚴(yán)開林;肖風(fēng)麗;王培光;張學(xué)軍;;進(jìn)行性對(duì)稱性紅斑角化癥致病基因的染色體定位[A];中華醫(yī)學(xué)會(huì)第十二次全國皮膚性病學(xué)術(shù)會(huì)議論文集[C];2006年
6 王玉萍;楊康鵑;;先天性特發(fā)性眼球震顫致病基因研究現(xiàn)狀[A];東北三省及內(nèi)蒙古地區(qū)遺傳學(xué)研究進(jìn)展學(xué)術(shù)研討會(huì)論文匯編[C];2009年
7 張向陽;溫景敏;楊威;王程;高魯娜;鄭良宏;周專;姚鏡;張學(xué);劉靜宇;;一個(gè)新的疼痛致病基因鑒定與分子致病機(jī)制研究[A];第十二次全國醫(yī)學(xué)遺傳學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2014年
8 翟猛;林鵬飛;毛飛;孫文杰;劉奇跡;焉傳祝;龔瑤琴;;遺傳性痙攣性截癱家系致病基因突變分析[A];第十二次全國醫(yī)學(xué)遺傳學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2014年
9 杜鵑;沈璐;唐北沙;;新的AD-HSP致病基因初步定位研究[A];中華醫(yī)學(xué)會(huì)第十三次全國神經(jīng)病學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2010年
10 夏憶;柯鐵;吳小艷;金潤(rùn)銘;;先天性長(zhǎng)QT綜合征治病基因的研究進(jìn)展[A];中華醫(yī)學(xué)會(huì)第十七次全國兒科學(xué)術(shù)大會(huì)論文匯編(下冊(cè))[C];2012年
相關(guān)重要報(bào)紙文章 前10條
1 記者 唐先武;我科學(xué)家發(fā)現(xiàn)三個(gè)反常性痤瘡致病基因[N];科技日?qǐng)?bào);2010年
2 記者 葉又紅;中外攜手尋找致病基因[N];文匯報(bào);2000年
3 通訊員 萬霞 張?chǎng)┾?記者 劉志偉;我科學(xué)家發(fā)現(xiàn)特發(fā)性基底節(jié)鈣化致病基因[N];科技日?qǐng)?bào);2012年
4 黃敏;非煙民為何患肺癌?致病基因已找到[N];新華每日電訊;2010年
5 盧蘇燕;中法科學(xué)家發(fā)現(xiàn)房顫致病基因——KCNQ1[N];經(jīng)濟(jì)參考報(bào);2003年
6 蔚然;中國科學(xué)家首次發(fā)現(xiàn)房顫致病基因[N];山東科技報(bào);2003年
7 記者褚寧;首次發(fā)現(xiàn):房顫致病基因[N];解放日?qǐng)?bào);2003年
8 馮立中 朱梅福;“花手花臉”致病基因藏身染色體[N];健康報(bào);2003年
9 記者 高翔;我國專家克隆出顱內(nèi)鈣化致病基因[N];健康報(bào);2012年
10 記者田泓;我科學(xué)家發(fā)現(xiàn)家族性心房顫動(dòng)致病基因[N];人民日?qǐng)?bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 戴禮猛;先天性并指(趾)畸形和先天性厚甲癥家系致病基因鑒定及功能研究[D];第三軍醫(yī)大學(xué);2015年
2 邸亞男;全外顯子組測(cè)序鑒定RP致病基因EYS新突變及PCG候選致病基因功能研究[D];重慶醫(yī)科大學(xué);2016年
3 陳玉劍;2型腓骨肌萎縮癥家系新致病基因的篩查及發(fā)病機(jī)制研究[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2017年
4 吳舜堯;基于復(fù)雜網(wǎng)絡(luò)的致病基因檢測(cè)研究[D];青島大學(xué);2014年
5 谷峰;遺傳性白內(nèi)障致病基因的定位及其突變分析[D];中國協(xié)和醫(yī)科大學(xué);2006年
6 劉奇跡;Smith-Fineman-Myers綜合征致病基因的精細(xì)定位及候選基因分析[D];山東大學(xué);2005年
7 姜yN群;遺傳性對(duì)稱性色素異常癥致病基因的定位和突變研究[D];中國協(xié)和醫(yī)科大學(xué);2004年
8 張?zhí)鞎?兩種遺傳性眼病致病基因的定位與突變研究[D];中國醫(yī)科大學(xué);2008年
9 劉嘉利;三例遺傳性牙本質(zhì)發(fā)育不全Ⅱ型家系致病基因的定位研究[D];中國人民解放軍第四軍醫(yī)大學(xué);2003年
10 柳青;遺傳性對(duì)稱性色素異常癥致病基因的突變鑒定和功能分析[D];中國協(xié)和醫(yī)科大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 楊華冬;結(jié)合蛋白水平的多組學(xué)數(shù)據(jù)整合識(shí)別基因功能及致病基因[D];南京航空航天大學(xué);2017年
2 方明宏;基于熱擴(kuò)散模型的致病基因預(yù)測(cè)方法研究[D];華中師范大學(xué);2015年
3 周元珂;基于人類基因連接組的視網(wǎng)膜色素變異致病基因預(yù)測(cè)[D];青島大學(xué);2015年
4 曾磊;全基因組外顯子測(cè)序搜尋一例家族性進(jìn)行性色素沉著和色素減退家系的致病基因[D];安徽醫(yī)科大學(xué);2016年
5 張攀;肝癌重測(cè)序數(shù)據(jù)整合以及肝癌關(guān)鍵致病基因的研究[D];華東師范大學(xué);2016年
6 韋貞樂;基于基因網(wǎng)絡(luò)的致病基因預(yù)測(cè)算法研究[D];哈爾濱工業(yè)大學(xué);2016年
7 魯磊;基于網(wǎng)絡(luò)結(jié)構(gòu)推理和拓?fù)湎嗨菩缘闹虏』蝾A(yù)測(cè)算法[D];安徽大學(xué);2017年
8 繩紅丹;KIF2A對(duì)BBS家系表達(dá)差異基因的影響及苗族BBS家系致病基因的篩選[D];昆明理工大學(xué);2017年
9 劉笑逸;基于異構(gòu)網(wǎng)絡(luò)模型的致病基因預(yù)測(cè)算法[D];西安電子科技大學(xué);2013年
10 劉青;基于相互作用網(wǎng)絡(luò)的致病基因預(yù)測(cè)方法研究[D];中南大學(xué);2013年
,本文編號(hào):1648371
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1648371.html