蛋白質(zhì)-RNA相互作用的集成算法預(yù)測(cè)研究及統(tǒng)計(jì)分析
發(fā)布時(shí)間:2017-05-25 12:23
本文關(guān)鍵詞:蛋白質(zhì)-RNA相互作用的集成算法預(yù)測(cè)研究及統(tǒng)計(jì)分析,由筆耕文化傳播整理發(fā)布。
【摘要】:蛋白質(zhì)-RNA相互作用與生物體內(nèi)的多種生命活動(dòng)密切相關(guān)。因此,探討蛋白質(zhì)-RNA相互作用的分子機(jī)制,對(duì)于理解生物學(xué)過程、疾病病理研究以及藥物設(shè)計(jì)具有重要的指導(dǎo)意義。目前,生物學(xué)家通過X-射線晶體衍射和核磁共振等實(shí)驗(yàn)方法得到蛋白質(zhì)-RNA復(fù)合物的結(jié)構(gòu)數(shù)據(jù)仍然較少,主要是由于實(shí)驗(yàn)測(cè)定過程較為復(fù)雜繁瑣,時(shí)間和經(jīng)費(fèi)方面花費(fèi)比較大,并且有些蛋白質(zhì)-RNA復(fù)合物結(jié)晶很難通過實(shí)驗(yàn)方法來獲得。因此,隨著蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)數(shù)據(jù)的不斷積累,研究人員逐漸嘗試從生物信息學(xué)角度研究蛋白質(zhì)-RNA的相互作用。 本學(xué)位論文以蛋白質(zhì)-RNA復(fù)合物為研究對(duì)象,綜合應(yīng)用多種統(tǒng)計(jì)學(xué)和生物信息學(xué)方法,探討了蛋白質(zhì)-RNA相互作用的幾個(gè)關(guān)鍵問題:RNA結(jié)合蛋白識(shí)別、RNA結(jié)合氨基酸殘基識(shí)別、RNA結(jié)合殘基偏好性以及氨基酸-RNA結(jié)合模式的統(tǒng)計(jì)分析,希望建立以蛋白質(zhì)序列和結(jié)構(gòu)信息為基礎(chǔ)的RNA結(jié)合蛋白、RNA結(jié)合位點(diǎn)的預(yù)測(cè)模型,并對(duì)蛋白質(zhì)-RNA相互作用界面進(jìn)行系統(tǒng)分析,為蛋白質(zhì)-RNA相互作用機(jī)制研究提供更為深入的參考信息。本論文的具體研究工作包括以下幾個(gè)方面: 1、建立了基于隨機(jī)森林算法和支持向量機(jī)算法的RNA結(jié)合蛋白識(shí)別的集成算法預(yù)測(cè)模型。建立預(yù)測(cè)模型過程中,我們充分考慮了蛋白質(zhì)的序列信息和結(jié)構(gòu)信息,即蛋白質(zhì)的物理化學(xué)性質(zhì)、進(jìn)化信息以及溶劑可及化表面積。由于每條蛋白質(zhì)鏈的長(zhǎng)度不一致,需要通過一定的方法將這些長(zhǎng)度不等的蛋白質(zhì)特征轉(zhuǎn)換為長(zhǎng)度相同的數(shù)值信息;谵D(zhuǎn)換后的特征信息,我們采用基于隨機(jī)森林算法和支持向量機(jī)為基礎(chǔ)分類器的集成學(xué)習(xí)方法來構(gòu)建分類模型,以解決數(shù)據(jù)集中不同類樣本量的不平衡問題。集成模型還可以有效提高模型的準(zhǔn)確率和泛化能力。模型的預(yù)測(cè)結(jié)果顯示,本工作采用的方法獲得了令人滿意的結(jié)果。進(jìn)一步討論分析發(fā)現(xiàn)支持向量機(jī)方法的預(yù)測(cè)能力和擬合能力優(yōu)于隨機(jī)森林方法,并且集成算法也確實(shí)有效地解決了樣本不平衡問題。 2、基于蛋白質(zhì)序列和結(jié)構(gòu)的綜合特征信息,我們構(gòu)建了RNA結(jié)合殘基的集成預(yù)測(cè)模型。首先基于蛋白質(zhì)序列,我們計(jì)算了氨基酸的進(jìn)化信息、保守性信息和物理化學(xué)信息。其次根據(jù)蛋白質(zhì)的三維結(jié)構(gòu)計(jì)算得到氨基酸的溶劑可及化表面積和蛋白質(zhì)的殘基相互作用網(wǎng)絡(luò)參數(shù)。根據(jù)隨機(jī)森林方法對(duì)這些特征進(jìn)行篩選以得到與蛋白質(zhì)-RNA相互作用密切相關(guān)的描述符。最后將所選取的特征子集作為隨機(jī)森林模型的輸入,構(gòu)建RNA結(jié)合位點(diǎn)識(shí)別的預(yù)測(cè)模型。本工作中我們共構(gòu)建了50個(gè)獨(dú)立的隨機(jī)森林預(yù)測(cè)模型,最后將所有獨(dú)立模型進(jìn)行集成分析。結(jié)果顯示,我們所建立的模型得到了令人滿意的預(yù)測(cè)結(jié)果。另一方面,通過特征選擇找到了影響氨基酸與RNA發(fā)生作用的重要特征信息,有助于蛋白質(zhì)-RNA相互作用的作用機(jī)制的研究。 3、基于數(shù)據(jù)集RBP86,我們對(duì)復(fù)合物相互作用界面上的RNA結(jié)合殘基、氨基酸-RNA結(jié)合模式以及重要特征在結(jié)合位點(diǎn)和非結(jié)合位點(diǎn)上的分布情況進(jìn)行了統(tǒng)計(jì)分析。統(tǒng)計(jì)分析結(jié)果表明:(1)20種氨基酸中堿性氨基酸易于和RNA分子發(fā)生作用,尤其是賴氨酸(K)和精氨酸(R)。這主要是由于堿性氨基酸側(cè)鏈帶有正電荷,容易與帶負(fù)電荷的RNA分子相互作用,并且堿性氨基酸的側(cè)鏈都比較長(zhǎng),因此靈活性好,柔性大,易于和RNA分子作用。進(jìn)一步發(fā)現(xiàn)氨基酸的極性也是影響蛋白質(zhì)-RNA相互作用的重要影響因素;(2)在不同的蛋白質(zhì)二級(jí)結(jié)構(gòu)中,我們發(fā)現(xiàn)Turn類和Coil類結(jié)構(gòu)的相對(duì)使用偏好性比較大。主要是由于這兩類結(jié)構(gòu)具有高曲率,靈活性好,有利于氨基酸與RNA發(fā)生結(jié)合;(3)兩個(gè)相鄰殘基同時(shí)與RNA分子發(fā)生結(jié)合時(shí),R、K和G之間的協(xié)同作用比較大,并且在殘基相互作用網(wǎng)絡(luò)中R與其他氨基酸之間的協(xié)同作用比較強(qiáng)烈。(4)本章還統(tǒng)計(jì)了6類不同氨基酸-RNA組合在復(fù)合物結(jié)構(gòu)中發(fā)生結(jié)合的相對(duì)使用偏好性,結(jié)果顯示結(jié)合氨基酸中堿性氨基酸和具有turn結(jié)構(gòu)的氨基酸與RNA中的磷酸基團(tuán)結(jié)合具有很高的結(jié)合偏好性,并且R和K所具有的結(jié)合偏好性最大。(5)針對(duì)重要描述符特征值在結(jié)合殘基和非結(jié)合殘基中的數(shù)值分布情況的統(tǒng)計(jì)分析發(fā)現(xiàn),除了平均最短路徑、連通性和節(jié)點(diǎn)度外,其他各類網(wǎng)絡(luò)參數(shù)和保守性指數(shù)在低數(shù)值區(qū)域內(nèi),非結(jié)合位點(diǎn)殘基發(fā)生的概率明顯高于結(jié)合位點(diǎn)殘基。相反,在高數(shù)值區(qū)域內(nèi),結(jié)合位點(diǎn)殘基發(fā)生的概率高于非結(jié)合位點(diǎn)殘基。
【關(guān)鍵詞】:蛋白質(zhì)-RNA相互作用 殘基相互作用網(wǎng)絡(luò) 界面分析 結(jié)合蛋白識(shí)別 結(jié)合位點(diǎn)識(shí)別 集成算法
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:R3411
【目錄】:
- 摘要3-5
- Abstract5-10
- 第一章 研究背景與方法介紹10-37
- 1.1 蛋白質(zhì)-RNA相互作用概述10-16
- 1.1.1 RNA結(jié)合蛋白的特征11-12
- 1.1.2 蛋白質(zhì)-RNA相互作用的研究12-16
- 1.2 本文所使用的特征描述符介紹16-23
- 1.2.1 基于序列的蛋白質(zhì)結(jié)構(gòu)、物理化學(xué)性質(zhì)表征17-20
- 1.2.2 基于序列的遺傳信息表征20
- 1.2.3 基于結(jié)構(gòu)的溶劑可及化表面積20-21
- 1.2.4 基于結(jié)構(gòu)的殘基相互作用網(wǎng)絡(luò)特征參數(shù)21-23
- 1.3 本論文中應(yīng)用的主要研究方法23-29
- 1.3.1 特征選擇方法23-24
- 1.3.2 機(jī)器學(xué)習(xí)方法24-26
- 1.3.3 集成學(xué)習(xí)方法26-28
- 1.3.4 模型評(píng)價(jià)及驗(yàn)證28-29
- 1.4 本論文的選題思路29-30
- 參考文獻(xiàn)30-37
- 第二章 基于機(jī)器學(xué)習(xí)算法集成的RNA結(jié)合蛋白的預(yù)測(cè)研究37-47
- 2.1 研究背景介紹37-38
- 2.2 數(shù)據(jù)來源和方法38-40
- 2.2.1 數(shù)據(jù)來源38-39
- 2.2.2 特征描述39-40
- 2.2.3 建模及驗(yàn)證40
- 2.3 結(jié)果和討論40-44
- 2.3.1 訓(xùn)練集交互驗(yàn)證和測(cè)試集結(jié)果40-41
- 2.3.2 特征分析41-43
- 2.3.3 與其它方法的結(jié)果比較43-44
- 2.4 結(jié)論44-45
- 參考文獻(xiàn)45-47
- 第三章 基于序列和結(jié)構(gòu)信息的RNA結(jié)合殘基集成預(yù)測(cè)模型47-60
- 3.1 研究背景介紹47-49
- 3.2 數(shù)據(jù)來源和方法49-51
- 3.2.1 數(shù)據(jù)來源49
- 3.2.2 特征描述49-51
- 3.2.3 建模及驗(yàn)證51
- 3.3 結(jié)果和討論51-56
- 3.3.1 隨機(jī)森林集成方法的預(yù)測(cè)結(jié)果51-53
- 3.3.2 與其他方法的結(jié)果比較53-54
- 3.3.3 重要特征分析54-56
- 3.4 結(jié)論56-58
- 參考文獻(xiàn)58-60
- 第四章 蛋白質(zhì)-RNA相互作用界面的統(tǒng)計(jì)分析60-73
- 4.1 研究背景介紹60-61
- 4.2 數(shù)據(jù)來源和方法61-63
- 4.2.1 數(shù)據(jù)來源61
- 4.2.2 結(jié)合偏好性61-63
- 4.2.3 殘基保守性和網(wǎng)絡(luò)特征分析63
- 4.3 結(jié)果和討論63-71
- 4.3.1 蛋白質(zhì)-RNA復(fù)合物中RNA結(jié)合殘基的偏好性63-66
- 4.3.2 蛋白質(zhì)-RNA復(fù)合物中氨基酸-RNA結(jié)合對(duì)的偏好性66-68
- 4.3.3 重要特征在RNA結(jié)合殘基和非結(jié)合殘基上的分布差異性68-71
- 4.4 結(jié)論71-72
- 參考文獻(xiàn)72-73
- 在學(xué)期間的研究成果73-74
- 致謝74
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 馬昕;郭靜;孫嘯;;蛋白質(zhì)中RNA-結(jié)合殘基預(yù)測(cè)的隨機(jī)森林模型[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
本文關(guān)鍵詞:蛋白質(zhì)-RNA相互作用的集成算法預(yù)測(cè)研究及統(tǒng)計(jì)分析,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):393732
本文鏈接:http://sikaile.net/yixuelunwen/shiyanyixue/393732.html
最近更新
教材專著