蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究
本文關(guān)鍵詞:蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:蛋白質(zhì)-核酸相互作用的發(fā)生,對(duì)于細(xì)胞中的很多生命現(xiàn)象都有重要的維持和促進(jìn)作用。因此,蛋白質(zhì)-核酸相互作用機(jī)理的研究,對(duì)于我們了解諸如細(xì)胞遺傳信息的傳遞途徑、細(xì)胞的新陳代謝,細(xì)胞分化、增值和衰老、細(xì)胞的信號(hào)轉(zhuǎn)導(dǎo)方式等重要的細(xì)胞內(nèi)活動(dòng),都有重要的理論意義。在蛋白質(zhì)-核酸相互作用中,蛋白質(zhì)中的核酸結(jié)合位點(diǎn)對(duì)于分子間的相互作用起到聯(lián)系和橋梁的作用。因此對(duì)于核酸結(jié)合位點(diǎn)的識(shí)別,使我們能夠進(jìn)一步從殘基和原子水平上對(duì)蛋白質(zhì)-核酸相互作用的方式和細(xì)節(jié)進(jìn)行深入了解。在蛋白質(zhì)中核酸位點(diǎn)的識(shí)別中,傳統(tǒng)的實(shí)驗(yàn)手段在具有很高的精確度的同時(shí),也存在著實(shí)驗(yàn)技術(shù)復(fù)雜、周期長(zhǎng)、成本較高等缺點(diǎn)。所以需要發(fā)展出其他的方法來(lái)確定蛋白質(zhì)中的核酸結(jié)合位點(diǎn);跈C(jī)器學(xué)習(xí)的計(jì)算方法就是在這樣的背景下提出來(lái)的。通過(guò)使用從蛋白質(zhì)序列和結(jié)構(gòu)中提取得到的特征信息,可以對(duì)蛋白質(zhì)中的殘基進(jìn)行編碼,得到表征蛋白質(zhì)序列殘基的特征向量。在這些特征向量的基礎(chǔ)上,可以使用機(jī)器學(xué)習(xí)算法建立蛋白質(zhì)中的核酸結(jié)合位點(diǎn)預(yù)測(cè)模型,從而預(yù)測(cè)蛋白質(zhì)序列中的核酸結(jié)合位點(diǎn)。本論文的工作具體包括以下幾個(gè)方面:本論文的第一部分首先論述了蛋白質(zhì)-核酸的相互作用方式和復(fù)合物在細(xì)胞中具有的生物功能。接下來(lái)總結(jié)了已經(jīng)發(fā)展出來(lái)的RNA結(jié)合位點(diǎn)預(yù)測(cè)模型和DNA結(jié)合位點(diǎn)預(yù)測(cè)模型。在這些模型的構(gòu)建中,常用的機(jī)器學(xué)習(xí)算法包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯方法和隨機(jī)森林等。在這些方法中使用了包括蛋白質(zhì)序列信息和蛋白質(zhì)結(jié)構(gòu)信息作為輸入特征訓(xùn)練模型,取得不錯(cuò)的成果。最后,論述了現(xiàn)存方法中存在的問(wèn)題,包括(1)模型泛化能力不高;(2)數(shù)據(jù)集中正負(fù)樣本數(shù)據(jù)不平衡的現(xiàn)象;(3)模型的預(yù)測(cè)能力差的問(wèn)題。針對(duì)上述問(wèn)題,我們提出了一系列的有針對(duì)性的解決方法,結(jié)果表明我們提出的方法具有較好的問(wèn)題解決能力。論文接下來(lái)的第二、三部分對(duì)于上述解決方法進(jìn)行了具體的闡述。本論文的第二部分提出了基于隨機(jī)森林算法的RNA位點(diǎn)識(shí)別模型。在這個(gè)模型中,使用了兩種三種蛋白質(zhì)序列特征和兩種蛋白質(zhì)結(jié)構(gòu)特征作為特征向量。然后使用滑動(dòng)窗口方法和光滑窗口方法對(duì)特征向量進(jìn)行編碼,使特征向量的維數(shù)和表征RNA結(jié)合位點(diǎn)的信息得到擴(kuò)充。為了解決數(shù)據(jù)不平衡現(xiàn)象和模型預(yù)測(cè)準(zhǔn)確率不高的問(wèn)題,我們使用了合成正樣本方法和一致性建模方法來(lái)構(gòu)建RNA結(jié)合位點(diǎn)的分類(lèi)模型。通過(guò)對(duì)測(cè)試集的預(yù)測(cè)結(jié)果可以看到,我們提出的RNA位點(diǎn)的預(yù)測(cè)模型具有較好的外部預(yù)測(cè)能力,對(duì)測(cè)試集序列中的RNA結(jié)合位點(diǎn)的預(yù)測(cè)準(zhǔn)確率比較高。接下來(lái)我們使用兩種方法對(duì)特征向量中的特征進(jìn)行了打分和排序,對(duì)其中的重要特征的種類(lèi)和數(shù)量進(jìn)行了分析。得到蛋白質(zhì)序列的位點(diǎn)特異性得分矩陣特征在RNA位點(diǎn)的識(shí)別中占有重要的作用。最后,我們和其他的RNA位點(diǎn)預(yù)測(cè)方法在測(cè)試集上進(jìn)行了對(duì)比,結(jié)果也說(shuō)明對(duì)于給定的測(cè)試集,我們提出的基于隨機(jī)森林方法的預(yù)測(cè)準(zhǔn)確率比較高。本論文的第三部分中,構(gòu)建了基于隨機(jī)森林算法的DNA位點(diǎn)預(yù)測(cè)模型。在該方法中,使用了五種蛋白質(zhì)序列和結(jié)構(gòu)信息作為輸入特征。這些特征包括,蛋白質(zhì)序列的組成特征,殘基的物理化學(xué)性質(zhì),預(yù)測(cè)二級(jí)結(jié)構(gòu)特征,可及化表面特征和B因子特征,使用這些特征來(lái)表征蛋白質(zhì)序列中的殘基。在其他模型構(gòu)建方法的基礎(chǔ)上,這些方法包括對(duì)特征向量使用窗口方法,在解決數(shù)據(jù)不平衡時(shí),使用SMOTE方法和一致性建模方法,我們構(gòu)建了對(duì)于測(cè)試集中DNA結(jié)合位點(diǎn)的預(yù)測(cè)準(zhǔn)確度比較高的模型。最后,對(duì)特征向量中的重要特征,我們使用計(jì)算信息增益的方法,對(duì)特征進(jìn)行排序,提取150個(gè)重要性特征。在這些重要特征的基礎(chǔ)上,重新建立模型并預(yù)測(cè)測(cè)試集,也得到了比較好的預(yù)測(cè)結(jié)果。說(shuō)明我們選取的特征具有比較好的代表性,能夠有效地識(shí)別蛋白質(zhì)序列中的DNA結(jié)合位點(diǎn)。在論文的最后一部分,對(duì)于提出的蛋白質(zhì)中的核酸結(jié)合位點(diǎn)的預(yù)測(cè)模型進(jìn)行了總結(jié)和展望。同時(shí),也對(duì)基于機(jī)器學(xué)習(xí)方法的蛋白質(zhì)序列的核酸結(jié)合位點(diǎn)的預(yù)測(cè)方法的發(fā)展方向進(jìn)行了總結(jié),指出更多的核酸結(jié)合蛋白質(zhì)結(jié)構(gòu)和序列的獲得,是得到有效特征和提高模型準(zhǔn)確率的關(guān)鍵途徑。
【關(guān)鍵詞】:蛋白質(zhì)-核酸相互作用 核酸結(jié)合位點(diǎn)的預(yù)測(cè) 蛋白質(zhì)序列和結(jié)構(gòu)特征 SMOTE方法 一致性建模方法
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:O641.3
【目錄】:
- 中文摘要3-5
- 英文摘要5-11
- 第一章 蛋白質(zhì)-核酸結(jié)合位點(diǎn)預(yù)測(cè)的研究進(jìn)展11-29
- 1.1 蛋白質(zhì)核酸相互作用簡(jiǎn)介11-16
- 1.1.1 核酸結(jié)合蛋白質(zhì)的功能特征分類(lèi)11-14
- 1.1.1.1 DNA結(jié)合蛋白質(zhì)的功能特征12-13
- 1.1.1.2 RNA結(jié)合蛋白質(zhì)的功能特征13-14
- 1.1.2 核酸結(jié)合蛋白質(zhì)的結(jié)構(gòu)域特征分類(lèi)14-16
- 1.1.2.1 RNA結(jié)合域的特征14-15
- 1.1.2.2 DNA結(jié)合域的特征15-16
- 1.2 蛋白質(zhì)-RNA作用位點(diǎn)預(yù)測(cè)方法研究進(jìn)展16-18
- 1.3 蛋白質(zhì)-DNA結(jié)合位點(diǎn)預(yù)測(cè)方法研究進(jìn)展18-19
- 1.4 本論文的選題背景和研究思路19-22
- 參考文獻(xiàn)22-29
- 第二章 蛋白質(zhì)中RNA結(jié)合位點(diǎn)的預(yù)測(cè)29-51
- 2.1 研究背景29-30
- 2.2 數(shù)據(jù)集30-31
- 2.2.1 訓(xùn)練集30-31
- 2.2.2 測(cè)試集131
- 2.2.3 測(cè)試集231
- 2.3 隨機(jī)森林算法的原理31-32
- 2.4 蛋白質(zhì)序列的特征信息32-34
- 2.4.1 位點(diǎn)特異性得分矩陣32
- 2.4.2 溶劑可及化表面和相對(duì)溶劑可及化表面32
- 2.4.3 物理化學(xué)性質(zhì)32-33
- 2.4.4 預(yù)測(cè)二級(jí)結(jié)構(gòu)33
- 2.4.5 蛋白質(zhì)-RNA相互作用性質(zhì)33-34
- 2.5 模型構(gòu)建過(guò)程中使用的方法34-36
- 2.5.1 對(duì)位點(diǎn)特異性得分矩陣的處理34-35
- 2.5.1.1 滑動(dòng)窗口的使用34-35
- 2.5.1.2 光滑窗口的使用35
- 2.5.2 合成正樣本方法的介紹35-36
- 2.5.3 集成學(xué)習(xí)方法的介紹36
- 2.6 模型評(píng)價(jià)體系36-37
- 2.7 預(yù)測(cè)結(jié)果37-40
- 2.7.1 窗口的優(yōu)化37-38
- 2.7.2 訓(xùn)練集的預(yù)測(cè)結(jié)果38-39
- 2.7.3 測(cè)試集的預(yù)測(cè)結(jié)果39-40
- 2.8 有效特征的提取方法40-43
- 2.8.1 特征組選取法41
- 2.8.2 單個(gè)特征選取法41-43
- 2.9 影響RNA結(jié)合的重要特征分析43-46
- 2.9.1 位點(diǎn)特異性得分矩陣特征分析43-44
- 2.9.2 可及化表面特征分析44
- 2.9.3 物理化學(xué)性質(zhì)特征分析44-45
- 2.9.4 蛋白質(zhì)相互作用特征分析45
- 2.9.5 預(yù)測(cè)二級(jí)結(jié)構(gòu)特征分析45-46
- 2.10 本工作和其他方法的比較46-47
- 2.11 結(jié)論47-48
- 參考文獻(xiàn)48-51
- 第三章 蛋白質(zhì)中DNA結(jié)合位點(diǎn)的預(yù)測(cè)51-73
- 3.1 研究背景51-52
- 3.2 數(shù)據(jù)集52-53
- 3.2.1 訓(xùn)練集52
- 3.2.2 測(cè)試集52-53
- 3.3 蛋白質(zhì)序列的特征信息53-55
- 3.3.1 蛋白質(zhì)殘基的組成信息53
- 3.3.2 溶劑可及化表面和相對(duì)溶劑可及化表面53-54
- 3.3.3 物理化學(xué)性質(zhì)54
- 3.3.4 預(yù)測(cè)二級(jí)結(jié)構(gòu)54-55
- 3.3.5 B因子特征55
- 3.4 模型構(gòu)建過(guò)程中使用的方法55-57
- 3.4.1 滑動(dòng)窗口和光滑窗口的使用55-56
- 3.4.2 SMOTE方法和一致性建模方法56-57
- 3.5 模型的評(píng)價(jià)體系57
- 3.6 預(yù)測(cè)結(jié)果57-59
- 3.6.1 窗口的優(yōu)化57-58
- 3.6.2 訓(xùn)練集的預(yù)測(cè)結(jié)果58-59
- 3.6.3 測(cè)試集的預(yù)測(cè)結(jié)果59
- 3.7 重要特征的提取方法59-62
- 3.7.1 基于信息增益選取最優(yōu)特征60-62
- 3.8 影響RNA結(jié)合的重要特征分析62-64
- 3.8.1 氨基酸組成特征分析62
- 3.8.2 物理化學(xué)性質(zhì)特征分析62-63
- 3.8.3 可及化表面特征分析63-64
- 3.8.4 B因子特征分析64
- 3.9 結(jié)論64-65
- 參考文獻(xiàn)65-73
- 在校期間的研究成果73-74
- 致謝74
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 管維紅;徐振源;朱平;;用非線性預(yù)測(cè)方法研究蛋白質(zhì)序列的特性(Ⅱ)[J];食品與生物技術(shù)學(xué)報(bào);2008年02期
2 張艷萍;賀平安;;蛋白質(zhì)序列的圖形表示及其應(yīng)用[J];浙江理工大學(xué)學(xué)報(bào);2010年02期
3 梅娟;何勝;王正祥;石貴陽(yáng);李煒疆;;基于網(wǎng)絡(luò)模塊性的蛋白質(zhì)序列聚類(lèi)[J];食品與生物技術(shù)學(xué)報(bào);2010年01期
4 仇建燁;朱平;;P53基因蛋白質(zhì)序列的相似性及其聚類(lèi)分析[J];計(jì)算機(jī)與應(yīng)用化學(xué);2013年09期
5 姜小瑩;魏蓉;董彩霞;李曉波;;基于最大熵模型預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的分類(lèi)[J];計(jì)算機(jī)與應(yīng)用化學(xué);2007年11期
6 張玲;高潔;;甲型流感病毒HA蛋白質(zhì)序列的預(yù)測(cè)[J];食品與生物技術(shù)學(xué)報(bào);2013年08期
7 ;[J];;年期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 光宣敏;郭延芝;李夢(mèng)龍;汪夏;;支持向量機(jī)預(yù)測(cè)蛋白質(zhì)序列中胱氨酸氧化還原態(tài)[A];第十屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年
2 李通化;孫江明;李大鵬;唐勝男;叢培盛;;從蛋白質(zhì)序列到結(jié)構(gòu)和功能[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
3 肖奕;;蛋白質(zhì)序列的對(duì)稱(chēng)性[A];第十次中國(guó)生物物理學(xué)術(shù)大會(huì)論文摘要集[C];2006年
4 陳文理;龐小峰;;LC/MS技術(shù)在蛋白質(zhì)序列檢測(cè)上的應(yīng)用[A];第十次中國(guó)生物物理學(xué)術(shù)大會(huì)論文摘要集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 薦文;專(zhuān)利保護(hù)什么[N];醫(yī)藥經(jīng)濟(jì)報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 徐海松;蛋白質(zhì)序列中的折疊和去折疊信息[D];北京工業(yè)大學(xué);2011年
2 林衛(wèi)中;蛋白質(zhì)序列離散灰色模型及其在藥物開(kāi)發(fā)中的應(yīng)用研究[D];東華大學(xué);2013年
3 吳自凱;信息度量的蛋白質(zhì)序列、結(jié)構(gòu)、質(zhì)譜數(shù)據(jù)研究[D];大連理工大學(xué);2007年
4 王棟;蛋白質(zhì)序列的并行分類(lèi)方法研究[D];天津大學(xué);2010年
5 李明鋒;結(jié)構(gòu)對(duì)稱(chēng)蛋白質(zhì)性質(zhì)研究[D];華中科技大學(xué);2008年
6 楊凡;生物序列分析中若干問(wèn)題的研究[D];電子科技大學(xué);2011年
7 王彤;高維生物數(shù)據(jù)的分類(lèi)與預(yù)測(cè)研究[D];上海交通大學(xué);2009年
8 劉亮偉;木聚糖酶蛋白質(zhì)序列分析、分子進(jìn)化和分子模擬[D];江南大學(xué);2005年
9 余宏杰;生物序列特征信息提取方法及其應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 許時(shí)超;蛋白質(zhì)序列一級(jí)結(jié)構(gòu)圖形構(gòu)造及相似性分析[D];浙江理工大學(xué);2015年
2 王紹鵬;蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究[D];蘭州大學(xué);2015年
3 吳海燕;基于圖能量的蛋白質(zhì)圖形表示及應(yīng)用研究[D];山東大學(xué);2015年
4 張艷萍;蛋白質(zhì)序列的數(shù)學(xué)描述及其應(yīng)用[D];浙江理工大學(xué);2010年
5 李明鋒;蛋白質(zhì)序列和結(jié)構(gòu)關(guān)系研究[D];華中科技大學(xué);2005年
6 張X;基于粒度下的蛋白質(zhì)序列的分析[D];江南大學(xué);2011年
7 錢(qián)盼盼;蛋白質(zhì)序列新的表示方法[D];山東大學(xué);2011年
8 孔芬;蛋白質(zhì)序列相似性分析的幾種數(shù)學(xué)方法[D];浙江理工大學(xué);2013年
9 張羊;基于譜的蛋白質(zhì)序列比對(duì)方法研究[D];西安電子科技大學(xué);2009年
10 賀曉梅;蛋白質(zhì)序列特征表達(dá)及其在亞細(xì)胞定位預(yù)測(cè)中的應(yīng)用[D];湖南大學(xué);2012年
本文關(guān)鍵詞:蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):385354
本文鏈接:http://sikaile.net/kejilunwen/huaxue/385354.html