蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究

發(fā)布時(shí)間：2017-05-22 10:06

本文關(guān)鍵詞：蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：蛋白質(zhì)-核酸相互作用的發(fā)生,對(duì)于細(xì)胞中的很多生命現(xiàn)象都有重要的維持和促進(jìn)作用。因此,蛋白質(zhì)-核酸相互作用機(jī)理的研究,對(duì)于我們了解諸如細(xì)胞遺傳信息的傳遞途徑、細(xì)胞的新陳代謝,細(xì)胞分化、增值和衰老、細(xì)胞的信號(hào)轉(zhuǎn)導(dǎo)方式等重要的細(xì)胞內(nèi)活動(dòng),都有重要的理論意義。在蛋白質(zhì)-核酸相互作用中,蛋白質(zhì)中的核酸結(jié)合位點(diǎn)對(duì)于分子間的相互作用起到聯(lián)系和橋梁的作用。因此對(duì)于核酸結(jié)合位點(diǎn)的識(shí)別,使我們能夠進(jìn)一步從殘基和原子水平上對(duì)蛋白質(zhì)-核酸相互作用的方式和細(xì)節(jié)進(jìn)行深入了解。在蛋白質(zhì)中核酸位點(diǎn)的識(shí)別中,傳統(tǒng)的實(shí)驗(yàn)手段在具有很高的精確度的同時(shí),也存在著實(shí)驗(yàn)技術(shù)復(fù)雜、周期長、成本較高等缺點(diǎn)。所以需要發(fā)展出其他的方法來確定蛋白質(zhì)中的核酸結(jié)合位點(diǎn)�；跈C(jī)器學(xué)習(xí)的計(jì)算方法就是在這樣的背景下提出來的。通過使用從蛋白質(zhì)序列和結(jié)構(gòu)中提取得到的特征信息,可以對(duì)蛋白質(zhì)中的殘基進(jìn)行編碼,得到表征蛋白質(zhì)序列殘基的特征向量。在這些特征向量的基礎(chǔ)上,可以使用機(jī)器學(xué)習(xí)算法建立蛋白質(zhì)中的核酸結(jié)合位點(diǎn)預(yù)測(cè)模型,從而預(yù)測(cè)蛋白質(zhì)序列中的核酸結(jié)合位點(diǎn)。本論文的工作具體包括以下幾個(gè)方面：本論文的第一部分首先論述了蛋白質(zhì)-核酸的相互作用方式和復(fù)合物在細(xì)胞中具有的生物功能。接下來總結(jié)了已經(jīng)發(fā)展出來的RNA結(jié)合位點(diǎn)預(yù)測(cè)模型和DNA結(jié)合位點(diǎn)預(yù)測(cè)模型。在這些模型的構(gòu)建中,常用的機(jī)器學(xué)習(xí)算法包括支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯方法和隨機(jī)森林等。在這些方法中使用了包括蛋白質(zhì)序列信息和蛋白質(zhì)結(jié)構(gòu)信息作為輸入特征訓(xùn)練模型,取得不錯(cuò)的成果。最后,論述了現(xiàn)存方法中存在的問題,包括(1)模型泛化能力不高；(2)數(shù)據(jù)集中正負(fù)樣本數(shù)據(jù)不平衡的現(xiàn)象；(3)模型的預(yù)測(cè)能力差的問題。針對(duì)上述問題,我們提出了一系列的有針對(duì)性的解決方法,結(jié)果表明我們提出的方法具有較好的問題解決能力。論文接下來的第二、三部分對(duì)于上述解決方法進(jìn)行了具體的闡述。本論文的第二部分提出了基于隨機(jī)森林算法的RNA位點(diǎn)識(shí)別模型。在這個(gè)模型中,使用了兩種三種蛋白質(zhì)序列特征和兩種蛋白質(zhì)結(jié)構(gòu)特征作為特征向量。然后使用滑動(dòng)窗口方法和光滑窗口方法對(duì)特征向量進(jìn)行編碼,使特征向量的維數(shù)和表征RNA結(jié)合位點(diǎn)的信息得到擴(kuò)充。為了解決數(shù)據(jù)不平衡現(xiàn)象和模型預(yù)測(cè)準(zhǔn)確率不高的問題,我們使用了合成正樣本方法和一致性建模方法來構(gòu)建RNA結(jié)合位點(diǎn)的分類模型。通過對(duì)測(cè)試集的預(yù)測(cè)結(jié)果可以看到,我們提出的RNA位點(diǎn)的預(yù)測(cè)模型具有較好的外部預(yù)測(cè)能力,對(duì)測(cè)試集序列中的RNA結(jié)合位點(diǎn)的預(yù)測(cè)準(zhǔn)確率比較高。接下來我們使用兩種方法對(duì)特征向量中的特征進(jìn)行了打分和排序,對(duì)其中的重要特征的種類和數(shù)量進(jìn)行了分析。得到蛋白質(zhì)序列的位點(diǎn)特異性得分矩陣特征在RNA位點(diǎn)的識(shí)別中占有重要的作用。最后,我們和其他的RNA位點(diǎn)預(yù)測(cè)方法在測(cè)試集上進(jìn)行了對(duì)比,結(jié)果也說明對(duì)于給定的測(cè)試集,我們提出的基于隨機(jī)森林方法的預(yù)測(cè)準(zhǔn)確率比較高。本論文的第三部分中,構(gòu)建了基于隨機(jī)森林算法的DNA位點(diǎn)預(yù)測(cè)模型。在該方法中,使用了五種蛋白質(zhì)序列和結(jié)構(gòu)信息作為輸入特征。這些特征包括,蛋白質(zhì)序列的組成特征,殘基的物理化學(xué)性質(zhì),預(yù)測(cè)二級(jí)結(jié)構(gòu)特征,可及化表面特征和B因子特征,使用這些特征來表征蛋白質(zhì)序列中的殘基。在其他模型構(gòu)建方法的基礎(chǔ)上,這些方法包括對(duì)特征向量使用窗口方法,在解決數(shù)據(jù)不平衡時(shí),使用SMOTE方法和一致性建模方法,我們構(gòu)建了對(duì)于測(cè)試集中DNA結(jié)合位點(diǎn)的預(yù)測(cè)準(zhǔn)確度比較高的模型。最后,對(duì)特征向量中的重要特征,我們使用計(jì)算信息增益的方法,對(duì)特征進(jìn)行排序,提取150個(gè)重要性特征。在這些重要特征的基礎(chǔ)上,重新建立模型并預(yù)測(cè)測(cè)試集,也得到了比較好的預(yù)測(cè)結(jié)果。說明我們選取的特征具有比較好的代表性,能夠有效地識(shí)別蛋白質(zhì)序列中的DNA結(jié)合位點(diǎn)。在論文的最后一部分,對(duì)于提出的蛋白質(zhì)中的核酸結(jié)合位點(diǎn)的預(yù)測(cè)模型進(jìn)行了總結(jié)和展望。同時(shí),也對(duì)基于機(jī)器學(xué)習(xí)方法的蛋白質(zhì)序列的核酸結(jié)合位點(diǎn)的預(yù)測(cè)方法的發(fā)展方向進(jìn)行了總結(jié),指出更多的核酸結(jié)合蛋白質(zhì)結(jié)構(gòu)和序列的獲得,是得到有效特征和提高模型準(zhǔn)確率的關(guān)鍵途徑。
【關(guān)鍵詞】：蛋白質(zhì)-核酸相互作用 核酸結(jié)合位點(diǎn)的預(yù)測(cè) 蛋白質(zhì)序列和結(jié)構(gòu)特征 SMOTE方法 一致性建模方法
【學(xué)位授予單位】：蘭州大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：O641.3
【目錄】：

中文摘要3-5
英文摘要5-11
第一章蛋白質(zhì)-核酸結(jié)合位點(diǎn)預(yù)測(cè)的研究進(jìn)展11-29
1.1 蛋白質(zhì)核酸相互作用簡(jiǎn)介11-16
1.1.1 核酸結(jié)合蛋白質(zhì)的功能特征分類11-14
1.1.1.1 DNA結(jié)合蛋白質(zhì)的功能特征12-13
1.1.1.2 RNA結(jié)合蛋白質(zhì)的功能特征13-14
1.1.2 核酸結(jié)合蛋白質(zhì)的結(jié)構(gòu)域特征分類14-16
1.1.2.1 RNA結(jié)合域的特征14-15
1.1.2.2 DNA結(jié)合域的特征15-16
1.2 蛋白質(zhì)-RNA作用位點(diǎn)預(yù)測(cè)方法研究進(jìn)展16-18
1.3 蛋白質(zhì)-DNA結(jié)合位點(diǎn)預(yù)測(cè)方法研究進(jìn)展18-19
1.4 本論文的選題背景和研究思路19-22
參考文獻(xiàn)22-29
第二章蛋白質(zhì)中RNA結(jié)合位點(diǎn)的預(yù)測(cè)29-51
2.1 研究背景29-30
2.2 數(shù)據(jù)集30-31
2.2.1 訓(xùn)練集30-31
2.2.2 測(cè)試集131
2.2.3 測(cè)試集231
2.3 隨機(jī)森林算法的原理31-32
2.4 蛋白質(zhì)序列的特征信息32-34
2.4.1 位點(diǎn)特異性得分矩陣32
2.4.2 溶劑可及化表面和相對(duì)溶劑可及化表面32
2.4.3 物理化學(xué)性質(zhì)32-33
2.4.4 預(yù)測(cè)二級(jí)結(jié)構(gòu)33
2.4.5 蛋白質(zhì)-RNA相互作用性質(zhì)33-34
2.5 模型構(gòu)建過程中使用的方法34-36
2.5.1 對(duì)位點(diǎn)特異性得分矩陣的處理34-35
2.5.1.1 滑動(dòng)窗口的使用34-35
2.5.1.2 光滑窗口的使用35
2.5.2 合成正樣本方法的介紹35-36
2.5.3 集成學(xué)習(xí)方法的介紹36
2.6 模型評(píng)價(jià)體系36-37
2.7 預(yù)測(cè)結(jié)果37-40
2.7.1 窗口的優(yōu)化37-38
2.7.2 訓(xùn)練集的預(yù)測(cè)結(jié)果38-39
2.7.3 測(cè)試集的預(yù)測(cè)結(jié)果39-40
2.8 有效特征的提取方法40-43
2.8.1 特征組選取法41
2.8.2 單個(gè)特征選取法41-43
2.9 影響RNA結(jié)合的重要特征分析43-46
2.9.1 位點(diǎn)特異性得分矩陣特征分析43-44
2.9.2 可及化表面特征分析44
2.9.3 物理化學(xué)性質(zhì)特征分析44-45
2.9.4 蛋白質(zhì)相互作用特征分析45
2.9.5 預(yù)測(cè)二級(jí)結(jié)構(gòu)特征分析45-46
2.10 本工作和其他方法的比較46-47
2.11 結(jié)論47-48
參考文獻(xiàn)48-51
第三章蛋白質(zhì)中DNA結(jié)合位點(diǎn)的預(yù)測(cè)51-73
3.1 研究背景51-52
3.2 數(shù)據(jù)集52-53
3.2.1 訓(xùn)練集52
3.2.2 測(cè)試集52-53
3.3 蛋白質(zhì)序列的特征信息53-55
3.3.1 蛋白質(zhì)殘基的組成信息53
3.3.2 溶劑可及化表面和相對(duì)溶劑可及化表面53-54
3.3.3 物理化學(xué)性質(zhì)54
3.3.4 預(yù)測(cè)二級(jí)結(jié)構(gòu)54-55
3.3.5 B因子特征55
3.4 模型構(gòu)建過程中使用的方法55-57
3.4.1 滑動(dòng)窗口和光滑窗口的使用55-56
3.4.2 SMOTE方法和一致性建模方法56-57
3.5 模型的評(píng)價(jià)體系57
3.6 預(yù)測(cè)結(jié)果57-59
3.6.1 窗口的優(yōu)化57-58
3.6.2 訓(xùn)練集的預(yù)測(cè)結(jié)果58-59
3.6.3 測(cè)試集的預(yù)測(cè)結(jié)果59
3.7 重要特征的提取方法59-62
3.7.1 基于信息增益選取最優(yōu)特征60-62
3.8 影響RNA結(jié)合的重要特征分析62-64
3.8.1 氨基酸組成特征分析62
3.8.2 物理化學(xué)性質(zhì)特征分析62-63
3.8.3 可及化表面特征分析63-64
3.8.4 B因子特征分析64
3.9 結(jié)論64-65
參考文獻(xiàn)65-73
在校期間的研究成果73-74
致謝74

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前7條

1 管維紅;徐振源;朱平;;用非線性預(yù)測(cè)方法研究蛋白質(zhì)序列的特性(Ⅱ)[J];食品與生物技術(shù)學(xué)報(bào);2008年02期

2 張艷萍;賀平安;;蛋白質(zhì)序列的圖形表示及其應(yīng)用[J];浙江理工大學(xué)學(xué)報(bào);2010年02期

3 梅娟;何勝;王正祥;石貴陽;李煒疆;;基于網(wǎng)絡(luò)模塊性的蛋白質(zhì)序列聚類[J];食品與生物技術(shù)學(xué)報(bào);2010年01期

4 仇建燁;朱平;;P53基因蛋白質(zhì)序列的相似性及其聚類分析[J];計(jì)算機(jī)與應(yīng)用化學(xué);2013年09期

5 姜小瑩;魏蓉;董彩霞;李曉波;;基于最大熵模型預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的分類[J];計(jì)算機(jī)與應(yīng)用化學(xué);2007年11期

6 張玲;高潔;;甲型流感病毒HA蛋白質(zhì)序列的預(yù)測(cè)[J];食品與生物技術(shù)學(xué)報(bào);2013年08期

7 ;[J];;年期

中國重要會(huì)議論文全文數(shù)據(jù)庫前4條

1 光宣敏;郭延芝;李夢(mèng)龍;汪夏;;支持向量機(jī)預(yù)測(cè)蛋白質(zhì)序列中胱氨酸氧化還原態(tài)[A];第十屆全國計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2009年

2 李通化;孫江明;李大鵬;唐勝男;叢培盛;;從蛋白質(zhì)序列到結(jié)構(gòu)和功能[A];第十一屆全國計(jì)算（機(jī)）化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

3 肖奕;;蛋白質(zhì)序列的對(duì)稱性[A];第十次中國生物物理學(xué)術(shù)大會(huì)論文摘要集[C];2006年

4 陳文理;龐小峰;;LC／MS技術(shù)在蛋白質(zhì)序列檢測(cè)上的應(yīng)用[A];第十次中國生物物理學(xué)術(shù)大會(huì)論文摘要集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫前1條

1 薦文;專利保護(hù)什么[N];醫(yī)藥經(jīng)濟(jì)報(bào);2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫前9條

1 徐海松;蛋白質(zhì)序列中的折疊和去折疊信息[D];北京工業(yè)大學(xué);2011年

2 林衛(wèi)中;蛋白質(zhì)序列離散灰色模型及其在藥物開發(fā)中的應(yīng)用研究[D];東華大學(xué);2013年

3 吳自凱;信息度量的蛋白質(zhì)序列、結(jié)構(gòu)、質(zhì)譜數(shù)據(jù)研究[D];大連理工大學(xué);2007年

4 王棟;蛋白質(zhì)序列的并行分類方法研究[D];天津大學(xué);2010年

5 李明鋒;結(jié)構(gòu)對(duì)稱蛋白質(zhì)性質(zhì)研究[D];華中科技大學(xué);2008年

6 楊凡;生物序列分析中若干問題的研究[D];電子科技大學(xué);2011年

7 王彤;高維生物數(shù)據(jù)的分類與預(yù)測(cè)研究[D];上海交通大學(xué);2009年

8 劉亮偉;木聚糖酶蛋白質(zhì)序列分析、分子進(jìn)化和分子模擬[D];江南大學(xué);2005年

9 余宏杰;生物序列特征信息提取方法及其應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 許時(shí)超;蛋白質(zhì)序列一級(jí)結(jié)構(gòu)圖形構(gòu)造及相似性分析[D];浙江理工大學(xué);2015年

2 王紹鵬;蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究[D];蘭州大學(xué);2015年

3 吳海燕;基于圖能量的蛋白質(zhì)圖形表示及應(yīng)用研究[D];山東大學(xué);2015年

4 張艷萍;蛋白質(zhì)序列的數(shù)學(xué)描述及其應(yīng)用[D];浙江理工大學(xué);2010年

5 李明鋒;蛋白質(zhì)序列和結(jié)構(gòu)關(guān)系研究[D];華中科技大學(xué);2005年

6 張X;基于粒度下的蛋白質(zhì)序列的分析[D];江南大學(xué);2011年

7 錢盼盼;蛋白質(zhì)序列新的表示方法[D];山東大學(xué);2011年

8 孔芬;蛋白質(zhì)序列相似性分析的幾種數(shù)學(xué)方法[D];浙江理工大學(xué);2013年

9 張羊;基于譜的蛋白質(zhì)序列比對(duì)方法研究[D];西安電子科技大學(xué);2009年

10 賀曉梅;蛋白質(zhì)序列特征表達(dá)及其在亞細(xì)胞定位預(yù)測(cè)中的應(yīng)用[D];湖南大學(xué);2012年

本文關(guān)鍵詞：蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：385354

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/huaxue/385354.html

上一篇：重金屬捕集劑的制備與應(yīng)用
下一篇：石墨烯的化學(xué)氣相沉積法制備

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

蛋白質(zhì)—核酸相互作用位點(diǎn)預(yù)測(cè)新方法研究