基于序列的蛋白質(zhì)結(jié)構(gòu)預測的機器學習模型
本文關鍵詞:基于序列的蛋白質(zhì)結(jié)構(gòu)預測的機器學習模型,由筆耕文化傳播整理發(fā)布。
【摘要】:從急劇膨脹的蛋白質(zhì)序列數(shù)據(jù)信息中分析其結(jié)構(gòu)和生物功能是后基因組時代面臨的一個重要挑戰(zhàn)。蛋白質(zhì)結(jié)構(gòu)類型能直觀描述蛋白質(zhì)的完整空間折疊結(jié)構(gòu)模式,是解釋蛋白質(zhì)結(jié)構(gòu)和功能的重要信息來源,為相關生物技術的發(fā)展提供了理論依據(jù)。然而確定蛋白質(zhì)結(jié)構(gòu)類型的傳統(tǒng)生物實驗方法不僅周期長而且成本高,所以利用數(shù)學方法和計算機技術開發(fā)快速有效的蛋白質(zhì)結(jié)構(gòu)類預測模型與實驗方法互為補充將是一項非常有意義的工作。本文以蛋白質(zhì)結(jié)構(gòu)類預測為研究背景,基于統(tǒng)計模式識別的理論與方法,深入研究了蛋白質(zhì)結(jié)構(gòu)類預測中的特征表示問題,主要成果有:(1)本文提出了基于蛋白質(zhì)二級結(jié)構(gòu)信息的特征表示方法。該方法在預測的線性二級結(jié)構(gòu)序列基礎上,從二級結(jié)構(gòu)含量、順序和距離三個角度分別設計反映二級結(jié)構(gòu)元素含量及其空間排列方式的特征,特別是大量與二級結(jié)構(gòu)片段相關的距離特征。通過四個低序列相似性數(shù)據(jù)集上與其它基于二級結(jié)構(gòu)的預測方法對比結(jié)果表明,這種基于二級結(jié)構(gòu)含量、順序和距離設計的特征表示方法更能有效地描述蛋白質(zhì)二級結(jié)構(gòu)的空間排布信息,其總體分類準確率以及α/β類和α+β類分類準確率有著不同程度的提高,是一種有效的特征表示方法。另外,為了研究蛋白質(zhì)罕見二級結(jié)構(gòu)對結(jié)構(gòu)類預測性能的影響,設計了9個基于罕見二級結(jié)構(gòu)的特征,實驗結(jié)果說明罕見二級結(jié)構(gòu)信息可以有效的改進蛋白質(zhì)結(jié)構(gòu)類預測模型的性能。(2)本文提出了基于蛋白質(zhì)序列進化信息的特征表示方法。蛋白質(zhì)進化信息反映了蛋白質(zhì)序列中各個位置的氨基酸殘基在進化過程中的保守性,這對揭示蛋白質(zhì)的結(jié)構(gòu)和功能有重要意義。從蛋白質(zhì)氨基酸序列出發(fā),由PSI-BLAST預測獲取相應的位置特異性打分矩陣,設計了五種蛋白質(zhì)氨基酸進化差異公式用于蛋白質(zhì)序列特征表示。兩個低序列相似性數(shù)據(jù)集上的預測結(jié)果顯示了本文提出方法的有效性。此外,研究了基于二級結(jié)構(gòu)和進化信息的多特征融合的蛋白質(zhì)結(jié)構(gòu)類預測方法,實驗結(jié)果表明有效的特征融合確實可以顯著改善原有基于單一信息來源的特征預測模型的分類準確率,這為基于多源信息特征融合來預測蛋白質(zhì)結(jié)構(gòu)類提供了新思路。
【關鍵詞】:蛋白質(zhì)結(jié)構(gòu)類 二級結(jié)構(gòu) 位置特異性打分矩陣 支持向量機
【學位授予單位】:中國海洋大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:Q51
【目錄】:
- 摘要5-7
- abstract7-11
- 1 緒論11-27
- 1.1 引言11-12
- 1.2 蛋白質(zhì)基礎理論知識12-20
- 1.2.1 蛋白質(zhì)的層次性結(jié)構(gòu)12-16
- 1.2.2 蛋白質(zhì)結(jié)構(gòu)類16-20
- 1.3 蛋白質(zhì)結(jié)構(gòu)類預測概述20-24
- 1.3.1 蛋白質(zhì)結(jié)構(gòu)類預測問題20
- 1.3.2 蛋白質(zhì)結(jié)構(gòu)類預測國內(nèi)外研究現(xiàn)狀20-24
- 1.4 本文的主要工作24-27
- 2 材料和方法27-37
- 2.1 數(shù)據(jù)集27-29
- 2.2 分類算法29-31
- 2.3 分類算法的性能評估31-34
- 2.3.1 分類算法性能評估方法31-33
- 2.3.2 分類算法的性能評估指標33-34
- 2.4 本章小結(jié)34-37
- 3 基于二級結(jié)構(gòu)信息的蛋白質(zhì)結(jié)構(gòu)類預測方法37-63
- 3.1 引言37
- 3.2 基于二級結(jié)構(gòu)信息的蛋白質(zhì)特征表示方法37-48
- 3.2.1 蛋白質(zhì)二級結(jié)構(gòu)預測37-39
- 3.2.2 蛋白質(zhì)特征表示39-46
- 3.2.3 特征選擇46-48
- 3.3 蛋白質(zhì)結(jié)構(gòu)類預測分類算法設計48-50
- 3.4 結(jié)果與討論50-61
- 3.4.1 本章蛋白質(zhì)結(jié)構(gòu)類預測方法的結(jié)果50-53
- 3.4.2 特征分析53-55
- 3.4.3 與現(xiàn)有其它方法比較55-57
- 3.4.4 多種分類算法預測比較57-58
- 3.4.5 罕見二級結(jié)構(gòu)特征對蛋白質(zhì)結(jié)構(gòu)類預測性能的影響58-61
- 3.5 本章小結(jié)61-63
- 4 基于序列進化信息的蛋白質(zhì)結(jié)構(gòu)類預測方法63-89
- 4.1 引言63-64
- 4.2 基于序列進化信息的蛋白質(zhì)序列特征表示方法64-69
- 4.2.1 位置特異性打分矩陣64-66
- 4.2.2 蛋白質(zhì)序列特征表示66-69
- 4.3 蛋白質(zhì)結(jié)構(gòu)類預測分類算法設計69-70
- 4.4 結(jié)果與討論70-78
- 4.4.1 五種序列表示方法的比較70-74
- 4.4.2 特征分析74-75
- 4.4.3 與現(xiàn)有其它方法比較75-77
- 4.4.4 多種分類算法預測比較77-78
- 4.5 融合二級結(jié)構(gòu)信息和進化信息預測蛋白質(zhì)結(jié)構(gòu)類78-86
- 4.5.1 蛋白質(zhì)序列特征表示78-81
- 4.5.2 結(jié)果與討論81-86
- 4.6 本章小結(jié)86-89
- 5 總結(jié)與展望89-93
- 5.1 工作總結(jié)89-90
- 5.2 研究展望90-93
- 參考文獻93-105
- 附錄105-113
- 致謝113-115
- 個人簡歷115-117
- 攻讀博士學位期間學術論文完成情況117
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 任清華,莫忠息,陶玉敏;預測RNA二級結(jié)構(gòu)的一種遺傳模擬退火算法[J];武漢大學學報(理學版);2004年01期
2 郭穎,李大超;一類RNA二級結(jié)構(gòu)的計數(shù)[J];海南師范學院學報(自然科學版);2005年01期
3 白鳳蘭;姚玉華;孫立波;;RNA二級結(jié)構(gòu)的6-D表示及相似性分析[J];黑龍江大學自然科學學報;2006年01期
4 陳翔;卜東波;張法;高文;;基于局部莖搜索的RNA二級結(jié)構(gòu)預測算法[J];生物化學與生物物理進展;2009年01期
5 白鳳蘭;徐麗;;RNA二級結(jié)構(gòu)的數(shù)學表示及其應用[J];大連交通大學學報;2010年06期
6 ;研究揭示RNA二級結(jié)構(gòu)剪接調(diào)控新機制[J];中國家禽;2013年16期
7 李伍舉,吳加金;RNA二級結(jié)構(gòu)的預測[J];軍事醫(yī)學科學院院刊;1996年04期
8 ;我國揭示RNA二級結(jié)構(gòu)剪接調(diào)控新機制[J];生物學教學;2014年01期
9 馮永君,張長鎧,陳雅麗,侯萬秋;火菇素的溶液二級結(jié)構(gòu)與變性動力學[J];中國生物化學與分子生物學報;2000年04期
10 李曉琴,王守源,羅遼復;蛋白質(zhì)的二級結(jié)構(gòu)序列和結(jié)構(gòu)型[J];內(nèi)蒙古大學學報(自然科學版);2002年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 蘇光龍;黃旭慧;丁凡;蔣曉舟;駱志剛;;基于堆積能量和協(xié)變信息的RNA二級結(jié)構(gòu)預測算法[A];中國通信學會第六屆學術年會論文集(下)[C];2009年
2 王聯(lián)結(jié);張強;閻長偉;陳宜頂;;蛋白質(zhì)中6種標準氨基酸組成序列二級結(jié)構(gòu)傾向性分析[A];中國生物化學與分子生物學會第八屆會員代表大會暨全國學術會議論文摘要集[C];2001年
3 謝海兵;David M.Irwin;張亞平;;人類基因組中保守二級結(jié)構(gòu)的純凈化選擇及其在轉(zhuǎn)錄調(diào)控網(wǎng)絡中的作用[A];中國遺傳學會第八次代表大會暨學術討論會論文摘要匯編(2004-2008)[C];2008年
4 田云;盧向陽;;tmRNA研究進展[A];第四屆全國RNA進展研討會論文集[C];2005年
5 張鴻偉;王鳳山;;低分子肝素-超氧化物歧化酶結(jié)合物的二級結(jié)構(gòu)分析[A];2006第六屆中國藥學會學術年會論文集[C];2006年
6 楊惠云;田心;;應用BP神經(jīng)網(wǎng)絡預測蛋白質(zhì)的二級結(jié)構(gòu)[A];中國生物醫(yī)學工程進展——2007中國生物醫(yī)學工程聯(lián)合學術年會論文集(下冊)[C];2007年
7 譚宏偉;陳光巨;劉若莊;;β~3型多肽環(huán)自組織的理論研究[A];第九次全國生物物理大會學術會議論文摘要集[C];2002年
8 吳春芳;趙新;黎占亭;;一類雜交螺旋體的構(gòu)筑[A];全國第十六屆大環(huán)化學暨第八屆超分子化學學術討論會論文摘要集[C];2012年
9 龔超;蔣冬生;胡佑倫;;醫(yī)院數(shù)字化系統(tǒng)總體結(jié)構(gòu)的選擇與總體方案設計——一種以第二級結(jié)構(gòu)為主體的系統(tǒng)[A];2010年中華醫(yī)學會醫(yī)學工程學分會年會論文集[C];2010年
10 邱陽;林克椿;聶松青;;HIV-1gp41N端融合肽及其突變體與脂膜作用后二級結(jié)構(gòu)的變化[A];第七屆全國生物膜學術討論會論文摘要匯編[C];1999年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 記者 楊舒;我科學家打破科學界“黑箱”[N];光明日報;2014年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王文文;RNA二級結(jié)構(gòu)的計數(shù)問題及其進化分析[D];大連理工大學;2009年
2 董浩;RNA二級結(jié)構(gòu)預測方法研究[D];吉林大學;2011年
3 張麗超;基于序列的蛋白質(zhì)結(jié)構(gòu)預測的機器學習模型[D];中國海洋大學;2015年
4 高世樂;含假結(jié)RNA二級結(jié)構(gòu)圖的語法及拓撲分類[D];大連理工大學;2008年
5 劉娜;生物序列/結(jié)構(gòu)的比較及進化樹的構(gòu)建[D];大連理工大學;2007年
6 余軍;RNA二級結(jié)構(gòu)預測算法研究[D];吉林大學;2011年
7 周圓兀;蛋白質(zhì)分子自然構(gòu)象和二級結(jié)構(gòu)的計算分析及預測[D];復旦大學;2008年
8 馮永娥;蛋白質(zhì)二級結(jié)構(gòu)的預測以及二級結(jié)構(gòu)與三級結(jié)構(gòu)之間關聯(lián)的探討[D];內(nèi)蒙古大學;2008年
9 宋海峰;基于系統(tǒng)發(fā)育比較分析的反義藥物優(yōu)化設計及相關藥理學研究[D];中國人民解放軍軍事醫(yī)學科學院;2004年
10 木瑞塔(Murtada Khalafallah Elbashir Elfaki);基于機器學習和統(tǒng)計方法的蛋白質(zhì)結(jié)構(gòu)特征預測[D];中南大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 徐聰;可預測假結(jié)的RNA二級結(jié)構(gòu)最優(yōu)莖區(qū)組合方法[D];吉林大學;2009年
2 郭晨;人類pre-mRNA二級結(jié)構(gòu)的數(shù)據(jù)庫建立及與蛋白質(zhì)相關性的分析[D];云南大學;2010年
3 李杰;RNA二級結(jié)構(gòu)表示及相似性分析研究[D];吉林大學;2011年
4 郭穎;RNA的二級結(jié)構(gòu)[D];大連理工大學;2005年
5 楊紅;RNA二級結(jié)構(gòu)的計數(shù)[D];大連理工大學;2006年
6 楊赫;RNA二級結(jié)構(gòu)中假結(jié)的預測研究[D];吉林大學;2013年
7 馬濤;mRNA二級結(jié)構(gòu)對釀酒酵母翻譯效率的影響[D];西北農(nóng)林科技大學;2015年
8 張西洋;序列及序列二級結(jié)構(gòu)聯(lián)配問題的若干算法研究[D];電子科技大學;2015年
9 王洪波;固有無序蛋白與其它成份相互作用數(shù)據(jù)庫構(gòu)建[D];山東師范大學;2015年
10 代曉轉(zhuǎn);擬南芥RNA二級結(jié)構(gòu)的高通量數(shù)據(jù)分析[D];浙江大學;2015年
本文關鍵詞:基于序列的蛋白質(zhì)結(jié)構(gòu)預測的機器學習模型,由筆耕文化傳播整理發(fā)布。
,本文編號:391953
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/391953.html