基于序列模式挖掘識(shí)別基因剪接位點(diǎn)的研究
本文關(guān)鍵詞:基于序列模式挖掘識(shí)別基因剪接位點(diǎn)的研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:生物信息學(xué)是融合了計(jì)算機(jī)科學(xué)和生命科學(xué)形成的一門新興交叉學(xué)科。生物信息學(xué)不僅成為了生物醫(yī)學(xué)研究的基礎(chǔ)學(xué)科,也成為了信息科學(xué)研究最為活躍的領(lǐng)域之一;虮磉_(dá)調(diào)控是分子生物學(xué)研究的核心問題之一;蚣艚邮腔虮磉_(dá)過程中連接轉(zhuǎn)錄和翻譯的中樞步驟。DNA通過轉(zhuǎn)錄得到前體RNA,前體RNA剪接后得到成熟RNA序列,根據(jù)成熟RNA序列編碼蛋白質(zhì)產(chǎn)物。研究基因剪接和剪接機(jī)制,能夠?yàn)槲覀兏钊肓私饣虮磉_(dá)提供重要證據(jù),目前已成為生物信息學(xué)研究的一個(gè)重要方向。分子生物學(xué)理論研究表明影響剪接的核心順式調(diào)控元件之一是剪接位點(diǎn)。醫(yī)學(xué)工作者研究也表明多種人類疾病致病機(jī)理均和剪接位點(diǎn)突變有關(guān)聯(lián)。所以,正確識(shí)別基因中存在的剪接位點(diǎn)是研究剪接機(jī)制和剪接位點(diǎn)突變的前提,并能為致病機(jī)制的研究提供依據(jù)和指導(dǎo)。圍繞這個(gè)難題,本文通過挖掘剪接位點(diǎn)序列中蘊(yùn)含的序列特征,融合PSSM(Position-Specific Scoring Matrix,位置特異分值矩陣)算法,提出了一個(gè)基于序列模式挖掘模型,可以實(shí)現(xiàn)對剪接位點(diǎn)信號(hào)強(qiáng)度的定量度量,進(jìn)而識(shí)別剪接位點(diǎn)。基因剪接機(jī)制是多種不同順式元件和蛋白質(zhì)之間相互影響而進(jìn)行的組合調(diào)控。為了更深入、更全面的研究剪接機(jī)制,我們在序列模式挖掘模型的基礎(chǔ)上,進(jìn)一步對剪接位點(diǎn)組合調(diào)控機(jī)制進(jìn)行了研究。本文主要研究工作和創(chuàng)新之處如下:(1)提出一個(gè)能夠定量分析剪接位點(diǎn)序列的模型。根據(jù)基因序列本身包含的豐富分類信息和保守型特征,本文應(yīng)用頻繁模式挖掘理論和算法融合PSSM算法,提出序列模式挖掘模型。通過該模型,挖掘出剪接位點(diǎn)序列中蘊(yùn)含的堿基相關(guān)性,分別計(jì)算出供體剪接位點(diǎn)位點(diǎn)、受體剪接位點(diǎn)和致病基因突變剪接位點(diǎn)信號(hào)強(qiáng)度值,從而進(jìn)行識(shí)別和分類。實(shí)驗(yàn)數(shù)據(jù)均按照生物理論,從UCSC數(shù)據(jù)庫中的人類全基因序列抽取。通過對該模型的實(shí)驗(yàn)驗(yàn)證,可有效區(qū)分真、假剪接位點(diǎn)和識(shí)別致病剪接位點(diǎn)突變。并且其識(shí)別結(jié)果不僅優(yōu)于最大信息熵模型,且本身具有良好魯棒性。(2)剪接位點(diǎn)組合調(diào)控研究。剪接位點(diǎn)序列存在保守型(剪接位點(diǎn)上下游單聚體、二聚體、三聚體組成具有強(qiáng)相關(guān)性)是能夠有效識(shí)別剪接位點(diǎn)的最大依據(jù),現(xiàn)今的識(shí)別算法和模型也都是基于抽取的序列保守特征信息來構(gòu)造分類器。但是,在基因剪接過程中,剪接位點(diǎn)、分支位點(diǎn)和剪接調(diào)控元件三種順式序列以及不同的蛋白質(zhì)均可以對剪接產(chǎn)生調(diào)控作用。并且,每一個(gè)內(nèi)含子序列兩端的5’端和3’端剪接位點(diǎn)本身也相互存在影響。研究不同剪接信號(hào)的相互作用和補(bǔ)償機(jī)制,可以為提高剪接位點(diǎn)識(shí)別效果和深入研究剪接機(jī)制提供思路和證據(jù)。本文基于序列模式挖掘模型設(shè)計(jì)實(shí)驗(yàn),對同一內(nèi)含子5’端和3’端剪接位點(diǎn)信號(hào)強(qiáng)度進(jìn)行量化,得出5’端剪接位點(diǎn)信號(hào)強(qiáng)度越大,3’端剪接位點(diǎn)就具有更多的選擇,反之則不能的結(jié)論,闡明了兩種不同剪接位點(diǎn)信號(hào)之間存在的關(guān)系。并進(jìn)一步統(tǒng)計(jì)強(qiáng)弱5’端、3’端剪接位點(diǎn)延長序列上的四類剪接調(diào)控元件分布密度,得出剪接調(diào)控元件與剪接位點(diǎn)之間也存在相互補(bǔ)償機(jī)制的證據(jù)。
【關(guān)鍵詞】:生物信息學(xué) 剪接位點(diǎn)識(shí)別 序列模式 致病突變
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:Q78
【目錄】:
- 摘要3-5
- Abstract5-13
- 第一章 緒論13-18
- 1.1 引言13-14
- 1.2 選題目的與意義14-15
- 1.3 剪接位點(diǎn)識(shí)別研究現(xiàn)狀15-16
- 1.4 本文的主要工作和內(nèi)容安排16-18
- 第二章 真核基因剪接的生物學(xué)基礎(chǔ)18-25
- 2.1 引言18
- 2.2 生物學(xué)基礎(chǔ)知識(shí)18-19
- 2.3 基因的表達(dá)控制19-21
- 2.3.1 真核基因的轉(zhuǎn)錄調(diào)控20-21
- 2.3.2 真核基因的翻譯調(diào)控21
- 2.4 真核基因的剪接機(jī)制21-23
- 2.5 生物分子數(shù)據(jù)庫23-24
- 2.6 本章小結(jié)24-25
- 第三章 序列模式挖掘模型25-34
- 3.1 引言25-26
- 3.2 序列模式26-29
- 3.2.1 頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘26-27
- 3.2.2 頻繁模式挖掘經(jīng)典算法——Apriori27-29
- 3.3 基于序列模式挖掘建模單核苷酸短序列29-33
- 3.3.1 模型數(shù)學(xué)形式化描述30-32
- 3.3.2 建模流程32-33
- 3.4 本章小結(jié)33-34
- 第四章 基于序列模式挖掘模型的真核基因剪接位點(diǎn)識(shí)別34-47
- 4.1 引言34
- 4.2 識(shí)別定義剪接位點(diǎn)的最佳上下游序列長度34-38
- 4.3 評(píng)價(jià)指標(biāo)38-39
- 4.4 數(shù)據(jù)提取39-41
- 4.4.1 真假剪接位點(diǎn)提取39-40
- 4.4.2 突變剪接位點(diǎn)提取40-41
- 4.5 實(shí)驗(yàn)結(jié)果及討論41-46
- 4.5.1 序列模式挖掘模型區(qū)分真、假剪接位點(diǎn)41-42
- 4.5.2 序列模式挖掘模型對比實(shí)驗(yàn)42-43
- 4.5.3 序列模式挖掘模型的魯棒性驗(yàn)證43-45
- 4.5.4 序列模式挖掘模型識(shí)別剪接位點(diǎn)突變實(shí)驗(yàn)45-46
- 4.6 本章小結(jié)46-47
- 第五章 剪接位點(diǎn)組合調(diào)控研究47-53
- 5.1 引言47
- 5.2 5 ’端剪接位點(diǎn)調(diào)控3’端剪接位點(diǎn)的多樣性47-50
- 5.2.1 實(shí)驗(yàn)設(shè)計(jì)48
- 5.2.2 實(shí)驗(yàn)結(jié)果及討論48-50
- 5.3 剪接調(diào)控元件與剪接位點(diǎn)間的補(bǔ)償機(jī)制50-52
- 5.3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備50
- 5.3.2 調(diào)控元件在剪接位點(diǎn)上下游密度分布實(shí)驗(yàn)50-52
- 5.4 本章小結(jié)52-53
- 第六章 總結(jié)和展望53-55
- 6.1 工作總結(jié)53-54
- 6.2 工作展望54-55
- 參考文獻(xiàn)55-61
- 致謝61-62
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文62-63
- 攻讀碩士學(xué)位期間參加的科研項(xiàng)目63
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 夏慧煜,周晴,李衍達(dá);隱Markov模型在剪接位點(diǎn)識(shí)別中的應(yīng)用[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年09期
2 晏春,杜耀華,高青斌,王正志;基于支持向量機(jī)的人類5'非翻譯區(qū)剪接位點(diǎn)識(shí)別[J];生物物理學(xué)報(bào);2005年04期
3 劉利;李前忠;樊國梁;;低維輸入空間的支持向量機(jī)識(shí)別人類剪接位點(diǎn)[J];生物物理學(xué)報(bào);2008年01期
4 楊烏日吐;李前忠;林昊;楊科利;;預(yù)測競爭性和非競爭性剪接位點(diǎn)對(英文)[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期
5 馮桂海;何濤;汪莉;王玉民;;果蠅非經(jīng)典剪接位點(diǎn)的生物信息學(xué)預(yù)測[J];生物技術(shù)通訊;2010年06期
6 鄭毅,丁達(dá)夫;果蠅內(nèi)含子3'剪接位點(diǎn)的選擇機(jī)制[J];生物物理學(xué)報(bào);1994年03期
7 馮秀程,錢敏平,鄧明華,馬小土,嚴(yán)熙婷;隱半馬氏模型在 3′剪接位點(diǎn)識(shí)別中的應(yīng)用(英文)[J];生物化學(xué)與生物物理進(jìn)展;2004年05期
8 晏春;杜耀華;王正志;;基因短序列模式分析及其在5’剪接位點(diǎn)識(shí)別中的應(yīng)用[J];國防科技大學(xué)學(xué)報(bào);2006年01期
9 陳麗萍;呂軍;;利用多樣性增量位置得分函數(shù)預(yù)測人類5'非翻譯區(qū)剪接位點(diǎn)[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
10 王科俊;呂俊杰;馮偉興;王鑫;賀波;;一種新的真核基因剪接位點(diǎn)識(shí)別方法[J];電子學(xué)報(bào);2011年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 晉宏?duì)I;最大信息原理、能量及選擇約束在基因剪接位點(diǎn)預(yù)測分析中應(yīng)用的研究[D];內(nèi)蒙古大學(xué);2009年
2 劉薇;選擇性剪接順式調(diào)控元件的位置效應(yīng)[D];武漢大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫永山;基于序列模式挖掘識(shí)別基因剪接位點(diǎn)的研究[D];安徽大學(xué);2016年
2 呂俊杰;真核基因剪接位點(diǎn)識(shí)別算法研究[D];哈爾濱工程大學(xué);2010年
3 李燕青;基于支持向量機(jī)方法的剪接位點(diǎn)預(yù)測[D];福建農(nóng)林大學(xué);2012年
4 夏慧煜;剪接位點(diǎn)識(shí)別與選擇性剪接機(jī)制的初步研究[D];清華大學(xué);2004年
5 雷靜;人類基因剪接供體位點(diǎn)識(shí)別的研究[D];北京工業(yè)大學(xué);2004年
6 黃倩;脊椎動(dòng)物基因組的超級(jí)保守序列及剪接位點(diǎn)分析[D];天津大學(xué);2008年
7 朱建麗;水稻基因組序列分析與基因結(jié)構(gòu)預(yù)測[D];華中科技大學(xué);2007年
8 閆曉強(qiáng);RNA剪接識(shí)別研究[D];吉林大學(xué);2009年
9 高曉陽;smn-1與uaf-1相互作用調(diào)節(jié)秀麗隱桿線蟲壽命和運(yùn)動(dòng)功能[D];中南大學(xué);2014年
10 劉波;基因組中可移動(dòng)元素的研究[D];內(nèi)蒙古大學(xué);2007年
本文關(guān)鍵詞:基于序列模式挖掘識(shí)別基因剪接位點(diǎn)的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):325846
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/325846.html