基于二代RNA-seq數(shù)據(jù)的轉(zhuǎn)錄組組裝算法研究
發(fā)布時(shí)間:2021-08-08 01:21
隨著生物技術(shù)的迅猛發(fā)展,生物信息數(shù)據(jù)資源呈現(xiàn)出爆炸式增長的趨勢,同時(shí)計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)日益提高,使得我們對于大數(shù)據(jù)的儲(chǔ)存、處理及傳輸更為便捷,對于生物大數(shù)據(jù)的整合與數(shù)據(jù)挖掘成為生命科學(xué)研究中的重要組成部分;谟(jì)算機(jī)科學(xué)、數(shù)學(xué)與生物學(xué)的一門新興交叉學(xué)科--生物信息學(xué)應(yīng)時(shí)而生,其中對于轉(zhuǎn)錄組學(xué)的研究就是生物信息學(xué)中一個(gè)十分重要的基礎(chǔ)性問題。近年來第二代RNA-seq技術(shù)依賴于其通量高、成本低的優(yōu)勢逐漸成為了研究轉(zhuǎn)錄組及其表達(dá)水平的主要手段。隨著各種測序技術(shù)的發(fā)展,大量數(shù)據(jù)的產(chǎn)生,利用測序技術(shù)研究基因的轉(zhuǎn)錄組成為一個(gè)必然的趨勢。二代的RNA-seq 測序數(shù)據(jù)的序列長度很短,必須經(jīng)過有效組裝才能恢復(fù)出全長轉(zhuǎn)錄本的序列,這就是本文所研究的轉(zhuǎn)錄組組裝問題,而真核生物的轉(zhuǎn)錄過程中,由于可變剪接現(xiàn)象的存在,同一個(gè)基因可以產(chǎn)生多個(gè)不同的轉(zhuǎn)錄本,而可變剪接的模式也呈現(xiàn)出多樣化,這無疑使轉(zhuǎn)錄組組裝問題充滿了挑戰(zhàn)性。本文的研究主要是利用圖論中的理論將轉(zhuǎn)錄組組裝問題模型化,并利用組合優(yōu)化技術(shù)解決組裝過程中的難點(diǎn)與瓶頸。轉(zhuǎn)錄組組裝算法大體分為兩類,一類是基于參考基因組的組裝算法,另一類是從頭組裝算法。對有些...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:126 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.1.真核生物基因的可變剪接
生物活性,需要進(jìn)行轉(zhuǎn)錄產(chǎn)物??的后加工,使其變成具有生物功能的成熟RNA,這就是轉(zhuǎn)錄的第二個(gè)過程。??這一過程一般包括RNA鏈的剪接(剪切拼接)和堿基修飾。剪接是在真核生??物中非常重要的一個(gè)過程,原始的RNA?xí)诩羟忻傅淖饔孟,被切成一??大小的分子,然后在拼接酶的作用下把成熟RNA所需要的片段拼接起來。??經(jīng)過這一步驟,原始的RNA有時(shí)會(huì)產(chǎn)生兩種以上的成熟RNA,不同的成熟??RNA可以翻譯成不同的蛋白質(zhì),發(fā)揮不同的生物功能,我們把這種現(xiàn)象稱為??可變剪接(或選擇性剪接)(如圖1.1所示)。??可變剪接是真核生物體內(nèi)非常重要的機(jī)制,可以調(diào)控基因表達(dá)并能引起??蛋白質(zhì)多樣性,它通常包括5中基本模式,例如外顯子跳躍、內(nèi)含子保留等??等(如圖1.2所示)[2-4]。??A外顯子跳躍?D內(nèi)含子保留??.一’??V??B可變的受體E可變的供體%??.一漏?二. ̄ ̄ ̄??C互相排斥的夕卜辱子?、?臟未發(fā)生可變剪切的外鮮??[u發(fā)生可變剪切的外饅子??snm]保留下來的內(nèi)含子??圖1.2.可變剪接的5種基本模式。??近些年來的研究表明,在真核生物中可變剪接的現(xiàn)象非常普遍,它使得??一個(gè)基因可以轉(zhuǎn)錄成多個(gè)不同的RNA并產(chǎn)生不同的蛋白質(zhì),是導(dǎo)致真核生??物中基因數(shù)量與蛋白質(zhì)數(shù)量有較大差異的重要因素。例如在人體內(nèi)存在多個(gè)??外顯子的基因中,約有95%的基因都會(huì)發(fā)生可變剪接[2],這導(dǎo)致人體內(nèi)大約??3??
特異性測序信息中所包含的鏈方向的信息,可以確定轉(zhuǎn)錄本是來自正義還??是反義DNA鏈,能有效的幫助組裝具有重疊區(qū)域的轉(zhuǎn)錄本或反義轉(zhuǎn)錄本[38-??40]。與基因組組裝存在的這些差異,是在轉(zhuǎn)錄組的組裝中所面臨的巨大挑戰(zhàn)。??iMiSisaaiaav?-?-?-?-?-?-?ssssssixst?判?片??序列回貼到參考基^從頭組裝????驗(yàn)??-fi^sssss??^?---2^????m.*?Ksssssasaa?職.欲v??J?基于參考基H組的組裝??圖1.3.轉(zhuǎn)錄組組裝的兩種策略:基于參考基因組的轉(zhuǎn)錄組組裝和從頭轉(zhuǎn)錄組組裝。??轉(zhuǎn)錄組組裝算法的研究,在過去的幾年里己經(jīng)有了快速的發(fā)展,一般有??兩種策略:基于參考基因組的組裝(genome-guided)和從頭組裝(cfe?novo)??[36,37](圖1.3),前者需要有一個(gè)高質(zhì)量的可供參考的基因組,第一步就是??將測序片段回貼到參考的基因組上,來自不同基因的測序片段會(huì)聚類到一起,??根據(jù)回貼結(jié)果及其所包含的信息,我們可以對不同基因的片段分別組裝。從??頭組裝算法則不依賴于任何參考信息,直接由測序片段著手,根據(jù)片段間的??重疊信息完成組裝,往往具有更大的組裝難度。??一個(gè)顯而易見的事實(shí)是,基于參考基因組的組裝算法會(huì)有更高的準(zhǔn)確率,??然而對于從頭組裝算法的研宄仍然具有十分重要的意義。這是因?yàn)榛趨⒖??9??
本文編號(hào):3328923
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:126 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.1.真核生物基因的可變剪接
生物活性,需要進(jìn)行轉(zhuǎn)錄產(chǎn)物??的后加工,使其變成具有生物功能的成熟RNA,這就是轉(zhuǎn)錄的第二個(gè)過程。??這一過程一般包括RNA鏈的剪接(剪切拼接)和堿基修飾。剪接是在真核生??物中非常重要的一個(gè)過程,原始的RNA?xí)诩羟忻傅淖饔孟,被切成一??大小的分子,然后在拼接酶的作用下把成熟RNA所需要的片段拼接起來。??經(jīng)過這一步驟,原始的RNA有時(shí)會(huì)產(chǎn)生兩種以上的成熟RNA,不同的成熟??RNA可以翻譯成不同的蛋白質(zhì),發(fā)揮不同的生物功能,我們把這種現(xiàn)象稱為??可變剪接(或選擇性剪接)(如圖1.1所示)。??可變剪接是真核生物體內(nèi)非常重要的機(jī)制,可以調(diào)控基因表達(dá)并能引起??蛋白質(zhì)多樣性,它通常包括5中基本模式,例如外顯子跳躍、內(nèi)含子保留等??等(如圖1.2所示)[2-4]。??A外顯子跳躍?D內(nèi)含子保留??.一’??V??B可變的受體E可變的供體%??.一漏?二. ̄ ̄ ̄??C互相排斥的夕卜辱子?、?臟未發(fā)生可變剪切的外鮮??[u發(fā)生可變剪切的外饅子??snm]保留下來的內(nèi)含子??圖1.2.可變剪接的5種基本模式。??近些年來的研究表明,在真核生物中可變剪接的現(xiàn)象非常普遍,它使得??一個(gè)基因可以轉(zhuǎn)錄成多個(gè)不同的RNA并產(chǎn)生不同的蛋白質(zhì),是導(dǎo)致真核生??物中基因數(shù)量與蛋白質(zhì)數(shù)量有較大差異的重要因素。例如在人體內(nèi)存在多個(gè)??外顯子的基因中,約有95%的基因都會(huì)發(fā)生可變剪接[2],這導(dǎo)致人體內(nèi)大約??3??
特異性測序信息中所包含的鏈方向的信息,可以確定轉(zhuǎn)錄本是來自正義還??是反義DNA鏈,能有效的幫助組裝具有重疊區(qū)域的轉(zhuǎn)錄本或反義轉(zhuǎn)錄本[38-??40]。與基因組組裝存在的這些差異,是在轉(zhuǎn)錄組的組裝中所面臨的巨大挑戰(zhàn)。??iMiSisaaiaav?-?-?-?-?-?-?ssssssixst?判?片??序列回貼到參考基^從頭組裝????驗(yàn)??-fi^sssss??^?---2^????m.*?Ksssssasaa?職.欲v??J?基于參考基H組的組裝??圖1.3.轉(zhuǎn)錄組組裝的兩種策略:基于參考基因組的轉(zhuǎn)錄組組裝和從頭轉(zhuǎn)錄組組裝。??轉(zhuǎn)錄組組裝算法的研究,在過去的幾年里己經(jīng)有了快速的發(fā)展,一般有??兩種策略:基于參考基因組的組裝(genome-guided)和從頭組裝(cfe?novo)??[36,37](圖1.3),前者需要有一個(gè)高質(zhì)量的可供參考的基因組,第一步就是??將測序片段回貼到參考的基因組上,來自不同基因的測序片段會(huì)聚類到一起,??根據(jù)回貼結(jié)果及其所包含的信息,我們可以對不同基因的片段分別組裝。從??頭組裝算法則不依賴于任何參考信息,直接由測序片段著手,根據(jù)片段間的??重疊信息完成組裝,往往具有更大的組裝難度。??一個(gè)顯而易見的事實(shí)是,基于參考基因組的組裝算法會(huì)有更高的準(zhǔn)確率,??然而對于從頭組裝算法的研宄仍然具有十分重要的意義。這是因?yàn)榛趨⒖??9??
本文編號(hào):3328923
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/3328923.html
最近更新
教材專著