當(dāng)前位置：主頁(yè) > 碩博論文 > 基礎(chǔ)科學(xué)博士論文 >

基于高通量RNA-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究

發(fā)布時(shí)間：2018-06-25 15:39

本文選題：生物信息學(xué) + 可變剪接　；參考：《山東大學(xué)》2017年博士論文

【摘要】：當(dāng)今的生物技術(shù)快速發(fā)展,生物學(xué)大數(shù)據(jù)每天以爆炸式的速度增長(zhǎng),這無(wú)疑給生物學(xué)研究和發(fā)展帶來(lái)前所未有的機(jī)遇,然而傳統(tǒng)的生物學(xué)分析方法已經(jīng)無(wú)法處理如此龐大的數(shù)據(jù)。生物信息學(xué),作為一門(mén)新興的交叉學(xué)科應(yīng)運(yùn)而生,它將數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué)等結(jié)合起來(lái)研究和解決大數(shù)據(jù)下的生物學(xué)問(wèn)題。其中一個(gè)非�；A(chǔ),重要而又極具挑戰(zhàn)性的問(wèn)題就是序列拼接問(wèn)題,轉(zhuǎn)錄組拼接就是其典型代表。轉(zhuǎn)錄組拼接就是利用RNA-seq等測(cè)序技術(shù)產(chǎn)生的海量測(cè)序片段拼接出實(shí)驗(yàn)組織中所有的表達(dá)轉(zhuǎn)錄本,并估計(jì)出其表達(dá)量。本文的研究主要集中在如何利用組合優(yōu)化方法來(lái)解決轉(zhuǎn)錄組拼接問(wèn)題,這對(duì)于新物種研究,以及與異常轉(zhuǎn)錄相關(guān)的人類(lèi)復(fù)雜疾病研究等相關(guān)問(wèn)題意義重大。第二代RNA-seq測(cè)序技術(shù)的快發(fā)展和廣泛應(yīng)用給轉(zhuǎn)錄組拼接工作帶來(lái)無(wú)限機(jī)遇的同時(shí),也伴隨著在計(jì)算上前所未有的挑戰(zhàn)。目前的拼接算法根據(jù)計(jì)算策略可大致分為兩類(lèi):1)基于參考基因組的轉(zhuǎn)錄組拼接算法;2)從頭轉(zhuǎn)錄組拼接算法。當(dāng)有高質(zhì)量的參考基因組存在時(shí),可先將測(cè)序片段回貼到參考基因組上,之后,根據(jù)回貼的結(jié)果對(duì)每個(gè)基因分別進(jìn)行轉(zhuǎn)錄組拼接。在參考基因組不存在,不完整,嚴(yán)重片段化或是在癌組織中大量突變等,從頭轉(zhuǎn)錄組拼接就成為了非常重要的且是唯一的選擇。從頭拼接策略不需要依賴(lài)任何參考信息,直接從測(cè)序片段本身出發(fā),重構(gòu)出最終的表達(dá)轉(zhuǎn)錄體序列。無(wú)論是轉(zhuǎn)錄組拼接的何種策略,目前的算法在計(jì)算精度和計(jì)算效率上都存在明顯的缺陷和嚴(yán)重的不足,導(dǎo)致其實(shí)際應(yīng)用效果非常差。因此,兩種策略都亟待開(kāi)發(fā)出全新的,高質(zhì)量的拼接算法,以準(zhǔn)確重構(gòu)出真核生物組織中的全長(zhǎng)轉(zhuǎn)錄組。基于上述的考慮,本文設(shè)計(jì)全新的基于參考基因組的轉(zhuǎn)錄組拼接算法TransComb,這個(gè)算法給轉(zhuǎn)錄組拼接提出了全新的設(shè)計(jì)思路,極大的彌補(bǔ)了當(dāng)前算法存在的嚴(yán)重缺陷。經(jīng)過(guò)在模擬數(shù)據(jù)和多組真實(shí)數(shù)據(jù)上的測(cè)試,結(jié)果充分地表明,無(wú)論在模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù)上,本文開(kāi)發(fā)的拼接算法與其他主流拼接算法比較都展示出明顯的優(yōu)勢(shì):不僅具有更高的靈敏度,而且具有更高的準(zhǔn)確度,對(duì)其他算法普遍存在的假陽(yáng)性高的難題得到了極大程度的解決。而且,在計(jì)算資源消耗方面,TransComb使用的CPU時(shí)間明顯更短且運(yùn)行內(nèi)存更低。經(jīng)過(guò)綜合的測(cè)試表明,TransComb無(wú)論是在計(jì)算精度上還是在計(jì)算效率上都顯著超過(guò)其他拼接算法。本文的新算法TransComb具有以下幾個(gè)明顯的的創(chuàng)新點(diǎn):1)新的技術(shù)構(gòu)造出更加準(zhǔn)確的剪接圖。本文設(shè)計(jì)出使用雙端測(cè)序信息來(lái)修復(fù)片段化的外顯子的技術(shù),以及為修復(fù)錯(cuò)誤連接的外顯子而設(shè)計(jì)出的窗口滑動(dòng)技術(shù)。2)梳圖模型和雙端測(cè)序信息解決轉(zhuǎn)錄組拼接的核心難題。轉(zhuǎn)錄組拼接的核心難題就是外顯子兩側(cè)進(jìn)出邊連接的不確定性,這也是目前幾乎所有的拼接軟件共存的一大漏洞。本文開(kāi)發(fā)的梳圖模型將測(cè)序覆蓋度信息和雙端測(cè)序信息合理的整合在一起,巧妙的解決了拼接的核心難題。3)全新的圖模型:加權(quán)節(jié)點(diǎn)圖。打破基于RNA-seq的轉(zhuǎn)錄組拼接算法依賴(lài)傳統(tǒng)重疊圖和剪接圖的現(xiàn)狀,我們的算法是在加權(quán)節(jié)點(diǎn)圖的基礎(chǔ)上完成拼接,節(jié)點(diǎn)圖中包含了更多有效信息,因而克服了現(xiàn)有算法的若干缺陷。4)基于節(jié)點(diǎn)圖設(shè)計(jì)的新的路的延伸策略。該策略在延伸過(guò)程中每一步都有節(jié)點(diǎn)圖上邊的權(quán)重作為依據(jù),使得每一條延伸出的路都以很大概率代表一個(gè)表達(dá)的轉(zhuǎn)錄體,無(wú)論該轉(zhuǎn)錄體是高表達(dá)還是低表達(dá)。盡管TransComb在拼接方面表現(xiàn)出了明顯的優(yōu)勢(shì),但是其仍然存在不足之處。比如:1)TransComb在設(shè)計(jì)過(guò)程中沒(méi)有實(shí)現(xiàn)并行化,因此,在程序設(shè)計(jì)方面還有待進(jìn)一步提升。2)表達(dá)量估計(jì)算法設(shè)計(jì)沒(méi)有將測(cè)序偏好等信息考慮進(jìn)去,因此,在某些數(shù)據(jù)上的表達(dá)量估計(jì)中TransComb與其他主流算法效果接近,沒(méi)有表現(xiàn)出明顯的優(yōu)勢(shì),這個(gè)過(guò)程還有待于進(jìn)一步提高。最后,本文還將簡(jiǎn)要介紹我們開(kāi)發(fā)的另一個(gè)轉(zhuǎn)錄組拼接算法BinPacker,該算法是不依賴(lài)參考信息的從頭拼接算法。BinPacker把轉(zhuǎn)錄組拼接問(wèn)題重新模型化為追蹤一系列物品的軌跡模型,每個(gè)物品代表一種轉(zhuǎn)錄體,物品的尺寸表示該轉(zhuǎn)錄體的覆蓋度。這個(gè)方法能夠巧妙地將覆蓋度信息合理的利用在拼接過(guò)程中,另外,BinPacker具備如下兩個(gè)獨(dú)有的特征:1)只有剪接圖中的可變剪接事件作為拼接過(guò)程的考慮對(duì)象;2)拼接大量雜亂無(wú)章的測(cè)序片段的過(guò)程被形象的模型化為梳理剪接圖中的邊的過(guò)程。最后,我們同時(shí)在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)上測(cè)試BinPacker,測(cè)試結(jié)果顯示,BinPacker在各種數(shù)據(jù)類(lèi)型下均明顯超過(guò)幾乎所有現(xiàn)存的從頭拼接軟件,包括最主流的軟件Trinity,在某些數(shù)據(jù)下,BinPacker的表現(xiàn)甚至超過(guò)了基于參考基因組的拼接算法,如StringTie。而且,相比于其他的拼接軟件,BinPacker消耗更少的運(yùn)行時(shí)間和更低的內(nèi)存。TransComb和BinPacker已經(jīng)用C++語(yǔ)言實(shí)現(xiàn)成一個(gè)開(kāi)源的軟件,兩個(gè)軟件可以通過(guò)以下網(wǎng)址下載:http://sourceforge.net/projects/transcriptomeassembly/files/
[Abstract]:This paper focuses on how to use combinatorial optimization methods to solve the biological problems in large data .
【學(xué)位授予單位】：山東大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2017
【分類(lèi)號(hào)】：Q811.4

【相似文獻(xiàn)】

相關(guān)期刊論文前5條

1 肖才濤;;淺談橫撐對(duì)組拼拱側(cè)傾失穩(wěn)影響[J];科技致富向?qū)?2013年12期

2 姜浩;胡惠玉;左富強(qiáng);;基于微功耗的漢語(yǔ)組拼嵌入式系統(tǒng)設(shè)計(jì)[J];科技致富向?qū)?2010年36期

3 禹奇才;劉愛(ài)榮;肖才濤;傅繼陽(yáng);;基于尖點(diǎn)突變理論的平行組拼雙肋拱側(cè)傾失穩(wěn)臨界荷載計(jì)算新方法[J];中山大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

4 一秀;;組拼成語(yǔ)[J];小學(xué)科技;2008年08期

5 ;[J];;年期

相關(guān)會(huì)議論文前1條

1 王威;;組拼式大模板施工技術(shù)[A];2012年中鐵隧道集團(tuán)低碳環(huán)保優(yōu)質(zhì)工程修建技術(shù)專(zhuān)題交流會(huì)論文集[C];2012年

相關(guān)博士學(xué)位論文前1條

1 柳軍濤;基于高通量RNA-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究[D];山東大學(xué);2017年

，

本文編號(hào)：2066535

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/jckxbs/2066535.html

上一篇：miR-144-3p在間充質(zhì)干細(xì)胞增值、分化、凋亡過(guò)程中的調(diào)控作用研究
下一篇：DNA復(fù)制因子POLD2和FEN1影響表觀遺傳以及基因組穩(wěn)定性

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于高通量RNA-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究