基于高通量RNA-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究
發(fā)布時間:2018-06-25 15:39
本文選題:生物信息學(xué) + 可變剪接。 參考:《山東大學(xué)》2017年博士論文
【摘要】:當(dāng)今的生物技術(shù)快速發(fā)展,生物學(xué)大數(shù)據(jù)每天以爆炸式的速度增長,這無疑給生物學(xué)研究和發(fā)展帶來前所未有的機遇,然而傳統(tǒng)的生物學(xué)分析方法已經(jīng)無法處理如此龐大的數(shù)據(jù)。生物信息學(xué),作為一門新興的交叉學(xué)科應(yīng)運而生,它將數(shù)學(xué),計算機科學(xué),統(tǒng)計學(xué)等結(jié)合起來研究和解決大數(shù)據(jù)下的生物學(xué)問題。其中一個非;A(chǔ),重要而又極具挑戰(zhàn)性的問題就是序列拼接問題,轉(zhuǎn)錄組拼接就是其典型代表。轉(zhuǎn)錄組拼接就是利用RNA-seq等測序技術(shù)產(chǎn)生的海量測序片段拼接出實驗組織中所有的表達轉(zhuǎn)錄本,并估計出其表達量。本文的研究主要集中在如何利用組合優(yōu)化方法來解決轉(zhuǎn)錄組拼接問題,這對于新物種研究,以及與異常轉(zhuǎn)錄相關(guān)的人類復(fù)雜疾病研究等相關(guān)問題意義重大。第二代RNA-seq測序技術(shù)的快發(fā)展和廣泛應(yīng)用給轉(zhuǎn)錄組拼接工作帶來無限機遇的同時,也伴隨著在計算上前所未有的挑戰(zhàn)。目前的拼接算法根據(jù)計算策略可大致分為兩類:1)基于參考基因組的轉(zhuǎn)錄組拼接算法;2)從頭轉(zhuǎn)錄組拼接算法。當(dāng)有高質(zhì)量的參考基因組存在時,可先將測序片段回貼到參考基因組上,之后,根據(jù)回貼的結(jié)果對每個基因分別進行轉(zhuǎn)錄組拼接。在參考基因組不存在,不完整,嚴重片段化或是在癌組織中大量突變等,從頭轉(zhuǎn)錄組拼接就成為了非常重要的且是唯一的選擇。從頭拼接策略不需要依賴任何參考信息,直接從測序片段本身出發(fā),重構(gòu)出最終的表達轉(zhuǎn)錄體序列。無論是轉(zhuǎn)錄組拼接的何種策略,目前的算法在計算精度和計算效率上都存在明顯的缺陷和嚴重的不足,導(dǎo)致其實際應(yīng)用效果非常差。因此,兩種策略都亟待開發(fā)出全新的,高質(zhì)量的拼接算法,以準確重構(gòu)出真核生物組織中的全長轉(zhuǎn)錄組。基于上述的考慮,本文設(shè)計全新的基于參考基因組的轉(zhuǎn)錄組拼接算法TransComb,這個算法給轉(zhuǎn)錄組拼接提出了全新的設(shè)計思路,極大的彌補了當(dāng)前算法存在的嚴重缺陷。經(jīng)過在模擬數(shù)據(jù)和多組真實數(shù)據(jù)上的測試,結(jié)果充分地表明,無論在模擬數(shù)據(jù)還是真實數(shù)據(jù)上,本文開發(fā)的拼接算法與其他主流拼接算法比較都展示出明顯的優(yōu)勢:不僅具有更高的靈敏度,而且具有更高的準確度,對其他算法普遍存在的假陽性高的難題得到了極大程度的解決。而且,在計算資源消耗方面,TransComb使用的CPU時間明顯更短且運行內(nèi)存更低。經(jīng)過綜合的測試表明,TransComb無論是在計算精度上還是在計算效率上都顯著超過其他拼接算法。本文的新算法TransComb具有以下幾個明顯的的創(chuàng)新點:1)新的技術(shù)構(gòu)造出更加準確的剪接圖。本文設(shè)計出使用雙端測序信息來修復(fù)片段化的外顯子的技術(shù),以及為修復(fù)錯誤連接的外顯子而設(shè)計出的窗口滑動技術(shù)。2)梳圖模型和雙端測序信息解決轉(zhuǎn)錄組拼接的核心難題。轉(zhuǎn)錄組拼接的核心難題就是外顯子兩側(cè)進出邊連接的不確定性,這也是目前幾乎所有的拼接軟件共存的一大漏洞。本文開發(fā)的梳圖模型將測序覆蓋度信息和雙端測序信息合理的整合在一起,巧妙的解決了拼接的核心難題。3)全新的圖模型:加權(quán)節(jié)點圖。打破基于RNA-seq的轉(zhuǎn)錄組拼接算法依賴傳統(tǒng)重疊圖和剪接圖的現(xiàn)狀,我們的算法是在加權(quán)節(jié)點圖的基礎(chǔ)上完成拼接,節(jié)點圖中包含了更多有效信息,因而克服了現(xiàn)有算法的若干缺陷。4)基于節(jié)點圖設(shè)計的新的路的延伸策略。該策略在延伸過程中每一步都有節(jié)點圖上邊的權(quán)重作為依據(jù),使得每一條延伸出的路都以很大概率代表一個表達的轉(zhuǎn)錄體,無論該轉(zhuǎn)錄體是高表達還是低表達。盡管TransComb在拼接方面表現(xiàn)出了明顯的優(yōu)勢,但是其仍然存在不足之處。比如:1)TransComb在設(shè)計過程中沒有實現(xiàn)并行化,因此,在程序設(shè)計方面還有待進一步提升。2)表達量估計算法設(shè)計沒有將測序偏好等信息考慮進去,因此,在某些數(shù)據(jù)上的表達量估計中TransComb與其他主流算法效果接近,沒有表現(xiàn)出明顯的優(yōu)勢,這個過程還有待于進一步提高。最后,本文還將簡要介紹我們開發(fā)的另一個轉(zhuǎn)錄組拼接算法BinPacker,該算法是不依賴參考信息的從頭拼接算法。BinPacker把轉(zhuǎn)錄組拼接問題重新模型化為追蹤一系列物品的軌跡模型,每個物品代表一種轉(zhuǎn)錄體,物品的尺寸表示該轉(zhuǎn)錄體的覆蓋度。這個方法能夠巧妙地將覆蓋度信息合理的利用在拼接過程中,另外,BinPacker具備如下兩個獨有的特征:1)只有剪接圖中的可變剪接事件作為拼接過程的考慮對象;2)拼接大量雜亂無章的測序片段的過程被形象的模型化為梳理剪接圖中的邊的過程。最后,我們同時在模擬數(shù)據(jù)和真實數(shù)據(jù)上測試BinPacker,測試結(jié)果顯示,BinPacker在各種數(shù)據(jù)類型下均明顯超過幾乎所有現(xiàn)存的從頭拼接軟件,包括最主流的軟件Trinity,在某些數(shù)據(jù)下,BinPacker的表現(xiàn)甚至超過了基于參考基因組的拼接算法,如StringTie。而且,相比于其他的拼接軟件,BinPacker消耗更少的運行時間和更低的內(nèi)存。TransComb和BinPacker已經(jīng)用C++語言實現(xiàn)成一個開源的軟件,兩個軟件可以通過以下網(wǎng)址下載:http://sourceforge.net/projects/transcriptomeassembly/files/
[Abstract]:This paper focuses on how to use combinatorial optimization methods to solve the biological problems in large data .
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:Q811.4
【相似文獻】
相關(guān)期刊論文 前5條
1 肖才濤;;淺談橫撐對組拼拱側(cè)傾失穩(wěn)影響[J];科技致富向?qū)?2013年12期
2 姜浩;胡惠玉;左富強;;基于微功耗的漢語組拼嵌入式系統(tǒng)設(shè)計[J];科技致富向?qū)?2010年36期
3 禹奇才;劉愛榮;肖才濤;傅繼陽;;基于尖點突變理論的平行組拼雙肋拱側(cè)傾失穩(wěn)臨界荷載計算新方法[J];中山大學(xué)學(xué)報(自然科學(xué)版);2014年02期
4 一秀;;組拼成語[J];小學(xué)科技;2008年08期
5 ;[J];;年期
相關(guān)會議論文 前1條
1 王威;;組拼式大模板施工技術(shù)[A];2012年中鐵隧道集團低碳環(huán)保優(yōu)質(zhì)工程修建技術(shù)專題交流會論文集[C];2012年
相關(guān)博士學(xué)位論文 前1條
1 柳軍濤;基于高通量RNA-seq數(shù)據(jù)轉(zhuǎn)錄組拼接的算法研究[D];山東大學(xué);2017年
,本文編號:2066535
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/2066535.html
最近更新
教材專著