天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于高能量測序數(shù)據(jù)的基因組拼接方法研究

發(fā)布時間:2020-08-25 06:50
【摘要】:高通量測序數(shù)據(jù)的基因組測序拼接是基因組學的核心內(nèi)容。高通量測序數(shù)據(jù)具有通量高、reads長度短、錯誤率高的特點,對傳統(tǒng)的基于Sanger數(shù)據(jù)的拼接方法提出了挑戰(zhàn),因此許多優(yōu)秀的拼接方法應(yīng)運而生。這些拼接方法主要基于交疊圖和De Bruijn圖,但其reads交疊長度或k-mer大小固定,這不利于處理拼接過程中出現(xiàn)的分叉(branches)和空隙(gaps),并且這些方法并未充分利用配對數(shù)據(jù)和單端數(shù)據(jù)來處理分叉結(jié)構(gòu)。本文針對現(xiàn)有方法的不足,提出基于多重啟發(fā)式的配對數(shù)據(jù)引導的拼接方法PERGA。拼接結(jié)果(稱為contigs)中通常會出現(xiàn)一些拼接錯誤,目前有兩類拼接錯誤識別方法:基于參考序列的檢測方法(Reference-based approach)和無參考的檢測方法(De novo approach)。前者未考慮結(jié)構(gòu)變異的影響,后者在處理覆蓋深度不均勻的數(shù)據(jù)時容易引入錯誤識別,因此這兩類識別方法都存在一定的偏差(biases)。本文針對現(xiàn)有拼接錯誤識別方法的不足,提出無偏的(unbiased)拼接錯誤檢測方法mis Finder。本文的主要內(nèi)容包括:(1)基于支持向量機的分叉結(jié)構(gòu)處理方法基因組拼接方法主要采用基于交疊圖和De Bruijn圖,并且在圖中通常會出現(xiàn)分叉結(jié)構(gòu)(branches),每個分叉對應(yīng)一條路徑(path),基因組拼接需要從眾多候選路徑中識別正確的路徑。測序堿基錯誤(sequencing errors)和基因組的重復序列(repeats)是出現(xiàn)分叉結(jié)構(gòu)的兩個主要原因。我們分析分叉結(jié)構(gòu),根據(jù)分叉處的reads信息,提取能夠區(qū)分正確路徑和錯誤路徑的特征,建立SVM預測模型,處理由于測序錯誤導致的分叉。(2)基于向前查看策略的分叉結(jié)構(gòu)處理方法基因組中存在許多高度相似的非精確重復序列(nonexact repeats)和短串聯(lián)重復序列(short tandem repeats,如長度100 bp,相鄰的兩副本的間距100 bp)。這些重復序列將會在拼接過程中導致分叉。SVM預測模型只考慮分叉處及其之前較短距離的局部分叉信息,并未考慮分叉之后的信息。我們設(shè)計了向前查看的方法來處理由于非精確重復序列導致的“氣泡結(jié)構(gòu)”,以及由于短串聯(lián)重復序列導致的分叉,分離其不同的副本,使分叉信息的處理更加準確,提高拼接結(jié)果的質(zhì)量。(3)基于多重啟發(fā)式的基因組拼接方法現(xiàn)有拼接方法采用固定的交疊長度,不能有效地處理基因組中存在的重復序列和低覆蓋區(qū)域的gaps,并且未充分利用配對數(shù)據(jù)和單端數(shù)據(jù)。針對現(xiàn)有方法存在的不足,我們提出配對數(shù)據(jù)引導的基因組拼接方法PERGA,以便更好地使用配對數(shù)據(jù)和單端數(shù)據(jù)處理分叉結(jié)構(gòu)。PERGA采用多重啟發(fā)式引導拼接:i)優(yōu)先使用配對數(shù)據(jù)擴展contigs,并優(yōu)先考慮與contigs具有最大交疊的配對數(shù)據(jù);ii)如果沒有配對數(shù)據(jù),則使用與contigs具有最大交疊的單端數(shù)據(jù)進行擴展;iii)在contigs的擴展過程中遇到分叉時,根據(jù)當前的contigs的數(shù)據(jù)特征,使用SVM預測模型選擇路徑;iv)如果路徑是不能區(qū)分的,則在分叉處使用向前查看方法處理非精確重復序列和短串聯(lián)重復序列。(4)無偏的基因組拼接錯誤識別方法由于高通量測序數(shù)據(jù)的reads長度過短,導致基因組拼接結(jié)果引入拼接錯誤,對下游數(shù)據(jù)分析產(chǎn)生不利影響。基于參考序列的檢測方法將拼接結(jié)果與參考基因組之間的差異直接視為拼接錯誤,并未考慮結(jié)構(gòu)變異的影響;無參考的檢測方法通過分析比對到拼接結(jié)果上的配對reads信息的不一致特征識別錯誤,容易引入計算偏差。結(jié)合上述兩種方法,我們提出無偏的基因組拼接檢錯方法mis Finder,充分利用參考序列和比對到拼接結(jié)果上的配對數(shù)據(jù)信息,根據(jù)錯拼處的reads數(shù)據(jù)的多種不一致特征,更加準確地識別拼接錯誤。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP18;TP391.41

【相似文獻】

相關(guān)期刊論文 前10條

1 王玉;王明泉;李志剛;;醫(yī)學射線圖像快速拼接方法研究[J];科技信息(學術(shù)研究);2007年36期

2 謝鵬;;基于貪心搜索的正射影像拼接方法[J];中國科技信息;2013年02期

3 王政良;王仲;趙飛;李霞;張俊杰;;一種微型零件的拼接方法[J];傳感技術(shù)學報;2006年04期

4 徐亞明;邢誠;陳曉東;;一種基于拼接線的無人機序列影像拼接方法[J];武漢大學學報(信息科學版);2011年11期

5 魯斌;秦瑞;李慶;陳大鵬;;車載環(huán)視拼接方法的研究[J];計算機科學;2013年09期

6 王平江;甄恒洲;;特征稀少圖像的拼接方法[J];華中科技大學學報(自然科學版);2006年08期

7 王威娜;史彥麗;;無重疊的文檔碎片拼接方法[J];吉林化工學院學報;2014年03期

8 孟淑英;;自動檢測拼接線的無人機視頻影像快速拼接方法[J];測繪通報;2013年05期

9 李蓓智;陳華江;楊建國;周虎;蘭弼;;一種適用于特征稀少零件的圖像精確拼接方法[J];機械設(shè)計與制造;2012年01期

10 沈建國,戴永剛;基于局部熵差的柵格地圖拼接方法[J];華東師范大學學報(自然科學版);2002年04期

相關(guān)會議論文 前7條

1 王平江;甄恒洲;;特征稀少圖象的拼接方法研究[A];2005年中國科協(xié)學術(shù)年會論文集第8分會場光固化與數(shù)字成像技術(shù)及其應(yīng)用論文集[C];2005年

2 付躍剛;劉智穎;張磊;李萍;王志堅;;寬光束波前測量子孔徑拼接方法研究[A];第三屆全國信息獲取與處理學術(shù)會議論文集[C];2005年

3 羅如為;陳孝威;;低重疊度圖像的拼接方法[A];第三屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2007)論文集[C];2007年

4 張先勇;郝重陽;樊養(yǎng)余;羅冠;;醫(yī)學數(shù)據(jù)體視化中一種新的輪廓拼接方法[A];第五屆全國生物醫(yī)學體視學學術(shù)會議、第八屆全軍軍事病理學學術(shù)會議、第四屆全軍定量病理學學術(shù)會議論文匯編[C];2002年

5 袁啟平;宋金澤;吳濤;;一種大視角圖像的拼接方法[A];2009年中國智能自動化會議論文集(第三分冊)[C];2009年

6 王華;柳朝陽;;三維公路仿真中動態(tài)公路曲面與固定地模曲面邊界的連續(xù)拼接方法及實現(xiàn)[A];第四屆全國幾何設(shè)計與計算學術(shù)會議論文集[C];2009年

7 馬冬梅;;大口徑平面鏡精確測評方法研究[A];第十四屆全國光學測試學術(shù)討論會論文(摘要集)[C];2012年

相關(guān)博士學位論文 前2條

1 朱曉;基于高能量測序數(shù)據(jù)的基因組拼接方法研究[D];哈爾濱工業(yè)大學;2015年

2 任同群;大型3D形貌測量高精度拼接方法與技術(shù)研究[D];天津大學;2008年

相關(guān)碩士學位論文 前10條

1 程浩;基于輔助立體靶標的編碼光拼接方法研究[D];哈爾濱理工大學;2014年

2 張博鋒;全基因組DNA測序中的片段拼接方法及其并行處理[D];中國人民解放軍國防科學技術(shù)大學;2002年

3 賀晨;地形圖掃描圖像拼接方法的研究與實現(xiàn)[D];解放軍信息工程大學;2008年

4 王赫;視覺測量點云數(shù)據(jù)拼接方法及關(guān)鍵技術(shù)研究[D];哈爾濱理工大學;2011年

5 喻英粽;基于標記約束的三維曲面拼接方法研究[D];浙江理工大學;2010年

6 付朝霞;像素級圖像融合中的拼接方法研究[D];中北大學;2007年

7 姚波;城市場景照片拼接方法的研究[D];廣西大學;2012年

8 莊俊東;基于數(shù)字圖像處理的人民幣碎片拼接方法的研究[D];上海交通大學;2010年

9 王保前;融合反射值影像和卡爾曼濾波的三維點云全局拼接方法[D];中國地質(zhì)大學(北京);2013年

10 馮精武;基于三控制點的三維曲面拼接方法研究[D];浙江理工大學;2011年



本文編號:2803397

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/2803397.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶440e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com