當(dāng)前位置：主頁(yè) > 碩博論文 > 信息類(lèi)博士論文 >

生物高通量測(cè)序片段拼接與分子標(biāo)記識(shí)別算法研究

發(fā)布時(shí)間：2017-05-25 08:25

本文關(guān)鍵詞：生物高通量測(cè)序片段拼接與分子標(biāo)記識(shí)別算法研究，由筆耕文化傳播整理發(fā)布。

【摘要】：快速準(zhǔn)確的獲取生物體的遺傳信息是生命科學(xué)研究的基石,基因組是生物體全部遺傳信息的載體。測(cè)序技術(shù)能夠獲得基因組的遺傳信息,進(jìn)而較全面的揭示生物體的復(fù)雜性和多樣性,因而在生命科學(xué)研究中具有十分重要的作用。隨著科學(xué)的進(jìn)步,下一代測(cè)序技術(shù)迅速發(fā)展并廣泛應(yīng)用,使得生物序列數(shù)據(jù)的獲取效率和費(fèi)用成本的快速下降都達(dá)到了前所未有的程度,這些對(duì)基因組的深度測(cè)序和重測(cè)序研究產(chǎn)生了極大的推動(dòng)作用。序列數(shù)據(jù)生產(chǎn)速度越來(lái)越快,由此產(chǎn)生了數(shù)量巨大的生物序列數(shù)據(jù),而如何高效準(zhǔn)確的對(duì)大數(shù)據(jù)量的生物序列數(shù)據(jù)進(jìn)行分析和比較,成為了生物信息學(xué)領(lǐng)域的新挑戰(zhàn)。近幾年來(lái)計(jì)算機(jī)運(yùn)算性能的增長(zhǎng)趨于緩慢,為應(yīng)對(duì)大數(shù)據(jù)時(shí)代的需求出現(xiàn)了Map Reduce、Spark等云計(jì)算技術(shù),但目前生物信息領(lǐng)域的各種工具和方法還未能充分利用這些新技術(shù)。因此,本文以序列分析為基礎(chǔ),利用Map Reduce技術(shù)結(jié)合序列比對(duì)、串和圖等算法,深入研究了高通量序列拼接與分子標(biāo)記識(shí)別兩方面的幾個(gè)問(wèn)題,主要內(nèi)容如下。(1)提出了基于Map Reduce的高通量序列數(shù)據(jù)的聚類(lèi)分析算法。生物序列聚類(lèi)可以為下游序列分析工作提供基礎(chǔ),高通量測(cè)序也為序列聚類(lèi)提出了新內(nèi)容和新挑戰(zhàn)。針對(duì)這一問(wèn)題,本文提出了基于兩種相似度的結(jié)合Map Reduce技術(shù)的貪心聚類(lèi)方法。首先,從相似序列會(huì)共享一定數(shù)量k-mer這一事實(shí)出發(fā),本文提出了基于窗口內(nèi)非交疊共享k-mer計(jì)數(shù)的相似度計(jì)算方法,可以過(guò)濾掉不相關(guān)序列間的比對(duì)計(jì)算,從而大幅度提高比對(duì)效率;然后,對(duì)于相似序列的精確比對(duì),本文提出了基于共享k-mer擴(kuò)展塊的塊比對(duì)相似度計(jì)算方法。利用本文方法可對(duì)大規(guī)模序列數(shù)據(jù)如EST、高通量測(cè)序讀片段等進(jìn)行聚類(lèi)分析。(2)提出了基于序列聚類(lèi)和Seeds Graph的高通量測(cè)序片段拼接算法。全基因組高通量測(cè)序數(shù)據(jù)的拼接,主要困難在于高通量序列數(shù)據(jù)讀長(zhǎng)短、數(shù)量大和錯(cuò)誤率高。本文針對(duì)這三方面的困難提出了基于Map Reduce和序列聚類(lèi)的全基因組de novo拼接方法Seeds Graph。該方法利用云計(jì)算平臺(tái)解決數(shù)據(jù)量大的問(wèn)題,用序列聚類(lèi)將短片段以簇表示,并定義可容錯(cuò)的seed結(jié)構(gòu)來(lái)糾正測(cè)序錯(cuò)誤。然后利用seed為頂點(diǎn)建立的SeedsGraph圖來(lái)指導(dǎo)測(cè)序片段的拼接過(guò)程。最后,本文采用路徑相容分析技術(shù)和雙端讀片段信息方式解決重復(fù)序列導(dǎo)致的復(fù)雜路徑問(wèn)題。實(shí)驗(yàn)表明Seeds Graph有良好的可擴(kuò)展性,可處理較大規(guī)�；蚪M的拼接問(wèn)題。(3)提出了多供體高通量測(cè)序數(shù)據(jù)的基因組結(jié)構(gòu)變異分子標(biāo)記識(shí)別算法。目前對(duì)生物個(gè)體重測(cè)序的研究普遍存在測(cè)序?qū)ο髷?shù)量較多而測(cè)序深度不夠的現(xiàn)象。在這種測(cè)序個(gè)體較多但深度都不大的數(shù)據(jù)中進(jìn)行全基因組結(jié)構(gòu)變異識(shí)別,往往因?yàn)樯疃炔粔蚨荒塬@得準(zhǔn)確的結(jié)果。本文針對(duì)這一問(wèn)題,提出了基于多供體高通量重測(cè)序數(shù)據(jù)的全基因組結(jié)構(gòu)變異識(shí)別方法。該方法利用Map Reduce技術(shù)解決數(shù)據(jù)量巨大的問(wèn)題,結(jié)合雙端讀片段和讀片段分隔方法進(jìn)行結(jié)構(gòu)變異事件的識(shí)別;利用改進(jìn)的仿射空位罰分的半全局序列比對(duì)算法,預(yù)測(cè)結(jié)構(gòu)變異精確的斷點(diǎn)位置。(4)綜合本文在序列分析的算法成果,設(shè)計(jì)并實(shí)現(xiàn)了基于同源搜索和集成分類(lèi)的mi RNA分子標(biāo)記識(shí)別方法。該方法利用已知mi RNA為參考,對(duì)EST或高通量測(cè)序數(shù)據(jù)進(jìn)行同源搜索,使用RNAfold軟件分析發(fā)夾環(huán)結(jié)構(gòu),獲得粗略的mi RNA前體候選集。為了解決該候選集中假陽(yáng)性率過(guò)高的不平衡分類(lèi)問(wèn)題,本文提出了基于投票機(jī)制的集成學(xué)習(xí)分類(lèi)方法。利用已知mi RNA作為正例和適當(dāng)選擇的反例以不平衡數(shù)據(jù)分類(lèi)問(wèn)題的策略訓(xùn)練多種分類(lèi)器,再集成為一個(gè)單獨(dú)的分類(lèi)器,并對(duì)候選集進(jìn)行分類(lèi)。利用該方法可得到輸入數(shù)據(jù)集中高可信度的miRNA候選,可以用于指導(dǎo)下游mi RNA識(shí)別和分析的研究工作。
【關(guān)鍵詞】：序列比對(duì) 序列聚類(lèi) 基因組拼接 結(jié)構(gòu)變異 高通量測(cè)序
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2015
【分類(lèi)號(hào)】：TP391.4
【目錄】：

摘要4-6
ABSTRACT6-14
第1章緒論14-30
1.1 課題背景及意義14-16
1.1.1 研究背景14-15
1.1.2 研究意義15-16
1.2 相關(guān)知識(shí)介紹16-24
1.2.1 序列分析技術(shù)簡(jiǎn)介16-17
1.2.2 測(cè)序技術(shù)簡(jiǎn)介17-22
1.2.3 基因組結(jié)構(gòu)變異簡(jiǎn)介22
1.2.4 非編碼RNA簡(jiǎn)介22-23
1.2.5 Map Reduce技術(shù)簡(jiǎn)介23-24
1.3 國(guó)內(nèi)外研究現(xiàn)狀24-28
1.3.1 高通量數(shù)據(jù)的聚類(lèi)與拼接24-26
1.3.2 生物分子標(biāo)記的識(shí)別26-28
1.4 本文主要工作28-30
第2章基于MAPREDUCE的生物序列聚類(lèi)算法30-54
2.1 引言30-34
2.1.1 問(wèn)題描述31-32
2.1.2 相關(guān)算法32-34
2.2 基于共享k-mer計(jì)數(shù)的序列相似度計(jì)算方法34-38
2.2.1 基于共享k-mer計(jì)數(shù)的序列相似度34-35
2.2.2 基于Map Reduce的序列共享k-mer計(jì)數(shù)算法35-38
2.3 基于塊比對(duì)的序列相似度計(jì)算方法38-47
2.3.1 全局比對(duì)和局部比對(duì)算法38-40
2.3.2 基于共享k-mers擴(kuò)展塊的局部塊比對(duì)40-43
2.3.3 邊加權(quán)有向無(wú)環(huán)圖單源最長(zhǎng)路徑算法43-46
2.3.4 局部塊比對(duì)的優(yōu)化46-47
2.4 序列聚類(lèi)算法47-49
2.5 實(shí)驗(yàn)與分析49-52
2.6 本章小結(jié)52-54
第3章基于讀片段聚類(lèi)的高通量數(shù)據(jù)拼接算法54-79
3.1 引言54-59
3.1.1 拼接方法及相關(guān)算法55-57
3.1.2 問(wèn)題描述57-59
3.2 NGS讀片段聚類(lèi)算法59-65
3.2.1 數(shù)據(jù)預(yù)處理59
3.2.2 生成k-mer群組59-61
3.2.3 讀片段的聚類(lèi)61-65
3.3 基于歐拉路徑的contig建立算法65-69
3.3.1 Seeds Graph的構(gòu)建65-66
3.3.2 Seeds Graph中重復(fù)路徑的分析66-68
3.3.3 Contigs的生成方法68-69
3.4 基于mate-pair的scaffold建立方法69-72
3.4.1 Contigs間的相對(duì)方向70-71
3.4.2 Contigs的定位方法71-72
3.4.3 填充gap和生成scaffolds72
3.5 實(shí)驗(yàn)與分析72-77
3.6 本章小結(jié)77-79
第4章基于高通量測(cè)序的多供體結(jié)構(gòu)變異識(shí)別算法79-104
4.1 引言79-85
4.1.1 結(jié)構(gòu)變異及其重要作用80-81
4.1.2 結(jié)構(gòu)變異識(shí)別方法的研究現(xiàn)狀81-82
4.1.3 問(wèn)題描述82-85
4.2 基于Map Reduce的讀片段定位方法85-89
4.2.1 不一致的讀片段對(duì)86
4.2.2 基于Map Reduce的篩選算法86-89
4.2.3 合并多供體的候選讀片段89
4.3 結(jié)構(gòu)變異的識(shí)別算法89-97
4.3.1 小型indel事件的識(shí)別方法90-91
4.3.2 插入事件的識(shí)別方法91-92
4.3.3 缺失事件的識(shí)別方法92-93
4.3.4 倒位事件的識(shí)別方法93-94
4.3.5 易位事件的識(shí)別方法94-95
4.3.6 重復(fù)事件的識(shí)別方法95-96
4.3.7 識(shí)別算法96-97
4.4 斷點(diǎn)精確預(yù)測(cè)算法97-100
4.4.1 基于split-read的斷點(diǎn)預(yù)測(cè)方法97-99
4.4.2 基于soft clipping的斷點(diǎn)預(yù)測(cè)方法99-100
4.5 實(shí)驗(yàn)與分析100-103
4.6 本章小結(jié)103-104
第5章基于同源搜索與集成分類(lèi)的MIRNA識(shí)別方法104-116
5.1 引言104-108
5.1.1 相關(guān)研究105-107
5.1.2 識(shí)別流程107-108
5.2 基于Map Reduce的同源序列搜索方法108-111
5.2.1 數(shù)據(jù)的預(yù)處理108
5.2.2 同源序列搜索108-111
5.3 基于集成學(xué)習(xí)的分類(lèi)器111-113
5.3.1 樣本集的選擇111
5.3.2 集成分類(lèi)器的構(gòu)建111-113
5.4 實(shí)驗(yàn)與分析113-114
5.5 本章小結(jié)114-116
結(jié)論116-118
參考文獻(xiàn)118-132
攻讀博士學(xué)位期間發(fā)表的論文及其它成果132-136
致謝136-137
個(gè)人簡(jiǎn)歷137

本文關(guān)鍵詞：生物高通量測(cè)序片段拼接與分子標(biāo)記識(shí)別算法研究，，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：393192

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/393192.html

上一篇：MMC多層次仿真技術(shù)及其應(yīng)用研究
下一篇：PCF熱傳導(dǎo)與形變機(jī)理及在熔接和光柵制備中的應(yīng)用研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

生物高通量測(cè)序片段拼接與分子標(biāo)記識(shí)別算法研究