高通量測序誤差模型分析及解碼方案設計
本文關鍵詞:高通量測序誤差模型分析及解碼方案設計
更多相關文章: 高通量測序 熒光光譜串擾 相位偏移 兩核苷酸同時測序 解碼
【摘要】:高通量DNA測序技術是目前生命科學領域的一種重要的研究手段。經(jīng)過十幾年的發(fā)展,高通量測序技術無論在測序通量還是測序速度上都有了很大的提升,測序成本也有了大幅度的降低。然而高通量測序錯誤率高等難題仍未得到有效解決。另外,目前市場上所有的商用測序儀器及其配套試劑都被國外測序儀公司所壟斷,要打破這種局面必須發(fā)展具有自主知識產(chǎn)權的國產(chǎn)測序儀。本課題針對東南大學生物電子學國家重點實驗室自主研制的AG系列測序儀,研究系統(tǒng)誤差的來源及其糾錯模型,以期提高現(xiàn)有AG-100測序平臺數(shù)據(jù)產(chǎn)生的準確率,在此基礎上,建立堿基識別算法并開發(fā)軟件系統(tǒng),并同時為雙堿基編碼測序技術的AG-200平臺提供解碼方案。本論文首先分析了高通量測序平臺中常見的測序誤差,介紹并比較了一些比較流行的誤差模型及校正的工具。在此基礎上,對自主研發(fā)的基于連接法測序的AG-100高通量測序平臺,我們分析了該平臺的誤差來源,建立了相應的誤差校正模型,主要包括熒光光譜串擾校正和相位偏移校正。對于光譜串擾,我們將其視作一個線性轉(zhuǎn)換問題,建立相應的數(shù)學模型,明確了求解串擾矩陣是校正流程中的關鍵步驟。我們采取了逐步迭代的方法對串擾矩陣進行估算,并在迭代的過程中對熒光強度數(shù)據(jù)進行不斷地校正。在相位偏移的校正步驟中,我們將測序片段按照連接法測序時的順序分割成更小的片段,對分割后的片段分別建立相位偏移矩陣,然后逐一校正,再將其合成。最后我們?yōu)锳G-100平臺的堿基識別流程開發(fā)了軟件,該軟件接收熒光強度數(shù)據(jù)作為輸入,輸出fastq格式的包含序列和及其質(zhì)量的文件。通過模擬試驗證明該軟件能有效地校正光譜串擾偏差。為提高測序效率,在連接測序的基礎上,我們實驗室還提出了兩核苷酸同時合成DNA測序方案。相比較單核苷酸測序,兩核苷酸測序具有較高的精度,但同時也造成每一輪測序結(jié)果不直觀,我們需要對其進行解碼。為此我們提出了相應的解碼方案,并采用模擬數(shù)據(jù)集進行了測試,取得了完全正確的解碼結(jié)果。然后將這個方案推廣到包含測序錯誤的情況下,我們詳細分析了三組編碼序列的全部誤差模式,并分別為其可能出現(xiàn)的測序錯誤提出了相應的糾正方案。通過模擬數(shù)據(jù)集的測試,初步驗證了該解碼方案的正確性。
【關鍵詞】:高通量測序 熒光光譜串擾 相位偏移 兩核苷酸同時測序 解碼
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:Q78
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-18
- 1.1 引言8
- 1.2 測序技術的誕生與“人類基因組計劃”8-9
- 1.3 高通量測序技術問世9-13
- 1.3.1 高通量測序技術的誕生10-11
- 1.3.2 第三代測序技術11
- 1.3.3 各類測序技術間的比較11-13
- 1.4 高通量測序技術的應用與千人基因組計劃13-15
- 1.4.1 全基因組測序13-14
- 1.4.2 宏基因組測序14
- 1.4.3 研究DNA和蛋白質(zhì)的相互作用14
- 1.4.4 “千人基因組計劃”14-15
- 1.5 高通量測序目前存在的問題15
- 1.6 課題的研究的意義與內(nèi)容15-16
- 1.6.1 課題背景及意義15-16
- 1.6.2 課題研究內(nèi)容16
- 1.7 論文章節(jié)安排16-17
- 1.8 本章小結(jié)17-18
- 第二章 高通量測序的偏差及現(xiàn)行解決方案18-24
- 2.1 高通量測序的偏差分類18-22
- 2.1.1 不完善的化學反應引入的偏差18-20
- 2.1.2 采用光學檢測而帶來的偏差20-22
- 2.2 現(xiàn)行的堿基識別工具22-23
- 2.3 本章小結(jié)23-24
- 第三章 AG-100測序平臺的誤差模型分析及堿基識別方案研究24-35
- 3.1 引言24
- 3.2 熒光光譜串擾的校正思想24-29
- 3.2.1 串擾模型24-25
- 3.2.2 串擾矩陣分析25-28
- 3.2.3 串擾校正流程28-29
- 3.3 相位偏移校正29-31
- 3.3.1 基于連接法測序的相位偏移處理29-30
- 3.3.2 相位偏移處理的基本過程30-31
- 3.4 AGNGS堿基識別軟件31-34
- 3.5 本章小結(jié)34-35
- 第四章 兩核苷酸同時合成DNA測序的解碼方案研究35-52
- 4.1 引言35
- 4.2 兩核苷酸同時合成DNA測序技術35-40
- 4.2.1 兩核苷酸同時合成DNA測序原理35-36
- 4.2.2 兩核苷酸同時合成DNA測序技術特點分析36-40
- 4.2.3 解碼方案相關術語40
- 4.3 基于兩組編碼序列信息的解碼方案40-42
- 4.4 基于三組編碼序列信息的解碼方案的初步研究42-50
- 4.4.1 無測序錯誤下基于三組編碼序列信息的解碼方案42-43
- 4.4.2 存在測序錯誤下基于三組編碼序列信息的解碼方案43-50
- 4.5 本章小結(jié)50-52
- 第五章 總結(jié)與展望52-54
- 5.1 工作總結(jié)52-53
- 5.2 展望53-54
- 參考文獻54-58
- 附錄A AGNGS軟件說明58-60
- 附錄B 解碼測序、454、Illumina三大平臺每序列平均拍照次數(shù)模擬試驗60-62
- 致謝62-63
- 作者簡介63
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉清萍,劉中華,唐新科,陳平,梁宋平;串聯(lián)質(zhì)譜在多肽測序中的應用[J];生命科學研究;2004年02期
2 張文力;;高通量測序數(shù)據(jù)分析現(xiàn)狀與挑戰(zhàn)[J];集成技術;2012年03期
3 李黎;;一種簡化的質(zhì)粒DNA快速測序法[J];國外醫(yī)學(分子生物學分冊);1991年03期
4 盧春,陳溥言,,蔡寶祥,王俊;一種純化雙鏈DNA測序模板的有效方法[J];生物技術;1996年04期
5 童大躍,伍新堯,蔡貴慶,李建金,劉秋玲;線粒體DNA高變區(qū)hν1快速測序方法及應用[J];生物技術通訊;2003年04期
6 許艷,衛(wèi)紅飛,胡小平,包木勝,王愛麗,程巖,王麗穎;DNA自動測序中的常見影響因素及測序反應體系的優(yōu)化[J];吉林大學學報(醫(yī)學版);2004年06期
7 劉力,莊志雄,陳雯,楊杏芬,凌文華,魏青,鄧麗霞;應用連接介導PCR法于線粒體DNA的測序[J];中國職業(yè)醫(yī)學;2000年03期
8 肖翠英,張思,仲武輝,夏慶杰;DNA自動測序中幾種影響因素的研究[J];中華醫(yī)學遺傳學雜志;1998年04期
9 甄志成,姚志建;毛細管陣列電泳與規(guī)模化DNA測序[J];色譜;2001年04期
10 余才林;大規(guī)模DNA測序進展[J];國外醫(yī)學.遺傳學分冊;1996年02期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 陸祖宏;呂華;肖鵬峰;白云飛;葛芹月;周東蕊;;基于生物芯片的高通量低成本DNA快速測序及其在系統(tǒng)生物學研究中的應用[A];2007年全國生化與生物技術藥物學術年會論文集[C];2007年
2 顧潔梅;柯耀華;岳華;劉玉娟;張增;張浩;胡偉偉;汪純;何進衛(wèi);胡云秋;李淼;傅文貞;章振林;;全外顯子組測序法鑒定一個導致不典型IBMPFD綜合征的新的VCP基因突變[A];中華醫(yī)學會第十一次全國內(nèi)分泌學學術會議論文匯編[C];2012年
中國博士學位論文全文數(shù)據(jù)庫 前6條
1 王春宇;生物高通量測序片段拼接與分子標記識別算法研究[D];哈爾濱工業(yè)大學;2015年
2 盧戌;基于第二代測序的轉(zhuǎn)錄組組裝軟件比較研究[D];蘭州大學;2013年
3 安小平;利用高通量測序篩查未知病毒的相關技術研究[D];中國人民解放軍軍事醫(yī)學科學院;2014年
4 呂鳴;人類基因組復雜序列區(qū)域的擴增與測序策略研究[D];上海交通大學;2009年
5 趙琛;基于高通量RNA測序的大鼠轉(zhuǎn)錄組注釋研究[D];華東師范大學;2013年
6 楊松;慢性乙型肝炎患者阿德福韋酯耐藥的檢測與分析[D];山東大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 裴金瑞;靶向捕獲二代測序檢測不明原因智力障礙/發(fā)育遲緩結(jié)果分析[D];山西醫(yī)科大學;2015年
2 歐佳佳;楊樹干旱響應轉(zhuǎn)錄組測序分析[D];南京林業(yè)大學;2015年
3 朱忠旭;基于表型測序的功能基因識別[D];浙江大學;2015年
4 姚劉慧;桑樹轉(zhuǎn)錄組測序及SSR標記的開發(fā)與鑒定[D];江蘇科技大學;2015年
5 夏忠奎;基于454與Ion Torrent平臺的16S rRNA測序數(shù)據(jù)的比較分析與研究[D];電子科技大學;2014年
6 張森浩;秋眠及非秋眠紫花苜蓿轉(zhuǎn)錄組測序及秋眠相關差異基因的篩選[D];河南農(nóng)業(yè)大學;2013年
7 李巧玲;雙重測序法結(jié)合芯片捕獲檢測低頻突變的方法的建立[D];華南理工大學;2015年
8 穆淑媛;煙草轉(zhuǎn)錄組測序及NtTTG2調(diào)控ARF同源基因表達的研究[D];南京農(nóng)業(yè)大學;2014年
9 閆q
本文編號:600261
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/600261.html