高通量測序數(shù)據(jù)的Indel識別方法研究
發(fā)布時(shí)間:2021-08-26 11:20
人類基因組計(jì)劃的早期啟動并非將主要資金用于測序,而是積極開發(fā)測序手段與工具,通過極大地提高測序速度,降低測序成本而完成了完整測序計(jì)劃。但其對于數(shù)據(jù)的生產(chǎn)仍然是相對有限的,千人基因組計(jì)劃使得學(xué)科發(fā)展重新進(jìn)入了數(shù)據(jù)處理工具不足的環(huán)境之中;诖,適應(yīng)于高通量測序技術(shù)(High-throughput sequencing,HTS)所提供的大量數(shù)據(jù)的各類平臺與工具也得到了快速發(fā)展。Indel(Insertion/Deletion)是高通量測序數(shù)據(jù)處理之中較窄的分支,卻是基因結(jié)構(gòu)變異之中規(guī)模較大的一個(gè)類型,在變異類型之中規(guī)模僅次于SNP(single nucleotide polymorphism,單核苷酸多態(tài)性),而成為最為常見的結(jié)構(gòu)變異并廣泛分布于不同結(jié)構(gòu)之中,以下是本文的主要研究內(nèi)容。首先,本文將人類1號染色體作為參考數(shù)據(jù),使用幾種常見的結(jié)構(gòu)變異識別算法對Indel進(jìn)行識別,通過實(shí)驗(yàn)驗(yàn)證,比較分析了這幾種識別算法的優(yōu)缺點(diǎn),結(jié)果表現(xiàn)出了較高水平的假陽性率和假陰性率或較低水平的recall和precision,識別結(jié)果不精確,進(jìn)而提出了一種新的算法來提高Indel的識別精度。然后,本文設(shè)計(jì)提出...
【文章來源】:哈爾濱師范大學(xué)黑龍江省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
測序成本圖
第1章緒論3則是規(guī)模更大的變異類型,能夠直接通過染色和鏡檢方式分辨核型并識別變異類型。其次,SVs又可以被進(jìn)一步的分為插入、缺失、反轉(zhuǎn)、異位和拷貝數(shù)變異。SVs的規(guī)模大于SNP而小于畸變,在結(jié)構(gòu)特征方面更加接近于畸變,但基于影響范圍,其類型分布并不相同,插入和缺失的比例相對更高,因此被合并稱為Indel,即in與del。相比于其他類型的SVs[2],Indel得到的研究相對較多,其規(guī)模差異性又可以進(jìn)一步劃分出不同類型,其中尤其以小型和微型Indel更多的為人們所重視。最后,僅針對于短Indel也即數(shù)量最多的一類SVs,發(fā)生Indel的區(qū)域圖如圖1-2所示,其測序方法、數(shù)據(jù)處理和應(yīng)用仍然有著不同的領(lǐng)域差異性和算法差別,根據(jù)識別方法是否依托于參考序列而考察則較為顯著的劃分了應(yīng)用方向,本文主要基于有參考序列的Indel識別進(jìn)行討論,因此可以更好地被利用于實(shí)踐應(yīng)用領(lǐng)域。圖1-2Indel區(qū)域圖Figure1-2Indelregionalfigure1.1.2課題研究的目的及意義國內(nèi)外有關(guān)于高通量測序的應(yīng)用已經(jīng)極為廣泛,十余年來的技術(shù)發(fā)展和設(shè)備更新?lián)Q代帶來了更為廣泛的生物信息學(xué)發(fā)展。為了能夠更深入地了解基因組的多樣性,千人組基因計(jì)劃也是隨之到來。千人組基因計(jì)劃是一項(xiàng)規(guī)模非常宏大的項(xiàng)目,旨在召喚全球科學(xué)家共同建立一個(gè)至今為止最詳細(xì)的,并且最有醫(yī)用價(jià)值的人類基因組變異[4]信息目錄庫。由于環(huán)境或化學(xué)因素等,生物的基因中會發(fā)生多種變異,基因變異包括了單核苷酸多態(tài)性、結(jié)構(gòu)變異以及Indel,而這些變異可能會導(dǎo)致多種人類疾病的發(fā)生,例如先天性糖尿并冠心并21三體綜合征、阿爾茲
第2章Indel識別相關(guān)技術(shù)11一步利用,而通過將打碎的序列利用兩類不同算法的融合而盡可能最大相似度的匹配至參考序列。毫無疑問,LCS問題的最簡單解決方案是搜索并窮舉,因此需要指數(shù)時(shí)間而無法被稍大規(guī)模的序列對比問題在實(shí)踐中應(yīng)用。考慮到LCS問題的最優(yōu)解需要,其事實(shí)上是具有最優(yōu)子結(jié)構(gòu)性質(zhì)的,具體而言,如果兩序列最后字符相同則這一字符為LCS的最后一字符,而去除這一字符的LCS是去除這一字符的兩條比對序列的LCS,這就使得LCS問題被遞歸。那么所獲得的LCS必然需要與兩條比對序列中一條去除這一字符而另一條保持原有序列的比對結(jié)果相匹配,由此得到下一步遞歸。最終,兩者進(jìn)一步遞歸形成了獲取去除末端序列的短序列比對問題,也即得以應(yīng)用動態(tài)規(guī)劃法進(jìn)行考察。利用這一遞歸式,易解構(gòu)造遞歸算法,但同樣面對指數(shù)時(shí)間問題。與窮舉法不同的是,該遞歸算法之中僅僅考察子問題空間,而這一規(guī)模是相對較小,同時(shí)子問題的數(shù)量是有限的,因此動態(tài)規(guī)劃法的基本策略即應(yīng)用自下向上的計(jì)算最優(yōu)值以提高算法效率。以上述序列作為輸入值構(gòu)建矩陣,分別記錄所獲得的序列長度和路徑,計(jì)算完成后溯源至該序列并導(dǎo)出,即可獲得LCS算法。LCS算法回溯輸出過程如圖2-1所示:圖2-1LCS算法回溯輸出過程Figure2-1LCSalgorithmtracebackoutputprocess
【參考文獻(xiàn)】:
期刊論文
[1]基于高通量測序數(shù)據(jù)的快速病毒物種分析工具[J]. 蘇亞男,李非,伯曉晨,倪銘. 軍事醫(yī)學(xué). 2018(03)
[2]16S rRNA基因高通量測序分析牛糞發(fā)酵細(xì)菌多樣性[J]. 滑留帥,王璟,徐照學(xué),張子敬,婁治國,趙洪昌,李文軍,王二耀. 農(nóng)業(yè)工程學(xué)報(bào). 2016(S2)
[3]InDel標(biāo)記的研究和應(yīng)用進(jìn)展[J]. 楊潔,赫佳,王丹碧,施恩,楊文宇,耿其芳,王中生. 生物多樣性. 2016(02)
[4]基因組高通量測序數(shù)據(jù)結(jié)構(gòu)變異識別算法[J]. 王春宇,郭茂祖,劉曉燕,劉揚(yáng). 智能計(jì)算機(jī)與應(yīng)用. 2015(01)
[5]利用二代測序技術(shù)對雞基因組內(nèi)插入缺失變異進(jìn)行檢測分析[J]. 閆奕源,易國強(qiáng),孫從佼,曲魯江,楊寧. 中國家禽. 2014(23)
[6]基于高通量測序的全基因組關(guān)聯(lián)研究策略[J]. 周家蓬,裴智勇,陳禹保,陳潤生. 遺傳. 2014(11)
[7]高通量測序技術(shù)在土壤微生物多樣性研究中的研究進(jìn)展[J]. 樓駿,柳勇,李延. 中國農(nóng)學(xué)通報(bào). 2014(15)
[8]基于高通量測序技術(shù)的基因組結(jié)構(gòu)變異檢測算法[J]. 高敬陽,齊飛,管瑞. 生物信息學(xué). 2014(01)
[9]高通量測序技術(shù)在宏基因組學(xué)中的應(yīng)用[J]. 劉莉揚(yáng),崔鴻飛,田埂. 中國醫(yī)藥生物技術(shù). 2013(03)
[10]血漿游離DNA高通量測序用于21-三體綜合征無創(chuàng)產(chǎn)前檢測[J]. 林穎,孟露露,季修慶,張菁菁,馬定遠(yuǎn),成建,劉安,周靜,胡平,許爭峰. 臨床檢驗(yàn)雜志. 2013(01)
博士論文
[1]基于高通量測序數(shù)據(jù)的基因組變異檢測方法研究[D]. 劉永壯.哈爾濱工業(yè)大學(xué) 2016
碩士論文
[1]雙序列比對Needleman-Wunsch算法研究[D]. 姜鮮桃.內(nèi)蒙古農(nóng)業(yè)大學(xué) 2017
[2]基于高通量測序數(shù)據(jù)的新突變檢測方法研究[D]. 邢文昊.哈爾濱工業(yè)大學(xué) 2017
[3]人類早期胚胎植入前高通量測序遺傳學(xué)篩查的研究[D]. 張靜.天津醫(yī)科大學(xué) 2015
[4]基于第二代測序技術(shù)的人類基因組插入/缺失變異檢測算法評估及檢測平臺搭建[D]. 任永永.昆明理工大學(xué) 2015
本文編號:3364149
【文章來源】:哈爾濱師范大學(xué)黑龍江省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
測序成本圖
第1章緒論3則是規(guī)模更大的變異類型,能夠直接通過染色和鏡檢方式分辨核型并識別變異類型。其次,SVs又可以被進(jìn)一步的分為插入、缺失、反轉(zhuǎn)、異位和拷貝數(shù)變異。SVs的規(guī)模大于SNP而小于畸變,在結(jié)構(gòu)特征方面更加接近于畸變,但基于影響范圍,其類型分布并不相同,插入和缺失的比例相對更高,因此被合并稱為Indel,即in與del。相比于其他類型的SVs[2],Indel得到的研究相對較多,其規(guī)模差異性又可以進(jìn)一步劃分出不同類型,其中尤其以小型和微型Indel更多的為人們所重視。最后,僅針對于短Indel也即數(shù)量最多的一類SVs,發(fā)生Indel的區(qū)域圖如圖1-2所示,其測序方法、數(shù)據(jù)處理和應(yīng)用仍然有著不同的領(lǐng)域差異性和算法差別,根據(jù)識別方法是否依托于參考序列而考察則較為顯著的劃分了應(yīng)用方向,本文主要基于有參考序列的Indel識別進(jìn)行討論,因此可以更好地被利用于實(shí)踐應(yīng)用領(lǐng)域。圖1-2Indel區(qū)域圖Figure1-2Indelregionalfigure1.1.2課題研究的目的及意義國內(nèi)外有關(guān)于高通量測序的應(yīng)用已經(jīng)極為廣泛,十余年來的技術(shù)發(fā)展和設(shè)備更新?lián)Q代帶來了更為廣泛的生物信息學(xué)發(fā)展。為了能夠更深入地了解基因組的多樣性,千人組基因計(jì)劃也是隨之到來。千人組基因計(jì)劃是一項(xiàng)規(guī)模非常宏大的項(xiàng)目,旨在召喚全球科學(xué)家共同建立一個(gè)至今為止最詳細(xì)的,并且最有醫(yī)用價(jià)值的人類基因組變異[4]信息目錄庫。由于環(huán)境或化學(xué)因素等,生物的基因中會發(fā)生多種變異,基因變異包括了單核苷酸多態(tài)性、結(jié)構(gòu)變異以及Indel,而這些變異可能會導(dǎo)致多種人類疾病的發(fā)生,例如先天性糖尿并冠心并21三體綜合征、阿爾茲
第2章Indel識別相關(guān)技術(shù)11一步利用,而通過將打碎的序列利用兩類不同算法的融合而盡可能最大相似度的匹配至參考序列。毫無疑問,LCS問題的最簡單解決方案是搜索并窮舉,因此需要指數(shù)時(shí)間而無法被稍大規(guī)模的序列對比問題在實(shí)踐中應(yīng)用。考慮到LCS問題的最優(yōu)解需要,其事實(shí)上是具有最優(yōu)子結(jié)構(gòu)性質(zhì)的,具體而言,如果兩序列最后字符相同則這一字符為LCS的最后一字符,而去除這一字符的LCS是去除這一字符的兩條比對序列的LCS,這就使得LCS問題被遞歸。那么所獲得的LCS必然需要與兩條比對序列中一條去除這一字符而另一條保持原有序列的比對結(jié)果相匹配,由此得到下一步遞歸。最終,兩者進(jìn)一步遞歸形成了獲取去除末端序列的短序列比對問題,也即得以應(yīng)用動態(tài)規(guī)劃法進(jìn)行考察。利用這一遞歸式,易解構(gòu)造遞歸算法,但同樣面對指數(shù)時(shí)間問題。與窮舉法不同的是,該遞歸算法之中僅僅考察子問題空間,而這一規(guī)模是相對較小,同時(shí)子問題的數(shù)量是有限的,因此動態(tài)規(guī)劃法的基本策略即應(yīng)用自下向上的計(jì)算最優(yōu)值以提高算法效率。以上述序列作為輸入值構(gòu)建矩陣,分別記錄所獲得的序列長度和路徑,計(jì)算完成后溯源至該序列并導(dǎo)出,即可獲得LCS算法。LCS算法回溯輸出過程如圖2-1所示:圖2-1LCS算法回溯輸出過程Figure2-1LCSalgorithmtracebackoutputprocess
【參考文獻(xiàn)】:
期刊論文
[1]基于高通量測序數(shù)據(jù)的快速病毒物種分析工具[J]. 蘇亞男,李非,伯曉晨,倪銘. 軍事醫(yī)學(xué). 2018(03)
[2]16S rRNA基因高通量測序分析牛糞發(fā)酵細(xì)菌多樣性[J]. 滑留帥,王璟,徐照學(xué),張子敬,婁治國,趙洪昌,李文軍,王二耀. 農(nóng)業(yè)工程學(xué)報(bào). 2016(S2)
[3]InDel標(biāo)記的研究和應(yīng)用進(jìn)展[J]. 楊潔,赫佳,王丹碧,施恩,楊文宇,耿其芳,王中生. 生物多樣性. 2016(02)
[4]基因組高通量測序數(shù)據(jù)結(jié)構(gòu)變異識別算法[J]. 王春宇,郭茂祖,劉曉燕,劉揚(yáng). 智能計(jì)算機(jī)與應(yīng)用. 2015(01)
[5]利用二代測序技術(shù)對雞基因組內(nèi)插入缺失變異進(jìn)行檢測分析[J]. 閆奕源,易國強(qiáng),孫從佼,曲魯江,楊寧. 中國家禽. 2014(23)
[6]基于高通量測序的全基因組關(guān)聯(lián)研究策略[J]. 周家蓬,裴智勇,陳禹保,陳潤生. 遺傳. 2014(11)
[7]高通量測序技術(shù)在土壤微生物多樣性研究中的研究進(jìn)展[J]. 樓駿,柳勇,李延. 中國農(nóng)學(xué)通報(bào). 2014(15)
[8]基于高通量測序技術(shù)的基因組結(jié)構(gòu)變異檢測算法[J]. 高敬陽,齊飛,管瑞. 生物信息學(xué). 2014(01)
[9]高通量測序技術(shù)在宏基因組學(xué)中的應(yīng)用[J]. 劉莉揚(yáng),崔鴻飛,田埂. 中國醫(yī)藥生物技術(shù). 2013(03)
[10]血漿游離DNA高通量測序用于21-三體綜合征無創(chuàng)產(chǎn)前檢測[J]. 林穎,孟露露,季修慶,張菁菁,馬定遠(yuǎn),成建,劉安,周靜,胡平,許爭峰. 臨床檢驗(yàn)雜志. 2013(01)
博士論文
[1]基于高通量測序數(shù)據(jù)的基因組變異檢測方法研究[D]. 劉永壯.哈爾濱工業(yè)大學(xué) 2016
碩士論文
[1]雙序列比對Needleman-Wunsch算法研究[D]. 姜鮮桃.內(nèi)蒙古農(nóng)業(yè)大學(xué) 2017
[2]基于高通量測序數(shù)據(jù)的新突變檢測方法研究[D]. 邢文昊.哈爾濱工業(yè)大學(xué) 2017
[3]人類早期胚胎植入前高通量測序遺傳學(xué)篩查的研究[D]. 張靜.天津醫(yī)科大學(xué) 2015
[4]基于第二代測序技術(shù)的人類基因組插入/缺失變異檢測算法評估及檢測平臺搭建[D]. 任永永.昆明理工大學(xué) 2015
本文編號:3364149
本文鏈接:http://sikaile.net/projectlw/swxlw/3364149.html
最近更新
教材專著