基于二代測序技術(shù)對(duì)SNP檢測軟件的比較研究
發(fā)布時(shí)間:2021-07-05 18:31
目的:在高通量技術(shù)和SNP分子標(biāo)記技術(shù)日漸普及的今天,越來越多的研究需要從高通量測序技術(shù)產(chǎn)生的reads中獲得有效的SNP遺傳信息,以進(jìn)行進(jìn)一步研究。隨著分子實(shí)驗(yàn)技術(shù)的進(jìn)一步發(fā)展,更多的有效、快速并且高通量的SNP檢測方法不停的被研究者開發(fā)出來。但目前對(duì)于各種SNP calling的方法比較還比較少,究竟什么樣的測序策略配合什么種類的SNP calling方法能獲得最有效的結(jié)果依然不明朗。在大多是研究工作者將該步驟交給測序公司處理分析的背景下,這一點(diǎn)尤為突出。方法:本研究通過比較目前較為常用的六種SNP calling軟件(Varscan,Altas-snp2,GATK,Freebayes,SOAPsnp2和SAMtools)在兩種數(shù)據(jù)集,模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集中calling SNP的表現(xiàn),對(duì)這一問題進(jìn)行了一定程度上的解讀,為研究者對(duì)于目前的SNP calling情況進(jìn)行了解提供了便利。結(jié)果:研究結(jié)果顯示,這六種SNP calling軟件產(chǎn)生的分析結(jié)果差異較大:在使用真實(shí)數(shù)據(jù)進(jìn)行SNP檢測的結(jié)果中,SOAPsnp能夠檢測出最多的SNP,Freebays和Atlas-snp2檢測出的S...
【文章來源】:石河子大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VCF格式實(shí)例Figure1-1VCFformatexample圖注:CHROM:相應(yīng)的參考序列名稱,POS(position):變異所在的位置,ID:variant的
圖 1-2 Varscan 流程圖[85]Freebayes[84]是一種貝葉斯遺傳變異檢測器,旨在發(fā)現(xiàn)小的多態(tài)性,特別是SNP,插入缺失(插入和缺失),MNP(多核苷酸多態(tài)性)和復(fù)雜事件(復(fù)合插入和替換事件)。這個(gè)插件允許在單個(gè)樣本上運(yùn)行 FreeBayes。該軟件最早于 2012年 7 月發(fā)表于《Quantitative Biology》。以下為各個(gè) SNP calling 軟件的初步對(duì)比(表 1-1),由表可知大部分 SNPcalling 軟件的核心算法都是貝葉斯算法,但在后續(xù)的優(yōu)化上各有不同。從輸入數(shù)據(jù)格式來看,除了 SOAPsnp 是其專屬的 SOAP out 格式外,其他都為 SAM 或者BAM 格式。
圖 2-1 用于測序質(zhì)量分?jǐn)?shù)的箱形圖(由軟件 FastQC 生成)Figure 2-1 Box plot for sequencing quality scores (generated by software FastQC)圖中:藍(lán)線代表每個(gè)基數(shù)的平均質(zhì)量得分。 紅線代表中位數(shù)。黃色方框代表第 25 至第 75百分位數(shù)。In the figure: the blue line represents the average quality score for each cardinality. The red linerepresents the median. The yellow box represents the 25th to 75th percentile.2.3.2 是否去除低質(zhì)量堿基,對(duì)檢測出來的 SNP 數(shù)量的影響:對(duì)未進(jìn)行低質(zhì)量堿基刪除的 reads,使用六種不同 SNP calling 軟件進(jìn)行 SNPcalling,在原始數(shù)據(jù)中,在 6,333,357 個(gè)單端讀數(shù)中,大約 70%通過 SOAP2 和BWA 與人類基因組 hg18 比對(duì)上。在六個(gè) SNP 檢測軟件中,每個(gè)軟件都能夠檢測到 110 到 400 個(gè) Non-dbSNP(可能是新的,未被其他研究者注釋的 SNP)。表 2-1:未去除低質(zhì)量堿基各軟件 SNP calling 結(jié)果Table 3-1: Non-removed low-mass bases Software SNPs軟件Software覆蓋度大于 3×SNP 數(shù)量Number of SNPdbSNP 數(shù)量Number of dbSNPNon-dbSNP 數(shù)量Number of non-dbSNP
【參考文獻(xiàn)】:
期刊論文
[1]利用SSR標(biāo)記和SNP芯片對(duì)小麥EMS突變體進(jìn)行真實(shí)性鑒定[J]. 耿皆飛,王娜,蔣宏寶,劉錄祥,許喜堂,魏紅升,王成社,謝彥周. 核農(nóng)學(xué)報(bào). 2019(01)
[2]SNP檢測方法在動(dòng)物研究中的應(yīng)用[J]. 趙杰,游新勇,徐貞貞,陳愛亮,趙燕,何雯菁,楊曙明. 農(nóng)業(yè)工程學(xué)報(bào). 2018(04)
[3]以關(guān)聯(lián)分析發(fā)掘煙草抗赤星病基因分子標(biāo)記[J]. 朱承廣,任民,蔣彩虹,張雨生,孫明銘,劉旦,程立銳,楊愛國,王元英. 中國煙草科學(xué). 2017(01)
[4]DNA測序技術(shù)方法研究及其進(jìn)展[J]. 謝浩,趙明,胡志迪,王大巾,孟旭莉,丁先鋒. 生命的化學(xué). 2015(06)
[5]基于RNA-seq的百薩偃麥草染色體特異分子標(biāo)記開發(fā)與應(yīng)用[J]. 李晨旭,劉志濤,莊麗芳,亓增軍. 中國農(nóng)業(yè)科學(xué). 2015(06)
[6]SNP檢測方法的研究進(jìn)展[J]. 許家磊,王宇,后猛,李強(qiáng). 分子植物育種. 2015(02)
[7]第二代測序技術(shù)檢測1例假肥大型肌營養(yǎng)不良家系Dystrophin基因突變[J]. 林穎,蔣濤,季修慶,成建,羅春玉,馬定遠(yuǎn),許爭峰. 臨床檢驗(yàn)雜志. 2014(03)
[8]SNP基因分型檢測技術(shù)及應(yīng)用進(jìn)展[J]. 楊春曉,張玉,師少軍. 中國藥師. 2013(06)
[9]SNP分子標(biāo)記的研究及其應(yīng)用進(jìn)展[J]. 唐立群,肖層林,王偉平. 中國農(nóng)學(xué)通報(bào). 2012(12)
[10]下一代測序數(shù)據(jù)格式的研究展望[J]. 鮑婧. 電腦知識(shí)與技術(shù). 2011(36)
碩士論文
[1]單細(xì)胞DNA測序數(shù)據(jù)的基因型和SNP檢測[D]. 黃婧瑩.華南理工大學(xué) 2018
[2]蕓薹屬蔬菜低深度測序SNP分型及其應(yīng)用[D]. 付麗霞.中國農(nóng)業(yè)科學(xué)院 2016
[3]玉米高通量測序數(shù)據(jù)SNP檢測流程的優(yōu)化及應(yīng)用[D]. 李坦.南京農(nóng)業(yè)大學(xué) 2015
[4]基于重測序數(shù)據(jù)的群體SNP位點(diǎn)檢測及基因型判斷[D]. 何偉明.華南理工大學(xué) 2013
[5]RAPD、SRAP和ISSR標(biāo)記在香菇種質(zhì)資源的應(yīng)用及其SCAR標(biāo)記的建立[D]. 應(yīng)正河.福建農(nóng)林大學(xué) 2006
[6]水稻苯達(dá)松敏感致死基因bel的精細(xì)定位[D]. 朱磊.南昌大學(xué) 2005
本文編號(hào):3266598
【文章來源】:石河子大學(xué)新疆維吾爾自治區(qū) 211工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VCF格式實(shí)例Figure1-1VCFformatexample圖注:CHROM:相應(yīng)的參考序列名稱,POS(position):變異所在的位置,ID:variant的
圖 1-2 Varscan 流程圖[85]Freebayes[84]是一種貝葉斯遺傳變異檢測器,旨在發(fā)現(xiàn)小的多態(tài)性,特別是SNP,插入缺失(插入和缺失),MNP(多核苷酸多態(tài)性)和復(fù)雜事件(復(fù)合插入和替換事件)。這個(gè)插件允許在單個(gè)樣本上運(yùn)行 FreeBayes。該軟件最早于 2012年 7 月發(fā)表于《Quantitative Biology》。以下為各個(gè) SNP calling 軟件的初步對(duì)比(表 1-1),由表可知大部分 SNPcalling 軟件的核心算法都是貝葉斯算法,但在后續(xù)的優(yōu)化上各有不同。從輸入數(shù)據(jù)格式來看,除了 SOAPsnp 是其專屬的 SOAP out 格式外,其他都為 SAM 或者BAM 格式。
圖 2-1 用于測序質(zhì)量分?jǐn)?shù)的箱形圖(由軟件 FastQC 生成)Figure 2-1 Box plot for sequencing quality scores (generated by software FastQC)圖中:藍(lán)線代表每個(gè)基數(shù)的平均質(zhì)量得分。 紅線代表中位數(shù)。黃色方框代表第 25 至第 75百分位數(shù)。In the figure: the blue line represents the average quality score for each cardinality. The red linerepresents the median. The yellow box represents the 25th to 75th percentile.2.3.2 是否去除低質(zhì)量堿基,對(duì)檢測出來的 SNP 數(shù)量的影響:對(duì)未進(jìn)行低質(zhì)量堿基刪除的 reads,使用六種不同 SNP calling 軟件進(jìn)行 SNPcalling,在原始數(shù)據(jù)中,在 6,333,357 個(gè)單端讀數(shù)中,大約 70%通過 SOAP2 和BWA 與人類基因組 hg18 比對(duì)上。在六個(gè) SNP 檢測軟件中,每個(gè)軟件都能夠檢測到 110 到 400 個(gè) Non-dbSNP(可能是新的,未被其他研究者注釋的 SNP)。表 2-1:未去除低質(zhì)量堿基各軟件 SNP calling 結(jié)果Table 3-1: Non-removed low-mass bases Software SNPs軟件Software覆蓋度大于 3×SNP 數(shù)量Number of SNPdbSNP 數(shù)量Number of dbSNPNon-dbSNP 數(shù)量Number of non-dbSNP
【參考文獻(xiàn)】:
期刊論文
[1]利用SSR標(biāo)記和SNP芯片對(duì)小麥EMS突變體進(jìn)行真實(shí)性鑒定[J]. 耿皆飛,王娜,蔣宏寶,劉錄祥,許喜堂,魏紅升,王成社,謝彥周. 核農(nóng)學(xué)報(bào). 2019(01)
[2]SNP檢測方法在動(dòng)物研究中的應(yīng)用[J]. 趙杰,游新勇,徐貞貞,陳愛亮,趙燕,何雯菁,楊曙明. 農(nóng)業(yè)工程學(xué)報(bào). 2018(04)
[3]以關(guān)聯(lián)分析發(fā)掘煙草抗赤星病基因分子標(biāo)記[J]. 朱承廣,任民,蔣彩虹,張雨生,孫明銘,劉旦,程立銳,楊愛國,王元英. 中國煙草科學(xué). 2017(01)
[4]DNA測序技術(shù)方法研究及其進(jìn)展[J]. 謝浩,趙明,胡志迪,王大巾,孟旭莉,丁先鋒. 生命的化學(xué). 2015(06)
[5]基于RNA-seq的百薩偃麥草染色體特異分子標(biāo)記開發(fā)與應(yīng)用[J]. 李晨旭,劉志濤,莊麗芳,亓增軍. 中國農(nóng)業(yè)科學(xué). 2015(06)
[6]SNP檢測方法的研究進(jìn)展[J]. 許家磊,王宇,后猛,李強(qiáng). 分子植物育種. 2015(02)
[7]第二代測序技術(shù)檢測1例假肥大型肌營養(yǎng)不良家系Dystrophin基因突變[J]. 林穎,蔣濤,季修慶,成建,羅春玉,馬定遠(yuǎn),許爭峰. 臨床檢驗(yàn)雜志. 2014(03)
[8]SNP基因分型檢測技術(shù)及應(yīng)用進(jìn)展[J]. 楊春曉,張玉,師少軍. 中國藥師. 2013(06)
[9]SNP分子標(biāo)記的研究及其應(yīng)用進(jìn)展[J]. 唐立群,肖層林,王偉平. 中國農(nóng)學(xué)通報(bào). 2012(12)
[10]下一代測序數(shù)據(jù)格式的研究展望[J]. 鮑婧. 電腦知識(shí)與技術(shù). 2011(36)
碩士論文
[1]單細(xì)胞DNA測序數(shù)據(jù)的基因型和SNP檢測[D]. 黃婧瑩.華南理工大學(xué) 2018
[2]蕓薹屬蔬菜低深度測序SNP分型及其應(yīng)用[D]. 付麗霞.中國農(nóng)業(yè)科學(xué)院 2016
[3]玉米高通量測序數(shù)據(jù)SNP檢測流程的優(yōu)化及應(yīng)用[D]. 李坦.南京農(nóng)業(yè)大學(xué) 2015
[4]基于重測序數(shù)據(jù)的群體SNP位點(diǎn)檢測及基因型判斷[D]. 何偉明.華南理工大學(xué) 2013
[5]RAPD、SRAP和ISSR標(biāo)記在香菇種質(zhì)資源的應(yīng)用及其SCAR標(biāo)記的建立[D]. 應(yīng)正河.福建農(nóng)林大學(xué) 2006
[6]水稻苯達(dá)松敏感致死基因bel的精細(xì)定位[D]. 朱磊.南昌大學(xué) 2005
本文編號(hào):3266598
本文鏈接:http://sikaile.net/projectlw/swxlw/3266598.html
最近更新
教材專著