基因組二代測序數(shù)據(jù)的自動化分析流程

發(fā)布時(shí)間：2016-08-04 04:07

本文關(guān)鍵詞：基因組二代測序數(shù)據(jù)的自動化分析流程，由筆耕文化傳播整理發(fā)布。

生物通“核心刊物”欄目創(chuàng)辦于2002年，主旨在于向國內(nèi)專業(yè)人士展示科研核心刊物，以及生命科學(xué)領(lǐng)域雜志每期重點(diǎn)內(nèi)容，為讀者呈現(xiàn)精彩紛呈的國內(nèi)科研動向，和重大科研進(jìn)展。目前包括《遺傳》、《中國生物工程雜志》、《科學(xué)通報(bào)》等重點(diǎn)期刊，，也歡迎生物類期刊聯(lián)系合作（聯(lián)系郵箱：journal@ebiotrade.com）。

生物通報(bào)道：二代測序技術(shù)的發(fā)展對測序數(shù)據(jù)的處理分析提出了很高的要求。目前二代測序數(shù)據(jù)分析軟件很多，但是絕大多數(shù)軟件僅能完成單一的分析功能（例如：僅進(jìn)行序列比對或變異讀取或功能注釋等），如何能正確高效地選擇整合這些軟件已成為迫切需求。

來自中國醫(yī)學(xué)科學(xué)院，北京協(xié)和醫(yī)學(xué)院等處的研究人員設(shè)計(jì)了一套基于 perl 語言和 SGE 資源管理的自動化處理流程來分析 Illumina 平臺基因組測序數(shù)據(jù)。該流程通過自動化并行腳本控制流程的高效運(yùn)行，一站式輸出分析結(jié)果和報(bào)告，簡化了數(shù)據(jù)分析過程中的人工操作，大大提高了運(yùn)行效率。相關(guān)文章公布在《遺傳》雜志上。

二代測序技術(shù)（Next-generation sequencing）大幅度降低了測序的時(shí)間和成本，使得大規(guī)模測序逐漸成為常規(guī)的實(shí)驗(yàn)室研究和臨床檢測手段。測序產(chǎn)生的數(shù)據(jù)量急劇增加，如何高效地分析這些數(shù)據(jù)，已成為迫切需要解決的問題。目前，分析序列信息的生物信息學(xué)軟件紛繁復(fù)雜，但基本上每個(gè)軟件只能完成單一的分析功能，實(shí)現(xiàn)一個(gè)完整的分析流程則需要對眾多軟件進(jìn)行整合，而手動串聯(lián)的效率往往不盡人意；同時(shí)，這些軟件需要在Linux工作環(huán)境下以命令行運(yùn)行，要求用戶具備較好的計(jì)算機(jī)背景；另外，即便一些實(shí)驗(yàn)室完成了分析流程的構(gòu)建，他們往往不會公開許多細(xì)節(jié)，新用戶仍然要從頭建起。

針對這一問題，研究人員希望能通過構(gòu)建經(jīng)典的二代測序數(shù)據(jù)分析流程，并實(shí)現(xiàn)各個(gè)環(huán)節(jié)的高效自動化管理和分析，減輕研究者前期的工作負(fù)擔(dān)，促進(jìn)相關(guān)領(lǐng)域進(jìn)一步對基因組測序研究項(xiàng)目的順利開展。

研究人員為此設(shè)計(jì)了一套基于 perl 語言和 SGE 資源管理的自動化處理流程來分析 Illumina 平臺基因組測序數(shù)據(jù)。該流程以測序原始序列數(shù)據(jù)作為輸入，調(diào)用業(yè)界標(biāo)準(zhǔn)的數(shù)據(jù)處理軟件（如：BWA，Samtools，GATK，ANNOVAR 等），最終生成帶有相應(yīng)功能注釋、便于研究者進(jìn)一步分析的變異位點(diǎn)列表。

這一流程通過自動化并行腳本控制流程的高效運(yùn)行，一站式輸出分析結(jié)果和報(bào)告，簡化了數(shù)據(jù)分析過程中的人工操作，大大提高了運(yùn)行效率。用戶只需填寫配置文件或使用圖形界面輸入即可完成全部操作，為廣大研究者分析二代測序數(shù)據(jù)提供了便利的途徑。

目前測序數(shù)據(jù)處理軟件很多，研究人員綜合考慮了適用性和效率，整合出了一套標(biāo)準(zhǔn)的數(shù)據(jù)處理流程。具體來說，獲得 FASTQ格式的原始測序數(shù)據(jù)后，需要數(shù)據(jù)進(jìn)行以下處理：（1）使用BWA 軟件把這些短序列和參考基因組進(jìn)行對比，確定短序列在基因組上的位置，把短序列組裝成完整的人類參考基因組；（2）使用 Samtools 軟件把這些短序列調(diào)整成按一定順序（1-22，X，Y，其他）排列的序列，并進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換；（3）使用 Picard 軟件把測序產(chǎn)生的冗余信息和噪聲去掉；（4）使用 GATK 尋找樣本測序數(shù)據(jù)與參考基因組的差異，列出這些差異點(diǎn)；（5）使用 Annovar對這些變異位點(diǎn)進(jìn)行功能注釋，得到一個(gè)易于理解的變異位點(diǎn)列表。

這一項(xiàng)目成功整合了一系列二代測序數(shù)據(jù)分析軟件，形成了一套經(jīng)典的數(shù)據(jù)分析流程。這一流程通過并行化設(shè)計(jì)和自動化處理，一方面簡化了操作成本、縮短了數(shù)據(jù)分析周期，另一方面也使本流程可以引入更完善的數(shù)據(jù)校驗(yàn)步驟，增強(qiáng)結(jié)果的可信度。

流程針對Illumina 平臺雙端測序數(shù)據(jù)開發(fā)，滿足了大部分處理需求，并對其他用戶提供了一個(gè)很好的參考，后續(xù)研究人員還將根據(jù)用戶需求對該自動化流程進(jìn)行持續(xù)維護(hù)。

隨著二代測序技術(shù)的逐步發(fā)展，二代測序已經(jīng)廣泛應(yīng)用于科研和臨床研究。這一流程提高了二代測序數(shù)據(jù)分析的入門和運(yùn)轉(zhuǎn)效率，其必將在二代測序相關(guān)基因組學(xué)研究中，促進(jìn)廣大科研人員工作的高效進(jìn)行。

原文檢索：

李文軻, 李豐余, 張思瑤, 蔡斌, 鄭娜, 聶宇, 周到, 趙倩. 基因組二代測序數(shù)據(jù)的自動化分析流程[J]. 遺傳, 2014, 36(6): 618-624. Wenke Li, Fengyu Li, Siyao Zhang, Bin Cai, Na Zheng, Yu Nie, Dao Zhou, Qian Zhao. Automatic analysis pipeline of next-generation sequencing data. HEREDITAS(Beijing), 2014, 36(6): 618-624.

本文關(guān)鍵詞：基因組二代測序數(shù)據(jù)的自動化分析流程，由筆耕文化傳播整理發(fā)布。

本文編號：82917

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/82917.html

上一篇：自動化公路系統(tǒng)車輛縱橫向控制
下一篇：機(jī)械制造及其自動化_昆明柔性自動化_探究自動化鉆孔系統(tǒng)柔性控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基因組二代測序數(shù)據(jù)的自動化分析流程