轉錄組測序數(shù)據(jù)分析集成軟件包開發(fā)及其在楊樹上的應用
發(fā)布時間:2021-08-06 12:51
作為二代測序技術之一,轉錄組測序技術已經(jīng)廣泛應用于許多物種的基因差異表達和基因注釋研究中,F(xiàn)有多種轉錄組測序數(shù)據(jù)差異表達分析軟件,但分析步驟多而且復雜,并且不同的分析方案其運行結果差別較大。為了方便研究者自己使用軟件進行差異表達計算分析,并從多個計算結果中選擇有利于解釋研究對象基因表達機理的結果,本文編寫了一個集成的Perl軟件包。使用該軟件包對在正常和干旱脅迫兩種條件下的小葉楊(Populus simonii)和美洲黑楊(P.deltoides)‘I-69’轉錄組測序數(shù)據(jù)進行了多種策略的差異表達分析,并對相應的結果進行了比較。本研究獲得的主要結果如下:(1)針對一般的轉錄組測序數(shù)據(jù),考慮了研究對象有無參考基因組序列、樣本數(shù)據(jù)是否有重復、單端還是雙端測序數(shù)據(jù)、不同的基因表達量計算方法以及不同的基因差異表達顯著性檢驗方法等因素,利用Trinity、Cufflinks和StringTie等與轉錄組數(shù)據(jù)分析相關的軟件,使用Perl語言開發(fā)出了集成的轉錄組測序數(shù)據(jù)分析軟件包findDEG。該軟件包有十多種分析方案可供選擇,采用一鍵的方式進行數(shù)據(jù)計算,避免了中間環(huán)節(jié)參數(shù)輸入和結果利用等操作步驟,...
【文章來源】:南京林業(yè)大學江蘇省
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
轉錄組測序數(shù)據(jù)有參分析步驟Fig.1.1StepsofRNA-seqTranscriptomeanalysis
圖 1.2 轉錄組測序數(shù)據(jù)無參分析步驟Fig.1.2 Steps of de novo RNA-seq transcriptome analysis轉錄組測序數(shù)據(jù)生物信息學分析流程主要包括以下幾個步驟:質量控制;有參考基因組的 reads 比對與無參考基因組的 reads 組裝;基因和轉錄本的定量分析;基因差別表達析;基因功用富集分析。以上的每一步都有眾多的相關分析軟件。1.3.1 質量控制測序獲得的原始數(shù)據(jù),必需先進行過濾,去除污染序列及帶接頭的、重復的和品質差的序列,得到 clean reads,再進行后續(xù)轉錄組分析。對測序得到的原始數(shù)據(jù)的質量分析包含 GC 含量、是否存在接頭、重復的 reads 數(shù)以及 PCR 過程中的污染等內容。在同一樣本中,reads 的重復數(shù) GC 含量應該是一致的。FASTQC 軟件可以查看 Illumina 平臺測得到的 reads 的質量,NGSQC 可以査看所有測序平臺得到的 reads 的質量。一般來說,5’端向 3’端,reads 的質量會遞減,序列質量特別低的部分可以切除,避免影響下一步的比對。Fastx-toolkit 和 Trimmomatic 兩個軟件可以切除 reads 低質量的堿基和測序的接頭。
圖 2.3 IGV 文件截圖Fig. 2.3 Screenshot of IGV2.4.1.2 利用 Cufflinks 進行轉錄組分析Cufflinks(http://cole-trapnell-lab.github.io/cufflinks/)是由加利福尼亞大學伯克利分校數(shù)學和計算機生物實驗室 LiorPachter 指導的 Steven Salzberg 團隊、馬里蘭大學生物信息和計算機生物中心的 Steven Salzberg 小組、以及加州理工學院的 Barbara Wold 實驗室聯(lián)合開發(fā)的一個基于比對結果進行轉錄組組裝分析軟件[77]。Cufflinks 版本在 2.2.0 以下,其中主要包含 cufflinks、cuffmerge、cuffcompare 和 cuffdiff 等幾個主要的程序,版本在 2.2.0 及以上添加了 cuffquant 和 cuffnorm 兩個重要程序。Cufflinks 主要功能有轉錄本序列重組,基因表達量的計算和差別表達基因的尋找。我們下載并安裝了 Cufflinks-2.1.1 和 Cufflinks-2.2.1然后分別對測試數(shù)據(jù)進行分析處理。同樣以擬南芥數(shù)據(jù)為例首先使用 Cufflinks-2.1.1 進行數(shù)據(jù)分析,第一步利用 cufflin程序分別根據(jù)四組數(shù)據(jù)Tophat比對結果文件accepted_hits.bam進行基因和轉錄本的表達量計算。使用命令:$ Cufflinks-2.1.1/cufflinks -p 20 -o SRR671946_cufflinksout SRR671946_tophatout/accepted_ hits.b
【參考文獻】:
期刊論文
[1]改進的RNA-Seq數(shù)據(jù)轉錄組表達分析研究[J]. 石新新,劉學軍,張禮. 數(shù)據(jù)采集與處理. 2015(05)
[2]毛竹小RNA高通量測序及病毒分析[J]. 范春節(jié),王暉,盧孟柱. 林業(yè)科學研究. 2014(03)
[3]單核苷酸多態(tài)性在多倍體作物油菜中的研究進展[J]. 王會,劉佳,付麗,梅德圣. 中國油料作物學報. 2014(03)
[4]基于Solexa高通量測序的香菇C91-3功能基因的挖掘和開發(fā)[J]. 黃敏,鐘民濤. 微生物學雜志. 2014(01)
[5]下一代測序技術數(shù)據(jù)分析進展[J]. 朱智東,孫明明,王海彬,郭長全,牛申,湯溢飛,肖華勝. 生物產業(yè)技術. 2014(01)
[6]全基因組測序技術的發(fā)展和應用[J]. 滕國棟,陳敏亮. 中國美容醫(yī)學. 2013(04)
[7]轉錄組與RNA-Seq技術[J]. 張春蘭,秦孜娟,王桂芝,紀志賓,王建民. 生物技術通報. 2012(12)
[8]白介素21的研究進展及其在寄生蟲學上的應用[J]. 王燕,李佳緣,李中原,袁子國,朱興全,黃思揚. 中國獸醫(yī)科學. 2012(04)
[9]新一代測序技術的發(fā)展和應用[J]. 李亦學,李軒. 中國科技投資. 2012(07)
[10]牦牛功能基因的研究進展[J]. 肖玉萍,魏云霞,張百煉,吳曉睿,師音,周磊,李維紅. 黑龍江畜牧獸醫(yī). 2012(03)
博士論文
[1]新吉細毛羊和小尾寒羊的毛品質性狀及皮膚轉錄組學研究[D]. 孫福亮.延邊大學 2016
[2]硫氫化鈉緩解小麥高溫脅迫的生理機制研究[D]. 楊敏.山東農業(yè)大學 2016
[3]基于RNA測序技術的轉錄組從頭拼接算法研究[D]. 常征.山東大學 2014
[4]基于轉錄組測序的石斛生物堿和人參皂苷生物合成相關基因的發(fā)掘、克隆及鑒定[D]. 郭溆.北京協(xié)和醫(yī)學院 2013
[5]Spt15及轉錄本UTR重疊對釀酒酵母基因表達的調控研究[D]. 王路雯.復旦大學 2012
[6]海島棉和陸地棉纖維發(fā)育的遺傳基因組學研究[D]. 陳向東.南京農業(yè)大學 2011
[7]基于比較基因組學和mRNA高通量測序的可變剪接外顯子進化研究[D]. 徐佳熹.復旦大學 2011
[8]杜氏鹽藻(Dunaliella salina)葉綠體轉化研究[D]. 潘衛(wèi)東.鄭州大學 2003
碩士論文
[1]基于二代測序的轉錄組數(shù)據(jù)分析方法的比較研究[D]. 石浩然.四川農業(yè)大學 2016
[2]楊樹干旱響應轉錄組測序分析[D]. 歐佳佳.南京林業(yè)大學 2015
[3]小麥近等基因系白粉病抗性反應的轉錄組分析[D]. 張雪瑩.山東農業(yè)大學 2015
[4]針對RNA-Seq數(shù)據(jù)的基因異構體表達水平計算方法研究[D]. 李蒙.南京航空航天大學 2014
[5]桑樹綠枝扦插高效生根的轉錄組測序分析及相關基因的驗證[D]. 聶浩.江蘇科技大學 2013
[6]甘藍型油菜耐濕差異性表達基因的篩選及分析[D]. 譚筱玉.華中農業(yè)大學 2012
[7]新一代基因測序的數(shù)據(jù)處理中的相關問題[D]. 張駿.上海交通大學 2011
[8]人類基因PolyA位點預測[D]. 段江波.華中科技大學 2008
[9]幾個楊樹雜交無性系抗逆性研究與評價[D]. 焦緒娟.山東農業(yè)大學 2007
[10]美洲黑楊產量相關性狀遺傳變異研究[D]. 李昌龍.南京林業(yè)大學 2007
本文編號:3325807
【文章來源】:南京林業(yè)大學江蘇省
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
轉錄組測序數(shù)據(jù)有參分析步驟Fig.1.1StepsofRNA-seqTranscriptomeanalysis
圖 1.2 轉錄組測序數(shù)據(jù)無參分析步驟Fig.1.2 Steps of de novo RNA-seq transcriptome analysis轉錄組測序數(shù)據(jù)生物信息學分析流程主要包括以下幾個步驟:質量控制;有參考基因組的 reads 比對與無參考基因組的 reads 組裝;基因和轉錄本的定量分析;基因差別表達析;基因功用富集分析。以上的每一步都有眾多的相關分析軟件。1.3.1 質量控制測序獲得的原始數(shù)據(jù),必需先進行過濾,去除污染序列及帶接頭的、重復的和品質差的序列,得到 clean reads,再進行后續(xù)轉錄組分析。對測序得到的原始數(shù)據(jù)的質量分析包含 GC 含量、是否存在接頭、重復的 reads 數(shù)以及 PCR 過程中的污染等內容。在同一樣本中,reads 的重復數(shù) GC 含量應該是一致的。FASTQC 軟件可以查看 Illumina 平臺測得到的 reads 的質量,NGSQC 可以査看所有測序平臺得到的 reads 的質量。一般來說,5’端向 3’端,reads 的質量會遞減,序列質量特別低的部分可以切除,避免影響下一步的比對。Fastx-toolkit 和 Trimmomatic 兩個軟件可以切除 reads 低質量的堿基和測序的接頭。
圖 2.3 IGV 文件截圖Fig. 2.3 Screenshot of IGV2.4.1.2 利用 Cufflinks 進行轉錄組分析Cufflinks(http://cole-trapnell-lab.github.io/cufflinks/)是由加利福尼亞大學伯克利分校數(shù)學和計算機生物實驗室 LiorPachter 指導的 Steven Salzberg 團隊、馬里蘭大學生物信息和計算機生物中心的 Steven Salzberg 小組、以及加州理工學院的 Barbara Wold 實驗室聯(lián)合開發(fā)的一個基于比對結果進行轉錄組組裝分析軟件[77]。Cufflinks 版本在 2.2.0 以下,其中主要包含 cufflinks、cuffmerge、cuffcompare 和 cuffdiff 等幾個主要的程序,版本在 2.2.0 及以上添加了 cuffquant 和 cuffnorm 兩個重要程序。Cufflinks 主要功能有轉錄本序列重組,基因表達量的計算和差別表達基因的尋找。我們下載并安裝了 Cufflinks-2.1.1 和 Cufflinks-2.2.1然后分別對測試數(shù)據(jù)進行分析處理。同樣以擬南芥數(shù)據(jù)為例首先使用 Cufflinks-2.1.1 進行數(shù)據(jù)分析,第一步利用 cufflin程序分別根據(jù)四組數(shù)據(jù)Tophat比對結果文件accepted_hits.bam進行基因和轉錄本的表達量計算。使用命令:$ Cufflinks-2.1.1/cufflinks -p 20 -o SRR671946_cufflinksout SRR671946_tophatout/accepted_ hits.b
【參考文獻】:
期刊論文
[1]改進的RNA-Seq數(shù)據(jù)轉錄組表達分析研究[J]. 石新新,劉學軍,張禮. 數(shù)據(jù)采集與處理. 2015(05)
[2]毛竹小RNA高通量測序及病毒分析[J]. 范春節(jié),王暉,盧孟柱. 林業(yè)科學研究. 2014(03)
[3]單核苷酸多態(tài)性在多倍體作物油菜中的研究進展[J]. 王會,劉佳,付麗,梅德圣. 中國油料作物學報. 2014(03)
[4]基于Solexa高通量測序的香菇C91-3功能基因的挖掘和開發(fā)[J]. 黃敏,鐘民濤. 微生物學雜志. 2014(01)
[5]下一代測序技術數(shù)據(jù)分析進展[J]. 朱智東,孫明明,王海彬,郭長全,牛申,湯溢飛,肖華勝. 生物產業(yè)技術. 2014(01)
[6]全基因組測序技術的發(fā)展和應用[J]. 滕國棟,陳敏亮. 中國美容醫(yī)學. 2013(04)
[7]轉錄組與RNA-Seq技術[J]. 張春蘭,秦孜娟,王桂芝,紀志賓,王建民. 生物技術通報. 2012(12)
[8]白介素21的研究進展及其在寄生蟲學上的應用[J]. 王燕,李佳緣,李中原,袁子國,朱興全,黃思揚. 中國獸醫(yī)科學. 2012(04)
[9]新一代測序技術的發(fā)展和應用[J]. 李亦學,李軒. 中國科技投資. 2012(07)
[10]牦牛功能基因的研究進展[J]. 肖玉萍,魏云霞,張百煉,吳曉睿,師音,周磊,李維紅. 黑龍江畜牧獸醫(yī). 2012(03)
博士論文
[1]新吉細毛羊和小尾寒羊的毛品質性狀及皮膚轉錄組學研究[D]. 孫福亮.延邊大學 2016
[2]硫氫化鈉緩解小麥高溫脅迫的生理機制研究[D]. 楊敏.山東農業(yè)大學 2016
[3]基于RNA測序技術的轉錄組從頭拼接算法研究[D]. 常征.山東大學 2014
[4]基于轉錄組測序的石斛生物堿和人參皂苷生物合成相關基因的發(fā)掘、克隆及鑒定[D]. 郭溆.北京協(xié)和醫(yī)學院 2013
[5]Spt15及轉錄本UTR重疊對釀酒酵母基因表達的調控研究[D]. 王路雯.復旦大學 2012
[6]海島棉和陸地棉纖維發(fā)育的遺傳基因組學研究[D]. 陳向東.南京農業(yè)大學 2011
[7]基于比較基因組學和mRNA高通量測序的可變剪接外顯子進化研究[D]. 徐佳熹.復旦大學 2011
[8]杜氏鹽藻(Dunaliella salina)葉綠體轉化研究[D]. 潘衛(wèi)東.鄭州大學 2003
碩士論文
[1]基于二代測序的轉錄組數(shù)據(jù)分析方法的比較研究[D]. 石浩然.四川農業(yè)大學 2016
[2]楊樹干旱響應轉錄組測序分析[D]. 歐佳佳.南京林業(yè)大學 2015
[3]小麥近等基因系白粉病抗性反應的轉錄組分析[D]. 張雪瑩.山東農業(yè)大學 2015
[4]針對RNA-Seq數(shù)據(jù)的基因異構體表達水平計算方法研究[D]. 李蒙.南京航空航天大學 2014
[5]桑樹綠枝扦插高效生根的轉錄組測序分析及相關基因的驗證[D]. 聶浩.江蘇科技大學 2013
[6]甘藍型油菜耐濕差異性表達基因的篩選及分析[D]. 譚筱玉.華中農業(yè)大學 2012
[7]新一代基因測序的數(shù)據(jù)處理中的相關問題[D]. 張駿.上海交通大學 2011
[8]人類基因PolyA位點預測[D]. 段江波.華中科技大學 2008
[9]幾個楊樹雜交無性系抗逆性研究與評價[D]. 焦緒娟.山東農業(yè)大學 2007
[10]美洲黑楊產量相關性狀遺傳變異研究[D]. 李昌龍.南京林業(yè)大學 2007
本文編號:3325807
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3325807.html
最近更新
教材專著