基于de Bruijn圖的宏基因組序列拼接算法實現(xiàn)
本文選題:宏基因組 切入點:第二代測序技術 出處:《山東大學》2017年碩士論文 論文類型:學位論文
【摘要】:基因組測序技術為生物學研究提供了數(shù)據(jù)支持,從而有力的推動了對生命活動規(guī)律的理解和認識。宏基因組學是一門新興的不依賴于實驗室培養(yǎng)直接從環(huán)境中提取微生物群落的DNA進行研究的學科,這種大規(guī)模的基因組學技術實現(xiàn)了對不同環(huán)境中微生物的深入研究。然而受限于測序技術,測序儀每次只能讀出基因組上一個短片段,而不是一次讀出完整的基因組序列。因此,從短片段中恢復出多個物種的完整基因組的序列拼接是宏基因組學的一個基本問題。目前計算機技術方面,對宏基因組序列拼接算法的研究還仍然處于初步階段,大多數(shù)序列拼接工作依然利用單基因組拼接軟件來完成,然而絕大部分單基因組序列拼接在宏基因組上數(shù)據(jù)上存在很大的局限性。因此,本文針對宏基因組的序列拼接算法展開了一系列的工作并將之實現(xiàn)。本文的主要工作是在我們開發(fā)的單基因組拼接軟件ARCS的基礎上,加入了新的模塊來處理針對宏基因組的數(shù)據(jù),提出并實現(xiàn)一個有效的宏基因組序列拼接軟件Meta-ARCS。我們設計了新的針對第二代數(shù)據(jù)的序列拼接的拆解deBruijn圖形成contigs算法。主要是估計壓縮邊的序列重數(shù),挑選unique壓縮邊,利用pair-kmer插入距離信息,并采用線性規(guī)劃技術求得unique壓縮邊的最優(yōu)排布,最終形成更長的contigs和scaffolds。針對這些填充了間隙的scaffolds,我們除去間隙,獲得正確率更高的卻更短的contigs,利用coverage信息將contigs進行binning操作,每個bin里的contigs都屬于單一的物種。在真實數(shù)據(jù)集和模擬數(shù)據(jù)集上的實驗表明:同已有拼接軟件做系統(tǒng)比較,Meta-ARCS取得了比較好的結果。
[Abstract]:Genome sequencing technology provides data support for biological research, Macrogenomics is an emerging discipline that does not rely on laboratory culture to extract microbial communities directly from the environment for research. This large-scale genomics technique allows for in-depth research into microbes in different environments. However, limited to sequencing technology, sequencers can read only one short segment of the genome at a time. So it's a fundamental problem in macrogenomics to restore the complete genome sequence of multiple species from a short fragment. The research on the algorithm of macro genome sequence mosaic is still in the preliminary stage, and most of the sequence stitching work is still completed by single genome mosaic software. However, most of the single-genome sequence splicing on the macro genome has great limitations. In this paper, a series of work has been carried out on the sequence splicing algorithm of the macro genome, which is based on the single genome mosaic software ARCS, which is developed by us. A new module was added to process data for the macro genome, In this paper, we propose and implement an effective macro genome sequence mosaic software Meta-ARCS. we design a new contigs algorithm for the second generation data sequence splicing, which is mainly to estimate the sequence multiplicity of the compressed edges and select the unique compressed edges. By using the pair-kmer insertion distance information and linear programming technique, the optimal arrangement of unique compression edges is obtained, resulting in the formation of longer contigs and scaffolds. for these scaffoldsfilled with gaps, we remove the gaps. Get a higher accuracy but shorter contig, use the coverage information to binning the contigs, Contigs in each bin belongs to a single species. Experiments on real data sets and simulated data sets show that Meta-ARCS has better results compared with existing mosaic software systems.
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:Q811.4;TP319
【相似文獻】
相關期刊論文 前10條
1 趙蓉;胡永峰;金奇;;宏基因組學及其在醫(yī)學微生物學領域的應用[J];病毒學報;2009年03期
2 宋培勇;馬莉莉;王慶容;李黛;魏志琴;;宏基因組技術及其應用研究進展[J];貴州農(nóng)業(yè)科學;2009年10期
3 孟飛;俞春娜;王秋巖;謝恬;;宏基因組與宏基因組學[J];中國生物化學與分子生物學報;2010年02期
4 劉海燕;常玉梅;;宏基因組學及在人體微生物研究上的應用[J];中國現(xiàn)代醫(yī)學雜志;2012年08期
5 閻冰,洪葵,許云,馬超;宏基因組克隆——微生物活性物質篩選的新途徑[J];微生物學通報;2005年01期
6 歐敏功;崔曉龍;李一青;李銘剛;彭謙;文孟良;;宏基因組學在未培養(yǎng)微生物研究中的應用[J];微生物學雜志;2007年02期
7 艾芳芳;楊樺;曲媛媛;周集體;李昂;關曉燕;茍敏;;宏基因組研究及其應用研究進展[J];環(huán)境科學與技術;2007年12期
8 楚雍烈;楊娥;;宏基因組學及其技術的研究進展[J];西安交通大學學報(醫(yī)學版);2008年06期
9 馮美琴;;宏基因組學的研究進展[J];安徽農(nóng)業(yè)科學;2008年02期
10 李慧;何晶晶;張穎;徐慧;陳冠雄;;宏基因組技術在開發(fā)未培養(yǎng)環(huán)境微生物基因資源中的應用[J];生態(tài)學報;2008年04期
相關會議論文 前10條
1 閻冰;許云;馬超;洪葵;;宏基因組克隆——微生物活性物質篩選的新途徑[A];中國海洋生化學術會議論文薈萃集[C];2005年
2 張桂敏;王裔雄;胡勇;馬立新;;一種簡便快速構建宏基因組文庫的方法[A];2008年中國微生物學會學術年會論文摘要集[C];2008年
3 黃雅麗;陸勇軍;賴心田;張炯;林永成;周世寧;;南海微生物宏基因組文庫的構建及功能基因初步篩選[A];微生物實用技術生態(tài)環(huán)境應用學術研討會論文集[C];2008年
4 黃雅麗;李慧賢;張炯;杜紀坤;譚紅銘;陸勇軍;周世寧;;深海宏基因組文庫篩選及新的功能基因[A];2010年第四屆全國微生物遺傳學學術研討會論文摘要集[C];2010年
5 彭晴;張雪;關國華;李穎;;一個克隆自海洋底泥宏基因組文庫的脂酶新基因[A];2008年中國微生物學會學術年會論文摘要集[C];2008年
6 代俊;江帆;彭方;方呈祥;;深海沉積物宏基因組文庫中產(chǎn)甲殼素酶克隆的篩選[A];基因開啟未來:新時代的遺傳學與科技進步——湖北省遺傳學會第八次代表大會暨學術討論會論文摘要匯編[C];2009年
7 沈月毛;;通過構建宏基因組文庫探討植物美登木素生物合成起源[A];2008年中國微生物學會學術年會論文摘要集[C];2008年
8 謝福莉;陳大松;程國軍;魏力;李友國;;通過宏基因組學途徑研究參與氮素循環(huán)主要過程的相關功能新基因[A];2006年度學術研討會論文摘要匯編[C];2006年
9 何彪;涂長春;;病毒宏基因組學的研究現(xiàn)狀及應用[A];中國畜牧獸醫(yī)學會獸醫(yī)公共衛(wèi)生學分會第三次學術研討會論文集[C];2012年
10 牛澤;曾艷;王敏;楊慧;馬榮才;高俊蓮;;北京地區(qū)重金屬污染土壤DNA提取及宏基因組文庫構建[A];第十次全國環(huán)境微生物學術研討會論文摘要集[C];2007年
相關重要報紙文章 前6條
1 記者 譚大躍 第五燕燕 實習生 栗洋洋;200余國際頂尖科學家聚深探討宏基因組學[N];深圳特區(qū)報;2010年
2 記者 劉傳書;我國科學家完成腸道微生物與Ⅱ型糖尿病的宏基因組關聯(lián)分析[N];科技日報;2012年
3 王慶;宏基因組學:慧眼巧識微生物[N];工人日報;2014年
4 記者 熊燕;國際首例共生菌宏基因組文庫在昆建成[N];云南日報;2009年
5 記者 楊婧如 通訊員 胡雯 劉佳;全球基因專家匯聚深圳話前沿[N];深圳特區(qū)報;2013年
6 通訊員 梁淡麗 記者 劉傳書;中外科學家全方位分析全球微生物群落[N];科技日報;2011年
相關博士學位論文 前10條
1 高文淵;宏基因組來源酯酶基因的挖掘及其在非水相中催化性能的研究[D];華東理工大學;2016年
2 溫燕;特發(fā)性間質性肺炎患者下呼吸道菌群結構研究[D];北京協(xié)和醫(yī)學院;2016年
3 曹洋;人體宏基因組整合代謝網(wǎng)絡的構建與分析[D];中國人民解放軍軍事醫(yī)學科學院;2016年
4 鄒曉輝;不明原因肺炎病例病原宏基因組學研究[D];中國疾病預防控制中心;2016年
5 丁嘯;基于序列特征的宏基因組數(shù)據(jù)分析方法研究[D];東南大學;2016年
6 劉云;不平衡數(shù)據(jù)的模糊聚類算法研究及在宏基因組重疊群分類中的應用[D];吉林大學;2016年
7 茍敏;基于宏基因組的芳烴加氧酶獲取及特性研究[D];大連理工大學;2011年
8 賀蕊;式根島海綿宏基因組文庫活性物質研究[D];重慶大學;2013年
9 常秦;宏基因組數(shù)據(jù)分析中的統(tǒng)計方法研究[D];山東大學;2012年
10 彭帥;應用宏基因組方法檢測豬致病微生物及分析牛胃菌群組成[D];吉林大學;2015年
相關碩士學位論文 前10條
1 覃千山;基于宏基因組的未培養(yǎng)互營烴降解菌‘Candidatus Smithella cisternae’的生物信息學研究[D];中國農(nóng)業(yè)科學院;2015年
2 王偉;宏基因組學技術在病原體檢測中的應用[D];安徽醫(yī)科大學;2015年
3 周俊雄;天然木質纖維素降解機制的宏基因組學和宏蛋白質組學分析[D];福建師范大學;2015年
4 王興興;西藏開菲爾粒中優(yōu)勢菌的鑒定、分布與穩(wěn)定性研究[D];上海海洋大學;2015年
5 鄧云金;厭氧降解纖維素菌群的鑒定與發(fā)酵條件分析及其宏基因組文庫構建[D];福建農(nóng)林大學;2012年
6 趙文靜;腸上皮特異性敲除自噬基因Atg5/Atg7小鼠腸道微生物宏基因組測序分析[D];上海交通大學;2015年
7 許悅;宏基因組讀段組裝融合與基因標注算法研究[D];湖南師范大學;2015年
8 胡資鵬;基于De Bruijn圖的宏基因組序列組裝算法研究[D];廣西師范大學;2015年
9 汪儉;北黃海浮游病毒群落的宏基因組學研究[D];中國海洋大學;2015年
10 羅幸;宏基因組分類分析方法的研究和應用[D];東南大學;2015年
,本文編號:1617446
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1617446.html