基于de Bruijn圖的宏基因組序列拼接算法實(shí)現(xiàn)
本文選題:宏基因組 切入點(diǎn):第二代測序技術(shù) 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:基因組測序技術(shù)為生物學(xué)研究提供了數(shù)據(jù)支持,從而有力的推動(dòng)了對生命活動(dòng)規(guī)律的理解和認(rèn)識。宏基因組學(xué)是一門新興的不依賴于實(shí)驗(yàn)室培養(yǎng)直接從環(huán)境中提取微生物群落的DNA進(jìn)行研究的學(xué)科,這種大規(guī)模的基因組學(xué)技術(shù)實(shí)現(xiàn)了對不同環(huán)境中微生物的深入研究。然而受限于測序技術(shù),測序儀每次只能讀出基因組上一個(gè)短片段,而不是一次讀出完整的基因組序列。因此,從短片段中恢復(fù)出多個(gè)物種的完整基因組的序列拼接是宏基因組學(xué)的一個(gè)基本問題。目前計(jì)算機(jī)技術(shù)方面,對宏基因組序列拼接算法的研究還仍然處于初步階段,大多數(shù)序列拼接工作依然利用單基因組拼接軟件來完成,然而絕大部分單基因組序列拼接在宏基因組上數(shù)據(jù)上存在很大的局限性。因此,本文針對宏基因組的序列拼接算法展開了一系列的工作并將之實(shí)現(xiàn)。本文的主要工作是在我們開發(fā)的單基因組拼接軟件ARCS的基礎(chǔ)上,加入了新的模塊來處理針對宏基因組的數(shù)據(jù),提出并實(shí)現(xiàn)一個(gè)有效的宏基因組序列拼接軟件Meta-ARCS。我們設(shè)計(jì)了新的針對第二代數(shù)據(jù)的序列拼接的拆解deBruijn圖形成contigs算法。主要是估計(jì)壓縮邊的序列重?cái)?shù),挑選unique壓縮邊,利用pair-kmer插入距離信息,并采用線性規(guī)劃技術(shù)求得unique壓縮邊的最優(yōu)排布,最終形成更長的contigs和scaffolds。針對這些填充了間隙的scaffolds,我們除去間隙,獲得正確率更高的卻更短的contigs,利用coverage信息將contigs進(jìn)行binning操作,每個(gè)bin里的contigs都屬于單一的物種。在真實(shí)數(shù)據(jù)集和模擬數(shù)據(jù)集上的實(shí)驗(yàn)表明:同已有拼接軟件做系統(tǒng)比較,Meta-ARCS取得了比較好的結(jié)果。
[Abstract]:Genome sequencing technology provides data support for biological research, Macrogenomics is an emerging discipline that does not rely on laboratory culture to extract microbial communities directly from the environment for research. This large-scale genomics technique allows for in-depth research into microbes in different environments. However, limited to sequencing technology, sequencers can read only one short segment of the genome at a time. So it's a fundamental problem in macrogenomics to restore the complete genome sequence of multiple species from a short fragment. The research on the algorithm of macro genome sequence mosaic is still in the preliminary stage, and most of the sequence stitching work is still completed by single genome mosaic software. However, most of the single-genome sequence splicing on the macro genome has great limitations. In this paper, a series of work has been carried out on the sequence splicing algorithm of the macro genome, which is based on the single genome mosaic software ARCS, which is developed by us. A new module was added to process data for the macro genome, In this paper, we propose and implement an effective macro genome sequence mosaic software Meta-ARCS. we design a new contigs algorithm for the second generation data sequence splicing, which is mainly to estimate the sequence multiplicity of the compressed edges and select the unique compressed edges. By using the pair-kmer insertion distance information and linear programming technique, the optimal arrangement of unique compression edges is obtained, resulting in the formation of longer contigs and scaffolds. for these scaffoldsfilled with gaps, we remove the gaps. Get a higher accuracy but shorter contig, use the coverage information to binning the contigs, Contigs in each bin belongs to a single species. Experiments on real data sets and simulated data sets show that Meta-ARCS has better results compared with existing mosaic software systems.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:Q811.4;TP319
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙蓉;胡永峰;金奇;;宏基因組學(xué)及其在醫(yī)學(xué)微生物學(xué)領(lǐng)域的應(yīng)用[J];病毒學(xué)報(bào);2009年03期
2 宋培勇;馬莉莉;王慶容;李黛;魏志琴;;宏基因組技術(shù)及其應(yīng)用研究進(jìn)展[J];貴州農(nóng)業(yè)科學(xué);2009年10期
3 孟飛;俞春娜;王秋巖;謝恬;;宏基因組與宏基因組學(xué)[J];中國生物化學(xué)與分子生物學(xué)報(bào);2010年02期
4 劉海燕;常玉梅;;宏基因組學(xué)及在人體微生物研究上的應(yīng)用[J];中國現(xiàn)代醫(yī)學(xué)雜志;2012年08期
5 閻冰,洪葵,許云,馬超;宏基因組克隆——微生物活性物質(zhì)篩選的新途徑[J];微生物學(xué)通報(bào);2005年01期
6 歐敏功;崔曉龍;李一青;李銘剛;彭謙;文孟良;;宏基因組學(xué)在未培養(yǎng)微生物研究中的應(yīng)用[J];微生物學(xué)雜志;2007年02期
7 艾芳芳;楊樺;曲媛媛;周集體;李昂;關(guān)曉燕;茍敏;;宏基因組研究及其應(yīng)用研究進(jìn)展[J];環(huán)境科學(xué)與技術(shù);2007年12期
8 楚雍烈;楊娥;;宏基因組學(xué)及其技術(shù)的研究進(jìn)展[J];西安交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版);2008年06期
9 馮美琴;;宏基因組學(xué)的研究進(jìn)展[J];安徽農(nóng)業(yè)科學(xué);2008年02期
10 李慧;何晶晶;張穎;徐慧;陳冠雄;;宏基因組技術(shù)在開發(fā)未培養(yǎng)環(huán)境微生物基因資源中的應(yīng)用[J];生態(tài)學(xué)報(bào);2008年04期
相關(guān)會議論文 前10條
1 閻冰;許云;馬超;洪葵;;宏基因組克隆——微生物活性物質(zhì)篩選的新途徑[A];中國海洋生化學(xué)術(shù)會議論文薈萃集[C];2005年
2 張桂敏;王裔雄;胡勇;馬立新;;一種簡便快速構(gòu)建宏基因組文庫的方法[A];2008年中國微生物學(xué)會學(xué)術(shù)年會論文摘要集[C];2008年
3 黃雅麗;陸勇軍;賴心田;張炯;林永成;周世寧;;南海微生物宏基因組文庫的構(gòu)建及功能基因初步篩選[A];微生物實(shí)用技術(shù)生態(tài)環(huán)境應(yīng)用學(xué)術(shù)研討會論文集[C];2008年
4 黃雅麗;李慧賢;張炯;杜紀(jì)坤;譚紅銘;陸勇軍;周世寧;;深海宏基因組文庫篩選及新的功能基因[A];2010年第四屆全國微生物遺傳學(xué)學(xué)術(shù)研討會論文摘要集[C];2010年
5 彭晴;張雪;關(guān)國華;李穎;;一個(gè)克隆自海洋底泥宏基因組文庫的脂酶新基因[A];2008年中國微生物學(xué)會學(xué)術(shù)年會論文摘要集[C];2008年
6 代俊;江帆;彭方;方呈祥;;深海沉積物宏基因組文庫中產(chǎn)甲殼素酶克隆的篩選[A];基因開啟未來:新時(shí)代的遺傳學(xué)與科技進(jìn)步——湖北省遺傳學(xué)會第八次代表大會暨學(xué)術(shù)討論會論文摘要匯編[C];2009年
7 沈月毛;;通過構(gòu)建宏基因組文庫探討植物美登木素生物合成起源[A];2008年中國微生物學(xué)會學(xué)術(shù)年會論文摘要集[C];2008年
8 謝福莉;陳大松;程國軍;魏力;李友國;;通過宏基因組學(xué)途徑研究參與氮素循環(huán)主要過程的相關(guān)功能新基因[A];2006年度學(xué)術(shù)研討會論文摘要匯編[C];2006年
9 何彪;涂長春;;病毒宏基因組學(xué)的研究現(xiàn)狀及應(yīng)用[A];中國畜牧獸醫(yī)學(xué)會獸醫(yī)公共衛(wèi)生學(xué)分會第三次學(xué)術(shù)研討會論文集[C];2012年
10 牛澤;曾艷;王敏;楊慧;馬榮才;高俊蓮;;北京地區(qū)重金屬污染土壤DNA提取及宏基因組文庫構(gòu)建[A];第十次全國環(huán)境微生物學(xué)術(shù)研討會論文摘要集[C];2007年
相關(guān)重要報(bào)紙文章 前6條
1 記者 譚大躍 第五燕燕 實(shí)習(xí)生 栗洋洋;200余國際頂尖科學(xué)家聚深探討宏基因組學(xué)[N];深圳特區(qū)報(bào);2010年
2 記者 劉傳書;我國科學(xué)家完成腸道微生物與Ⅱ型糖尿病的宏基因組關(guān)聯(lián)分析[N];科技日報(bào);2012年
3 王慶;宏基因組學(xué):慧眼巧識微生物[N];工人日報(bào);2014年
4 記者 熊燕;國際首例共生菌宏基因組文庫在昆建成[N];云南日報(bào);2009年
5 記者 楊婧如 通訊員 胡雯 劉佳;全球基因?qū)<覅R聚深圳話前沿[N];深圳特區(qū)報(bào);2013年
6 通訊員 梁淡麗 記者 劉傳書;中外科學(xué)家全方位分析全球微生物群落[N];科技日報(bào);2011年
相關(guān)博士學(xué)位論文 前10條
1 高文淵;宏基因組來源酯酶基因的挖掘及其在非水相中催化性能的研究[D];華東理工大學(xué);2016年
2 溫燕;特發(fā)性間質(zhì)性肺炎患者下呼吸道菌群結(jié)構(gòu)研究[D];北京協(xié)和醫(yī)學(xué)院;2016年
3 曹洋;人體宏基因組整合代謝網(wǎng)絡(luò)的構(gòu)建與分析[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2016年
4 鄒曉輝;不明原因肺炎病例病原宏基因組學(xué)研究[D];中國疾病預(yù)防控制中心;2016年
5 丁嘯;基于序列特征的宏基因組數(shù)據(jù)分析方法研究[D];東南大學(xué);2016年
6 劉云;不平衡數(shù)據(jù)的模糊聚類算法研究及在宏基因組重疊群分類中的應(yīng)用[D];吉林大學(xué);2016年
7 茍敏;基于宏基因組的芳烴加氧酶獲取及特性研究[D];大連理工大學(xué);2011年
8 賀蕊;式根島海綿宏基因組文庫活性物質(zhì)研究[D];重慶大學(xué);2013年
9 常秦;宏基因組數(shù)據(jù)分析中的統(tǒng)計(jì)方法研究[D];山東大學(xué);2012年
10 彭帥;應(yīng)用宏基因組方法檢測豬致病微生物及分析牛胃菌群組成[D];吉林大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 覃千山;基于宏基因組的未培養(yǎng)互營烴降解菌‘Candidatus Smithella cisternae’的生物信息學(xué)研究[D];中國農(nóng)業(yè)科學(xué)院;2015年
2 王偉;宏基因組學(xué)技術(shù)在病原體檢測中的應(yīng)用[D];安徽醫(yī)科大學(xué);2015年
3 周俊雄;天然木質(zhì)纖維素降解機(jī)制的宏基因組學(xué)和宏蛋白質(zhì)組學(xué)分析[D];福建師范大學(xué);2015年
4 王興興;西藏開菲爾粒中優(yōu)勢菌的鑒定、分布與穩(wěn)定性研究[D];上海海洋大學(xué);2015年
5 鄧云金;厭氧降解纖維素菌群的鑒定與發(fā)酵條件分析及其宏基因組文庫構(gòu)建[D];福建農(nóng)林大學(xué);2012年
6 趙文靜;腸上皮特異性敲除自噬基因Atg5/Atg7小鼠腸道微生物宏基因組測序分析[D];上海交通大學(xué);2015年
7 許悅;宏基因組讀段組裝融合與基因標(biāo)注算法研究[D];湖南師范大學(xué);2015年
8 胡資鵬;基于De Bruijn圖的宏基因組序列組裝算法研究[D];廣西師范大學(xué);2015年
9 汪儉;北黃海浮游病毒群落的宏基因組學(xué)研究[D];中國海洋大學(xué);2015年
10 羅幸;宏基因組分類分析方法的研究和應(yīng)用[D];東南大學(xué);2015年
,本文編號:1617446
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/1617446.html