基于下一代測序的腫瘤基因組拷貝數(shù)變異檢測算法研究
發(fā)布時(shí)間:2018-02-04 02:49
本文關(guān)鍵詞: 癌癥 拷貝數(shù)變異 下一代測序技術(shù) 隱馬爾科夫模型 生物信息學(xué) 出處:《中國科學(xué)技術(shù)大學(xué)》2016年博士論文 論文類型:學(xué)位論文
【摘要】:癌癥的發(fā)生和發(fā)展規(guī)律一直是癌癥相關(guān)研究的焦點(diǎn)。癌癥基因組拷貝數(shù)變異檢測是發(fā)現(xiàn)癌癥相關(guān)基因的基礎(chǔ),因此成為很多癌癥研究的首要任務(wù)。隨著高通量DNA測序技術(shù)的發(fā)展,癌癥基因組學(xué)研究的實(shí)驗(yàn)手段已經(jīng)從傳統(tǒng)的比較基因組雜交和單核苷酸多態(tài)性等陣列技術(shù)逐步過渡到下一代測序技術(shù)。由于數(shù)據(jù)量龐大,高效分析下一代測序數(shù)據(jù)成為相關(guān)領(lǐng)域的一個(gè)難點(diǎn)。另外,腫瘤樣本通常存在正常細(xì)胞污染、基因組非整倍性和腫瘤異質(zhì)性等復(fù)雜問題。這些問題都會(huì)對(duì)測序數(shù)據(jù)產(chǎn)生不可忽視的干擾,從而嚴(yán)重影響拷貝數(shù)變異檢測的準(zhǔn)確性。因此,癌癥基因組拷貝數(shù)變異檢測算法需有效解決上述關(guān)鍵問題。本文通過對(duì)腫瘤下一代測序數(shù)據(jù)進(jìn)行分析和總結(jié),設(shè)計(jì)和開發(fā)出幾種不同應(yīng)用背景下基因組拷貝數(shù)變異檢測的算法和工具,主要的研究內(nèi)容和成果總結(jié)如下:1.提出了一種從非成對(duì)腫瘤全基因組測序數(shù)據(jù)中檢測拷貝數(shù)變異和雜合性缺失的算法CLImAT,可自動(dòng)修正正常細(xì)胞污染和腫瘤非整倍性對(duì)全基因組測序數(shù)據(jù)產(chǎn)生的影響。首先,該算法采用了有效的信號(hào)校正和標(biāo)準(zhǔn)化過程,包括一種非參數(shù)方法校正讀深信號(hào)中的GC和mapppability偏差,以及一種分位數(shù)標(biāo)準(zhǔn)化方法校正等位基因頻率偏差。其次,該算法中引入了一種新穎的隱馬爾科夫模型用于聯(lián)合分析讀深和等位基因頻率,并對(duì)正常細(xì)胞污染和腫瘤倍性進(jìn)行了參數(shù)化建模,從而可靠檢測腫瘤基因組拷貝數(shù)變異和雜合性缺失。最后,通過在多個(gè)數(shù)據(jù)集上的性能評(píng)估,表明CLImAT在處理復(fù)雜腫瘤樣本的全基因組測序數(shù)據(jù)時(shí)具有明顯優(yōu)勢。2.提出了一種從異質(zhì)性腫瘤全基因組測序數(shù)據(jù)中檢測不同克隆群體基因組拷貝數(shù)變異和雜合性缺失的算法CLImAT-HET。該算法考慮了腫瘤異質(zhì)性對(duì)全基因組測序數(shù)據(jù)的影響,并采用階乘隱馬爾科夫模型對(duì)數(shù)據(jù)進(jìn)行分析。CLImAT-HET的優(yōu)勢主要體現(xiàn)在以下三個(gè)方面:1)對(duì)多個(gè)克隆群體產(chǎn)生的混合信號(hào)進(jìn)行合理分解,明顯提高了拷貝數(shù)變異和雜合性缺失的檢測性能;2)對(duì)細(xì)胞比例較小的亞克隆群體中的基因組變異更加敏感;3)能估計(jì)每個(gè)腫瘤克隆群體的細(xì)胞比例。3.提出了一種利用腫瘤和正常樣本的成對(duì)外顯子測序數(shù)據(jù)檢測拷貝數(shù)變異的算法CloneCNA。該算法采取有效的數(shù)據(jù)預(yù)處理方法,減輕了正常細(xì)胞污染、腫瘤基因組非整倍性和腫瘤異質(zhì)性等問題對(duì)外顯子測序數(shù)據(jù)的影響。CloneCNA中也采用了階乘隱馬爾科夫模型用于分析腫瘤克隆群體及其基因組拷貝數(shù)變異和雜合性缺失,并對(duì)正常細(xì)胞污染、腫瘤倍性和腫瘤異質(zhì)性進(jìn)行了參數(shù)化建模,從而可靠檢測出不同克隆群體的拷貝數(shù)變異。此外,該算法利用貝葉斯信息準(zhǔn)則評(píng)估不同腫瘤克隆群體數(shù)目下模型的復(fù)雜度,并選取最優(yōu)的克隆群體數(shù)目。通過在多個(gè)測試數(shù)據(jù)集上的性能評(píng)估,表明CloneCNA具有優(yōu)異的拷貝數(shù)變異檢測性能。4.設(shè)計(jì)了一種從外顯子測序數(shù)據(jù)中檢測拷貝數(shù)變異并對(duì)其進(jìn)行注釋的在線生物信息學(xué)工具DeAnnCNV。該工具能同時(shí)處理多個(gè)樣本的外顯子測序數(shù)據(jù),準(zhǔn)確檢測出拷貝數(shù)變異并提供詳細(xì)的可視化結(jié)果。此外,該工具中集成了現(xiàn)有的生物信息學(xué)數(shù)據(jù)庫資源,可對(duì)出現(xiàn)在多個(gè)樣本中的拷貝數(shù)變異進(jìn)行多方面注釋并提供有用的功能信息。
[Abstract]:This paper presents a novel algorithm and tool for detecting genomic copy number variation and loss of cancer genome by analyzing and summarizing the sequence data of cancer genome .
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:R730.4
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 田李;張穎;趙云峰;;新一代測序技術(shù)的發(fā)展和應(yīng)用[J];生物技術(shù)通報(bào);2015年11期
2 陳萬青;鄭榮壽;曾紅梅;鄒小農(nóng);張思維;赫捷;;2011年中國惡性腫瘤發(fā)病和死亡分析[J];中國腫瘤;2015年01期
3 杜玲;劉剛;陸健;劉丑生;哈福;;高通量測序技術(shù)的發(fā)展及其在生命科學(xué)中的應(yīng)用[J];中國畜牧獸醫(yī);2014年12期
4 張o,
本文編號(hào):1489100
本文鏈接:http://sikaile.net/yixuelunwen/zlx/1489100.html
最近更新
教材專著