基于第三代測序數(shù)據(jù)的結(jié)構(gòu)變異檢測方法研究
發(fā)布時間:2021-11-02 07:13
第三代測序技術(shù)的飛速發(fā)展使人們能夠通過少量較長的讀段推測個體的完整染色體序列,同時推動了基因變異檢測的發(fā)展。結(jié)構(gòu)變異的準確檢測對人類遺傳多樣性和臨床疾病的研究至關(guān)重要。傳統(tǒng)研究結(jié)構(gòu)變異的方法是將手工提取的變異特征進行參數(shù)統(tǒng)計來判別結(jié)構(gòu)變異位置和類型。用于結(jié)構(gòu)變異檢測的基因序列表達信息孤立的文本信息,且變異特征需要手工提取,受人為因素影響較大,檢測結(jié)果存在片面性和局限性。具體體現(xiàn)為準確度和敏感度不盡如人意。因此,本課題基于第三代測序數(shù)據(jù)提出一種以序列比對圖像為輸入的檢測結(jié)構(gòu)變異的深度學習方法,用以提高結(jié)構(gòu)變異檢測的精準性,主要工作歸納為以下三個方面:(1)將基因序列映射為序列比對圖像的研究。解析基因序列和基準變異數(shù)據(jù),研究基因序列映射到序列比對圖像過程中至關(guān)重要的映射區(qū)域選擇、圖像坐標設(shè)計、變異特征提取計算以及色彩模式表達等問題;蛐蛄斜磉_的文本信息相互孤立、晦澀難懂且存在一定誤差,以序列比對圖像的形式呈現(xiàn)在整個結(jié)構(gòu)變異檢測過程中,既能形象具體地展現(xiàn)原始比對信息,又能清晰呈現(xiàn)變異區(qū)域不同于其他區(qū)域的特征,更能為后續(xù)的深度學習圖像分類模型提供高效可依賴的輸入。(2)將序列比對圖像輸入卷積...
【文章來源】:北京化工大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖1-1結(jié)構(gòu)變異基本類型??Fig.1-1?Basic?types?of?structural?variations??
?北京化工大學碩士學位論文???1.3研究現(xiàn)狀??1.3.1常見檢測策略??包括人類個體在內(nèi)的二倍體個體在染色體特定的區(qū)域內(nèi)有三種基因數(shù)據(jù)比對情??況:一對等位基因均與參考基因一致,則該區(qū)域不存在變異;一對等位基因中只有一??個基因與參考基因相比存在差異,則該區(qū)域存在雜合變異;一對等位基因與參考基因??都有區(qū)別,則該區(qū)域存在純合變異;純合變異和雜合變異又統(tǒng)稱為變異。圖1-2給出??了缺失變異的這三種示例。??參考基因組?????一 ̄ ̄二?splil-read?:"? ̄Xplit-rpari?????N源染色體1?…—?二?—-.....一??同源染色體2????????非缺失?雜合缺失?純合缺失??圖1-2缺失變異特征:全比對測序序列,片段分裂比對,以及測序數(shù)據(jù)覆蓋深度??Fig.1-2?Signals?for?deletion?variations:?fully-mapped?reads,?split-read,?and?read?depth??缺失結(jié)構(gòu)變異檢測需要使用結(jié)構(gòu)變異檢測方法來區(qū)分變異和非變異的區(qū)域;??第三代測序數(shù)據(jù)的結(jié)構(gòu)變異檢測策略主要有四種:測序片段分裂比對(Split-read)?[14】,??測序數(shù)據(jù)覆蓋深度分析(Read?Depth)?[15],CIGAR字段的D標識[161,以及序列拼接??(Assembly)間。前三種方法通常用于檢測結(jié)構(gòu)變異,而序列拼接通常與圖論算法相??關(guān),不作為本課題的研究內(nèi)容。??檢測結(jié)構(gòu)變異主要關(guān)注的是測序序列能否正常對比。使用諸如111111丨111叩2[18】這樣??的對工具將來自個體基因組的測序序列
?第一章緒論???的示例。將測序片段分裂比對策略用于第三代測序數(shù)據(jù)結(jié)構(gòu)變異檢測的典型工具有??sniffles[19]、PBHoney-Tails[2〇]、SMRT-SV[21]等。??\?\?缺失變異?/?/??\?\?/?/??\?\?/?/??\?\?z?/??個體糊紺?'?、、’?^???'?全比對測序序列?測序片段分裂比對??Fig.1-3?Fully-mapped?read?and?split-read??圖1-3全比對測序序列以及測序片段分裂比對??測序序列比對到參考基因組上之后,對數(shù)據(jù)覆蓋深度的分布進行分析。一般情況??下,測序序列的分布大致均勻。對于參考基因組的一個位點,數(shù)據(jù)覆蓋深度等于覆蓋??該位點的測序序列數(shù)。很直觀地,當存在缺失變異時,該區(qū)域的平均數(shù)據(jù)覆蓋深度是??明顯小于預(yù)期的。因此,數(shù)據(jù)覆蓋深度也是一個常用的查找缺失變異的特征。圖1-4??展示了缺失變異區(qū)域在數(shù)據(jù)覆蓋深度上的差異。目前,sniffles、PBHoney-Spots[2G^??常用的基于測序數(shù)據(jù)覆蓋深度分析的第三代測序數(shù)據(jù)缺失變異檢測工具。??測序序列??參考苺因組??雜合變異?純合變異??圖1-4缺失變異的測序數(shù)據(jù)覆蓋深度分析??Fig.?1-4?Read?depth?analysis?of?deletion?variation??將測序序列比對到參考基因組上之后,生成BAM比對文件。BAM比對文件中??的第六列為CIGAR字段,CIGAR字段蘊含著豐富的變異信息。對于缺失變異來說,??標識D意味著測序序列比對到參考基因組上時,存在缺失堿基,根據(jù)D標識前面的??數(shù)字可知缺失堿基的長
【參考文獻】:
期刊論文
[1]人工神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的研究[J]. 任進軍,王寧. 甘肅高師學報. 2018(02)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[J]. 李亞飛,董紅斌. 智能系統(tǒng)學報. 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
本文編號:3471579
【文章來源】:北京化工大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖1-1結(jié)構(gòu)變異基本類型??Fig.1-1?Basic?types?of?structural?variations??
?北京化工大學碩士學位論文???1.3研究現(xiàn)狀??1.3.1常見檢測策略??包括人類個體在內(nèi)的二倍體個體在染色體特定的區(qū)域內(nèi)有三種基因數(shù)據(jù)比對情??況:一對等位基因均與參考基因一致,則該區(qū)域不存在變異;一對等位基因中只有一??個基因與參考基因相比存在差異,則該區(qū)域存在雜合變異;一對等位基因與參考基因??都有區(qū)別,則該區(qū)域存在純合變異;純合變異和雜合變異又統(tǒng)稱為變異。圖1-2給出??了缺失變異的這三種示例。??參考基因組?????一 ̄ ̄二?splil-read?:"? ̄Xplit-rpari?????N源染色體1?…—?二?—-.....一??同源染色體2????????非缺失?雜合缺失?純合缺失??圖1-2缺失變異特征:全比對測序序列,片段分裂比對,以及測序數(shù)據(jù)覆蓋深度??Fig.1-2?Signals?for?deletion?variations:?fully-mapped?reads,?split-read,?and?read?depth??缺失結(jié)構(gòu)變異檢測需要使用結(jié)構(gòu)變異檢測方法來區(qū)分變異和非變異的區(qū)域;??第三代測序數(shù)據(jù)的結(jié)構(gòu)變異檢測策略主要有四種:測序片段分裂比對(Split-read)?[14】,??測序數(shù)據(jù)覆蓋深度分析(Read?Depth)?[15],CIGAR字段的D標識[161,以及序列拼接??(Assembly)間。前三種方法通常用于檢測結(jié)構(gòu)變異,而序列拼接通常與圖論算法相??關(guān),不作為本課題的研究內(nèi)容。??檢測結(jié)構(gòu)變異主要關(guān)注的是測序序列能否正常對比。使用諸如111111丨111叩2[18】這樣??的對工具將來自個體基因組的測序序列
?第一章緒論???的示例。將測序片段分裂比對策略用于第三代測序數(shù)據(jù)結(jié)構(gòu)變異檢測的典型工具有??sniffles[19]、PBHoney-Tails[2〇]、SMRT-SV[21]等。??\?\?缺失變異?/?/??\?\?/?/??\?\?/?/??\?\?z?/??個體糊紺?'?、、’?^???'?全比對測序序列?測序片段分裂比對??Fig.1-3?Fully-mapped?read?and?split-read??圖1-3全比對測序序列以及測序片段分裂比對??測序序列比對到參考基因組上之后,對數(shù)據(jù)覆蓋深度的分布進行分析。一般情況??下,測序序列的分布大致均勻。對于參考基因組的一個位點,數(shù)據(jù)覆蓋深度等于覆蓋??該位點的測序序列數(shù)。很直觀地,當存在缺失變異時,該區(qū)域的平均數(shù)據(jù)覆蓋深度是??明顯小于預(yù)期的。因此,數(shù)據(jù)覆蓋深度也是一個常用的查找缺失變異的特征。圖1-4??展示了缺失變異區(qū)域在數(shù)據(jù)覆蓋深度上的差異。目前,sniffles、PBHoney-Spots[2G^??常用的基于測序數(shù)據(jù)覆蓋深度分析的第三代測序數(shù)據(jù)缺失變異檢測工具。??測序序列??參考苺因組??雜合變異?純合變異??圖1-4缺失變異的測序數(shù)據(jù)覆蓋深度分析??Fig.?1-4?Read?depth?analysis?of?deletion?variation??將測序序列比對到參考基因組上之后,生成BAM比對文件。BAM比對文件中??的第六列為CIGAR字段,CIGAR字段蘊含著豐富的變異信息。對于缺失變異來說,??標識D意味著測序序列比對到參考基因組上時,存在缺失堿基,根據(jù)D標識前面的??數(shù)字可知缺失堿基的長
【參考文獻】:
期刊論文
[1]人工神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的研究[J]. 任進軍,王寧. 甘肅高師學報. 2018(02)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[J]. 李亞飛,董紅斌. 智能系統(tǒng)學報. 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
本文編號:3471579
本文鏈接:http://sikaile.net/projectlw/swxlw/3471579.html
最近更新
教材專著