基于第三代測(cè)序數(shù)據(jù)的結(jié)構(gòu)變異檢測(cè)方法研究
發(fā)布時(shí)間:2021-11-02 07:13
第三代測(cè)序技術(shù)的飛速發(fā)展使人們能夠通過(guò)少量較長(zhǎng)的讀段推測(cè)個(gè)體的完整染色體序列,同時(shí)推動(dòng)了基因變異檢測(cè)的發(fā)展。結(jié)構(gòu)變異的準(zhǔn)確檢測(cè)對(duì)人類遺傳多樣性和臨床疾病的研究至關(guān)重要。傳統(tǒng)研究結(jié)構(gòu)變異的方法是將手工提取的變異特征進(jìn)行參數(shù)統(tǒng)計(jì)來(lái)判別結(jié)構(gòu)變異位置和類型。用于結(jié)構(gòu)變異檢測(cè)的基因序列表達(dá)信息孤立的文本信息,且變異特征需要手工提取,受人為因素影響較大,檢測(cè)結(jié)果存在片面性和局限性。具體體現(xiàn)為準(zhǔn)確度和敏感度不盡如人意。因此,本課題基于第三代測(cè)序數(shù)據(jù)提出一種以序列比對(duì)圖像為輸入的檢測(cè)結(jié)構(gòu)變異的深度學(xué)習(xí)方法,用以提高結(jié)構(gòu)變異檢測(cè)的精準(zhǔn)性,主要工作歸納為以下三個(gè)方面:(1)將基因序列映射為序列比對(duì)圖像的研究。解析基因序列和基準(zhǔn)變異數(shù)據(jù),研究基因序列映射到序列比對(duì)圖像過(guò)程中至關(guān)重要的映射區(qū)域選擇、圖像坐標(biāo)設(shè)計(jì)、變異特征提取計(jì)算以及色彩模式表達(dá)等問(wèn)題。基因序列表達(dá)的文本信息相互孤立、晦澀難懂且存在一定誤差,以序列比對(duì)圖像的形式呈現(xiàn)在整個(gè)結(jié)構(gòu)變異檢測(cè)過(guò)程中,既能形象具體地展現(xiàn)原始比對(duì)信息,又能清晰呈現(xiàn)變異區(qū)域不同于其他區(qū)域的特征,更能為后續(xù)的深度學(xué)習(xí)圖像分類模型提供高效可依賴的輸入。(2)將序列比對(duì)圖像輸入卷積...
【文章來(lái)源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1結(jié)構(gòu)變異基本類型??Fig.1-1?Basic?types?of?structural?variations??
?北京化工大學(xué)碩士學(xué)位論文???1.3研究現(xiàn)狀??1.3.1常見(jiàn)檢測(cè)策略??包括人類個(gè)體在內(nèi)的二倍體個(gè)體在染色體特定的區(qū)域內(nèi)有三種基因數(shù)據(jù)比對(duì)情??況:一對(duì)等位基因均與參考基因一致,則該區(qū)域不存在變異;一對(duì)等位基因中只有一??個(gè)基因與參考基因相比存在差異,則該區(qū)域存在雜合變異;一對(duì)等位基因與參考基因??都有區(qū)別,則該區(qū)域存在純合變異;純合變異和雜合變異又統(tǒng)稱為變異。圖1-2給出??了缺失變異的這三種示例。??參考基因組?????一 ̄ ̄二?splil-read?:"? ̄Xplit-rpari?????N源染色體1?…—?二?—-.....一??同源染色體2????????非缺失?雜合缺失?純合缺失??圖1-2缺失變異特征:全比對(duì)測(cè)序序列,片段分裂比對(duì),以及測(cè)序數(shù)據(jù)覆蓋深度??Fig.1-2?Signals?for?deletion?variations:?fully-mapped?reads,?split-read,?and?read?depth??缺失結(jié)構(gòu)變異檢測(cè)需要使用結(jié)構(gòu)變異檢測(cè)方法來(lái)區(qū)分變異和非變異的區(qū)域;??第三代測(cè)序數(shù)據(jù)的結(jié)構(gòu)變異檢測(cè)策略主要有四種:測(cè)序片段分裂比對(duì)(Split-read)?[14】,??測(cè)序數(shù)據(jù)覆蓋深度分析(Read?Depth)?[15],CIGAR字段的D標(biāo)識(shí)[161,以及序列拼接??(Assembly)間。前三種方法通常用于檢測(cè)結(jié)構(gòu)變異,而序列拼接通常與圖論算法相??關(guān),不作為本課題的研究?jī)?nèi)容。??檢測(cè)結(jié)構(gòu)變異主要關(guān)注的是測(cè)序序列能否正常對(duì)比。使用諸如111111丨111叩2[18】這樣??的對(duì)工具將來(lái)自個(gè)體基因組的測(cè)序序列
?第一章緒論???的示例。將測(cè)序片段分裂比對(duì)策略用于第三代測(cè)序數(shù)據(jù)結(jié)構(gòu)變異檢測(cè)的典型工具有??sniffles[19]、PBHoney-Tails[2〇]、SMRT-SV[21]等。??\?\?缺失變異?/?/??\?\?/?/??\?\?/?/??\?\?z?/??個(gè)體糊紺?'?、、’?^???'?全比對(duì)測(cè)序序列?測(cè)序片段分裂比對(duì)??Fig.1-3?Fully-mapped?read?and?split-read??圖1-3全比對(duì)測(cè)序序列以及測(cè)序片段分裂比對(duì)??測(cè)序序列比對(duì)到參考基因組上之后,對(duì)數(shù)據(jù)覆蓋深度的分布進(jìn)行分析。一般情況??下,測(cè)序序列的分布大致均勻。對(duì)于參考基因組的一個(gè)位點(diǎn),數(shù)據(jù)覆蓋深度等于覆蓋??該位點(diǎn)的測(cè)序序列數(shù)。很直觀地,當(dāng)存在缺失變異時(shí),該區(qū)域的平均數(shù)據(jù)覆蓋深度是??明顯小于預(yù)期的。因此,數(shù)據(jù)覆蓋深度也是一個(gè)常用的查找缺失變異的特征。圖1-4??展示了缺失變異區(qū)域在數(shù)據(jù)覆蓋深度上的差異。目前,sniffles、PBHoney-Spots[2G^??常用的基于測(cè)序數(shù)據(jù)覆蓋深度分析的第三代測(cè)序數(shù)據(jù)缺失變異檢測(cè)工具。??測(cè)序序列??參考苺因組??雜合變異?純合變異??圖1-4缺失變異的測(cè)序數(shù)據(jù)覆蓋深度分析??Fig.?1-4?Read?depth?analysis?of?deletion?variation??將測(cè)序序列比對(duì)到參考基因組上之后,生成BAM比對(duì)文件。BAM比對(duì)文件中??的第六列為CIGAR字段,CIGAR字段蘊(yùn)含著豐富的變異信息。對(duì)于缺失變異來(lái)說(shuō),??標(biāo)識(shí)D意味著測(cè)序序列比對(duì)到參考基因組上時(shí),存在缺失堿基,根據(jù)D標(biāo)識(shí)前面的??數(shù)字可知缺失堿基的長(zhǎng)
【參考文獻(xiàn)】:
期刊論文
[1]人工神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的研究[J]. 任進(jìn)軍,王寧. 甘肅高師學(xué)報(bào). 2018(02)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[J]. 李亞飛,董紅斌. 智能系統(tǒng)學(xué)報(bào). 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
本文編號(hào):3471579
【文章來(lái)源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1結(jié)構(gòu)變異基本類型??Fig.1-1?Basic?types?of?structural?variations??
?北京化工大學(xué)碩士學(xué)位論文???1.3研究現(xiàn)狀??1.3.1常見(jiàn)檢測(cè)策略??包括人類個(gè)體在內(nèi)的二倍體個(gè)體在染色體特定的區(qū)域內(nèi)有三種基因數(shù)據(jù)比對(duì)情??況:一對(duì)等位基因均與參考基因一致,則該區(qū)域不存在變異;一對(duì)等位基因中只有一??個(gè)基因與參考基因相比存在差異,則該區(qū)域存在雜合變異;一對(duì)等位基因與參考基因??都有區(qū)別,則該區(qū)域存在純合變異;純合變異和雜合變異又統(tǒng)稱為變異。圖1-2給出??了缺失變異的這三種示例。??參考基因組?????一 ̄ ̄二?splil-read?:"? ̄Xplit-rpari?????N源染色體1?…—?二?—-.....一??同源染色體2????????非缺失?雜合缺失?純合缺失??圖1-2缺失變異特征:全比對(duì)測(cè)序序列,片段分裂比對(duì),以及測(cè)序數(shù)據(jù)覆蓋深度??Fig.1-2?Signals?for?deletion?variations:?fully-mapped?reads,?split-read,?and?read?depth??缺失結(jié)構(gòu)變異檢測(cè)需要使用結(jié)構(gòu)變異檢測(cè)方法來(lái)區(qū)分變異和非變異的區(qū)域;??第三代測(cè)序數(shù)據(jù)的結(jié)構(gòu)變異檢測(cè)策略主要有四種:測(cè)序片段分裂比對(duì)(Split-read)?[14】,??測(cè)序數(shù)據(jù)覆蓋深度分析(Read?Depth)?[15],CIGAR字段的D標(biāo)識(shí)[161,以及序列拼接??(Assembly)間。前三種方法通常用于檢測(cè)結(jié)構(gòu)變異,而序列拼接通常與圖論算法相??關(guān),不作為本課題的研究?jī)?nèi)容。??檢測(cè)結(jié)構(gòu)變異主要關(guān)注的是測(cè)序序列能否正常對(duì)比。使用諸如111111丨111叩2[18】這樣??的對(duì)工具將來(lái)自個(gè)體基因組的測(cè)序序列
?第一章緒論???的示例。將測(cè)序片段分裂比對(duì)策略用于第三代測(cè)序數(shù)據(jù)結(jié)構(gòu)變異檢測(cè)的典型工具有??sniffles[19]、PBHoney-Tails[2〇]、SMRT-SV[21]等。??\?\?缺失變異?/?/??\?\?/?/??\?\?/?/??\?\?z?/??個(gè)體糊紺?'?、、’?^???'?全比對(duì)測(cè)序序列?測(cè)序片段分裂比對(duì)??Fig.1-3?Fully-mapped?read?and?split-read??圖1-3全比對(duì)測(cè)序序列以及測(cè)序片段分裂比對(duì)??測(cè)序序列比對(duì)到參考基因組上之后,對(duì)數(shù)據(jù)覆蓋深度的分布進(jìn)行分析。一般情況??下,測(cè)序序列的分布大致均勻。對(duì)于參考基因組的一個(gè)位點(diǎn),數(shù)據(jù)覆蓋深度等于覆蓋??該位點(diǎn)的測(cè)序序列數(shù)。很直觀地,當(dāng)存在缺失變異時(shí),該區(qū)域的平均數(shù)據(jù)覆蓋深度是??明顯小于預(yù)期的。因此,數(shù)據(jù)覆蓋深度也是一個(gè)常用的查找缺失變異的特征。圖1-4??展示了缺失變異區(qū)域在數(shù)據(jù)覆蓋深度上的差異。目前,sniffles、PBHoney-Spots[2G^??常用的基于測(cè)序數(shù)據(jù)覆蓋深度分析的第三代測(cè)序數(shù)據(jù)缺失變異檢測(cè)工具。??測(cè)序序列??參考苺因組??雜合變異?純合變異??圖1-4缺失變異的測(cè)序數(shù)據(jù)覆蓋深度分析??Fig.?1-4?Read?depth?analysis?of?deletion?variation??將測(cè)序序列比對(duì)到參考基因組上之后,生成BAM比對(duì)文件。BAM比對(duì)文件中??的第六列為CIGAR字段,CIGAR字段蘊(yùn)含著豐富的變異信息。對(duì)于缺失變異來(lái)說(shuō),??標(biāo)識(shí)D意味著測(cè)序序列比對(duì)到參考基因組上時(shí),存在缺失堿基,根據(jù)D標(biāo)識(shí)前面的??數(shù)字可知缺失堿基的長(zhǎng)
【參考文獻(xiàn)】:
期刊論文
[1]人工神經(jīng)網(wǎng)絡(luò)中損失函數(shù)的研究[J]. 任進(jìn)軍,王寧. 甘肅高師學(xué)報(bào). 2018(02)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[J]. 李亞飛,董紅斌. 智能系統(tǒng)學(xué)報(bào). 2018(04)
[3]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
本文編號(hào):3471579
本文鏈接:http://sikaile.net/projectlw/swxlw/3471579.html
最近更新
教材專著