基于學(xué)習(xí)的第三代測(cè)序一致性序列生成
發(fā)布時(shí)間:2021-08-11 07:39
繼人類基因組計(jì)劃開展以來(lái),基因測(cè)序已經(jīng)廣泛影響了生命科學(xué)的研究方式,各模式物種基因組在全球?qū)嶒?yàn)室不斷被測(cè)定分析。近年來(lái)隨著基因組測(cè)序數(shù)據(jù)通量的提升和成本的下降,這已成為生物醫(yī)學(xué)領(lǐng)域的常規(guī)手段。目前以太平洋生物科技公司以及牛津納米孔技術(shù)公司長(zhǎng)讀長(zhǎng)測(cè)序?yàn)榇淼牡谌鷾y(cè)序技術(shù)可以產(chǎn)生足夠長(zhǎng)度的測(cè)序片段,極大推動(dòng)了基因組組裝、變異檢測(cè)等分析領(lǐng)域的發(fā)展。然而第三代測(cè)序序列具有極高的錯(cuò)誤率(~15%),影響了分析結(jié)果的精度,局限了其在醫(yī)學(xué)研究和臨床診斷中的應(yīng)用。因此科學(xué)家致力于開發(fā)出更高效的分析方法,以打破這種限制;蚪M組裝是從大量隨機(jī)測(cè)序獲得的短片段重建出幾M甚至上百M(fèi)基因組長(zhǎng)序列的過程,最終目標(biāo)是生成完整、準(zhǔn)確的一致性序列。第三代測(cè)序技術(shù)的應(yīng)用極大提高了基因組一致性序列的完整性,但測(cè)序的高錯(cuò)誤率卻限制了其準(zhǔn)確性。尤其是在組裝重復(fù)序列以及單倍型時(shí),獲得高質(zhì)量且準(zhǔn)確的一致性序列仍存在挑戰(zhàn)。生成一致性序列的關(guān)鍵在于獲得準(zhǔn)確的多序列比對(duì)結(jié)果,考慮到第三代測(cè)序序列長(zhǎng)讀長(zhǎng)、高錯(cuò)誤率及高通量的特點(diǎn),需要資源密集型的序列糾錯(cuò)以及一致性序列生成的步驟來(lái)獲得高質(zhì)量的組裝結(jié)果。本研究提出了包含深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因測(cè)序技術(shù)的發(fā)展需要被提及的是,在測(cè)序技術(shù)被開創(chuàng)的這一段時(shí)期,除了Sanger提出的方法之外,還出現(xiàn)了一部分基于不同原理的測(cè)序技術(shù),例如焦磷酸測(cè)序法和
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-測(cè)序數(shù)據(jù)(即基因第三代ONT數(shù)據(jù)),選取的模式物種包括大腸桿菌、酵母菌以及果蠅。其參考基因組長(zhǎng)度分別為4641652個(gè)堿基、12071326個(gè)堿基、137547960個(gè)堿基。由于這三個(gè)模式物種的全基因組長(zhǎng)度、復(fù)雜程度及雜合情況均有較大差異,可以較好地評(píng)估本文提出方法的完整性和全面性。下圖即為酵母菌ONT數(shù)據(jù)的片段示例。圖2-1第三代ONT數(shù)據(jù)片段示意2.2.2數(shù)據(jù)預(yù)處理由于目前并沒有出現(xiàn)過使用深度學(xué)習(xí)方法進(jìn)行一致性序列生成的研究,因此,針對(duì)基因組數(shù)據(jù),需要進(jìn)行預(yù)處理。經(jīng)過不斷試驗(yàn),本科題采用如下處理方式:首先考慮到測(cè)序過程不同通量數(shù)據(jù)并非是完全對(duì)齊,而是呈階梯狀排布,相鄰兩條之間都有一定堿基數(shù)的錯(cuò)位,因此需要對(duì)比對(duì)后的結(jié)果進(jìn)行裁剪,以免某些位點(diǎn)上大部分序列均為空位,具體做法是取正向第十五條序列的尾部位置向前50個(gè)位點(diǎn)作為塊截止位點(diǎn),反向第十五條序列頭部位置向后50個(gè)位點(diǎn)作為塊起始位點(diǎn)。之后,再將裁剪后的比對(duì)結(jié)果分割為深度為序列乘數(shù)、寬度為12個(gè)位點(diǎn)的小塊,每一個(gè)小塊用于預(yù)測(cè)塊中心4個(gè)位點(diǎn)的堿基種類。
。狀態(tài)在具體計(jì)算過程中使用1-hot編碼表示,其中每個(gè)矩陣單元使用5比特進(jìn)行編碼,即可以表示四種堿基以及gap。與每個(gè)狀態(tài)相關(guān)聯(lián)的是sum-of-pairs分?jǐn)?shù),它是該狀態(tài)下比對(duì)的得分。關(guān)于環(huán)境中動(dòng)作(action)的描述如下,對(duì)于任意狀態(tài),智能體(agent)有進(jìn)行多種動(dòng)作的可能性,這也將改變多序列比對(duì)的結(jié)構(gòu)。具體而言,智能體可以決定將任意一個(gè)矩陣中為堿基的元素向左或者向右推動(dòng),動(dòng)作的結(jié)果是使選定的堿基水平移動(dòng)一個(gè)單元,以及在移動(dòng)方向上與之相鄰的任何堿基。推動(dòng)gap以及造成任意堿基在矩陣B之外的動(dòng)作都是不合法的。如圖2-2所示為狀態(tài)表示矩陣向左推動(dòng)第二行第五列的T之后的結(jié)果。比對(duì)調(diào)整過程中,動(dòng)作是離散的,每一個(gè)動(dòng)作由一個(gè)三元組表示,包含了其坐標(biāo)信息以及移動(dòng)方向信息。動(dòng)作空間的維度即合法動(dòng)作的數(shù)量由狀態(tài)矩陣的大小決定,對(duì)于一個(gè)包含n條位點(diǎn)數(shù)為b的狀態(tài)矩陣,其最大合法動(dòng)作數(shù)為2nb-2n。圖2-2一個(gè)三序列比對(duì)的表示及向左推動(dòng)堿基T之后的狀態(tài)變化由于在這個(gè)強(qiáng)化學(xué)習(xí)方法中只需要對(duì)小規(guī)模的比對(duì)進(jìn)行調(diào)整,因此狀態(tài)空間以及動(dòng)作空間都不會(huì)很大,且在每一步動(dòng)作后狀態(tài)可以確定,即可以認(rèn)為環(huán)境是已知(Model-based)的。但是,雖然這個(gè)場(chǎng)景的馬爾科夫決策過程是已知的,也能夠建立狀態(tài)轉(zhuǎn)移表。但是如果按照這樣的做法求解該強(qiáng)化學(xué)習(xí)問題,與動(dòng)態(tài)規(guī)劃算法的時(shí)間代價(jià)相近,不符合實(shí)際需求。因此,在策略學(xué)習(xí)的過程中并不利用具體的環(huán)境模型,而是采用模型未知的算法(Model-
本文編號(hào):3335763
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基因測(cè)序技術(shù)的發(fā)展需要被提及的是,在測(cè)序技術(shù)被開創(chuàng)的這一段時(shí)期,除了Sanger提出的方法之外,還出現(xiàn)了一部分基于不同原理的測(cè)序技術(shù),例如焦磷酸測(cè)序法和
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-測(cè)序數(shù)據(jù)(即基因第三代ONT數(shù)據(jù)),選取的模式物種包括大腸桿菌、酵母菌以及果蠅。其參考基因組長(zhǎng)度分別為4641652個(gè)堿基、12071326個(gè)堿基、137547960個(gè)堿基。由于這三個(gè)模式物種的全基因組長(zhǎng)度、復(fù)雜程度及雜合情況均有較大差異,可以較好地評(píng)估本文提出方法的完整性和全面性。下圖即為酵母菌ONT數(shù)據(jù)的片段示例。圖2-1第三代ONT數(shù)據(jù)片段示意2.2.2數(shù)據(jù)預(yù)處理由于目前并沒有出現(xiàn)過使用深度學(xué)習(xí)方法進(jìn)行一致性序列生成的研究,因此,針對(duì)基因組數(shù)據(jù),需要進(jìn)行預(yù)處理。經(jīng)過不斷試驗(yàn),本科題采用如下處理方式:首先考慮到測(cè)序過程不同通量數(shù)據(jù)并非是完全對(duì)齊,而是呈階梯狀排布,相鄰兩條之間都有一定堿基數(shù)的錯(cuò)位,因此需要對(duì)比對(duì)后的結(jié)果進(jìn)行裁剪,以免某些位點(diǎn)上大部分序列均為空位,具體做法是取正向第十五條序列的尾部位置向前50個(gè)位點(diǎn)作為塊截止位點(diǎn),反向第十五條序列頭部位置向后50個(gè)位點(diǎn)作為塊起始位點(diǎn)。之后,再將裁剪后的比對(duì)結(jié)果分割為深度為序列乘數(shù)、寬度為12個(gè)位點(diǎn)的小塊,每一個(gè)小塊用于預(yù)測(cè)塊中心4個(gè)位點(diǎn)的堿基種類。
。狀態(tài)在具體計(jì)算過程中使用1-hot編碼表示,其中每個(gè)矩陣單元使用5比特進(jìn)行編碼,即可以表示四種堿基以及gap。與每個(gè)狀態(tài)相關(guān)聯(lián)的是sum-of-pairs分?jǐn)?shù),它是該狀態(tài)下比對(duì)的得分。關(guān)于環(huán)境中動(dòng)作(action)的描述如下,對(duì)于任意狀態(tài),智能體(agent)有進(jìn)行多種動(dòng)作的可能性,這也將改變多序列比對(duì)的結(jié)構(gòu)。具體而言,智能體可以決定將任意一個(gè)矩陣中為堿基的元素向左或者向右推動(dòng),動(dòng)作的結(jié)果是使選定的堿基水平移動(dòng)一個(gè)單元,以及在移動(dòng)方向上與之相鄰的任何堿基。推動(dòng)gap以及造成任意堿基在矩陣B之外的動(dòng)作都是不合法的。如圖2-2所示為狀態(tài)表示矩陣向左推動(dòng)第二行第五列的T之后的結(jié)果。比對(duì)調(diào)整過程中,動(dòng)作是離散的,每一個(gè)動(dòng)作由一個(gè)三元組表示,包含了其坐標(biāo)信息以及移動(dòng)方向信息。動(dòng)作空間的維度即合法動(dòng)作的數(shù)量由狀態(tài)矩陣的大小決定,對(duì)于一個(gè)包含n條位點(diǎn)數(shù)為b的狀態(tài)矩陣,其最大合法動(dòng)作數(shù)為2nb-2n。圖2-2一個(gè)三序列比對(duì)的表示及向左推動(dòng)堿基T之后的狀態(tài)變化由于在這個(gè)強(qiáng)化學(xué)習(xí)方法中只需要對(duì)小規(guī)模的比對(duì)進(jìn)行調(diào)整,因此狀態(tài)空間以及動(dòng)作空間都不會(huì)很大,且在每一步動(dòng)作后狀態(tài)可以確定,即可以認(rèn)為環(huán)境是已知(Model-based)的。但是,雖然這個(gè)場(chǎng)景的馬爾科夫決策過程是已知的,也能夠建立狀態(tài)轉(zhuǎn)移表。但是如果按照這樣的做法求解該強(qiáng)化學(xué)習(xí)問題,與動(dòng)態(tài)規(guī)劃算法的時(shí)間代價(jià)相近,不符合實(shí)際需求。因此,在策略學(xué)習(xí)的過程中并不利用具體的環(huán)境模型,而是采用模型未知的算法(Model-
本文編號(hào):3335763
本文鏈接:http://sikaile.net/projectlw/swxlw/3335763.html
最近更新
教材專著