基于深度學(xué)習(xí)的增強子識別算法研究
發(fā)布時間:2020-12-10 03:24
本文針對基因非編碼區(qū)功能元件的識別問題——增強子(Enhancers)識別算法展開研究。增強子是一類調(diào)控靶基因轉(zhuǎn)錄頻率的順式作用元件,極大影響著性狀特征差異、生物進(jìn)化和疾病發(fā)病等問題。增強子具有的遠(yuǎn)距離性、無方向性和細(xì)胞特異性等特點增加了識別的復(fù)雜度。目前已有的增強子識別方法或是耗時耗力的實驗類方法或是依賴于復(fù)雜且效果并不理想的人工特征提取的傳統(tǒng)機(jī)器學(xué)習(xí)算法。本文基于深度學(xué)習(xí)設(shè)計了一個可以在全基因組上大規(guī)模識別預(yù)測增強子的神經(jīng)網(wǎng)絡(luò)BiLSTM-E。根據(jù)數(shù)據(jù)挖掘的理論,訓(xùn)練集的序列間相似度決定了模型是否可以學(xué)習(xí)到正確且泛化的信息。多序列比對是用于度量多條序列間相似度的一種技術(shù),而目前缺少可以快速且準(zhǔn)確地比對大規(guī)模序列的多序列比對算法。于是本文開發(fā)出了一種面向海量數(shù)據(jù)的多序列比對算法VCSRA,為BiLSTM-E提供數(shù)據(jù)集的選擇方法。全本的研究內(nèi)容主要有以下三點:1.基于向量映射優(yōu)化了多序列比對算法中常用的啟發(fā)式策略中心星策略。新中心星策略VCS將序列映射為四維向量,在沒有損失精度的情況下,能在線性時間內(nèi)選擇出中心序列,大幅度減少了多序列比對的整體耗時。2.在VCS的基礎(chǔ)上,本文實現(xiàn)了一種...
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2基因組片段??基因編碼區(qū)的功能片段可分為兩類:順式作用元件和反式作用因子
CCCCGCCGTGCAT??mouse?TTTGGCTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??rat?TTTGGGTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??\?dog?TTTGGGTTTCGCAAATAGGGCATCGACAATAAC?A?^GTGTGGCACTAACCCTGCCGTGCAT??Multiple?alignment??圖1.3序列比對??序列比對是一種經(jīng)過在.序列中插入間隔,讓相同或相似的子序列處于相同的??位置,以找到最優(yōu)相似度序列排列的方怯【14]。比對中插入到序列的間隔字符一般??用符號表示。在一個比對中,若序列所屬的生物體共享同f?zhèn)祖先,那么不??匹配的堿基可以被解釋為突變,間隔被解釋為丟失。序列比對是識別相似區(qū)域的基??第3貞??
國防科技大學(xué)研究生院碩學(xué)位論文??本過程,其中相似的序列片段可能關(guān)乎與多序列間的功能關(guān)系、結(jié)構(gòu)關(guān)系或進(jìn)化關(guān)??系。依據(jù)待比對的.序列數(shù),.序列比對問題可分為雙序列比對(pairwise?alignment)??和推廣到多條摩列的多摩列比對(multiple?sequence?alignment,?MSA)。圖1.3是雙??序列比對和多摩列比對的取倉圈.。??序列_的匹_配鷹可以通過SPS?(Sum-of-Pairs?Score)指標(biāo)來衡藎無論是.原始序??列間匹配度還是通過比對所提高的序列間匹配度都可以使用SPS分?jǐn)?shù)來嫌化。SPS??分?jǐn)?shù)度量的是兩條或多條序列中可以完全匹配的位置所占的比例。具體的SPS分??數(shù)計算公共可參考本文的2.3.2小節(jié)。根據(jù)SPS分?jǐn)?shù)的定義,SPS值越高代表序列??間匹配度越高_若SPS分?jǐn)?shù)屬于比對后的結(jié)果序列,則該值越大代表序列比對獲??得的相似度越高,結(jié)果越接近最優(yōu)比對結(jié)果。??在雙序列比對算法中.,最經(jīng)典的莫過于Needleman-Wunsch算法[iNeedleman-??Wimsch算法本質(zhì)上是一種動態(tài)規(guī)劃算法,它的主要思想是將原始的整條序列比對??問題劃分為各個字符的比對問題,根據(jù)子問題之間的關(guān)系按照順序求解它們的最??優(yōu)解,最終通過商溯得到原始問題的最優(yōu)比對結(jié)果。這種動態(tài)的過程可以存儲在二??維矩陣中,稱為計分矩陣,如圖1.4為序列”ATTGAC”和序列”AGCTGAC”的計分??矩陣.6為衡量舄部單字符的比對可構(gòu)建分?jǐn)?shù)pseciT^,假設(shè)pscwe?(x,?X)=??1,P^<pre(Sx)?=?PsrareO,—)?=?—I,?=?_2。計分矩陣起始位置上的值??初fe化為_
【參考文獻(xiàn)】:
期刊論文
[1]VCSRA: A fast and accurate multiple sequence alignment algorithm with a high degree of parallelism[J]. Dong Dong,Wenhe Su,Wenqiang Shi,Quan Zou,Shaoliang Peng. Journal of Genetics and Genomics. 2018(07)
[2]生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢[J]. 趙屹,谷瑞升,杜生明. 醫(yī)學(xué)信息學(xué)雜志. 2012(05)
[3]多序列比對算法的研究進(jìn)展[J]. 鄒權(quán),郭茂祖,韓英鵬,李文濱. 生物信息學(xué). 2010(04)
[4]一種多序列比對分治算法DCA-ClustalW[J]. 業(yè)寧,張倩倩,許翠云. 計算機(jī)與數(shù)字工程. 2010(11)
[5]DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J]. 解增言,林俊華,譚軍,舒坤賢. 生物技術(shù)通報. 2010(08)
[6]基于關(guān)鍵字樹的DNA多序列星比對算法[J]. 鄒權(quán),郭茂祖,王曉凱,張濤濤. 電子學(xué)報. 2009(08)
[7]DNA序列數(shù)據(jù)挖掘技術(shù)[J]. 朱揚勇,熊赟. 軟件學(xué)報. 2007(11)
[8]一種基于動態(tài)規(guī)劃的全局雙序列比對優(yōu)化算法[J]. 李鎳嵐,李其申,張永. 電腦知識與技術(shù)(學(xué)術(shù)交流). 2007(06)
[9]數(shù)據(jù)挖掘綜述[J]. 王光宏,蔣平. 同濟(jì)大學(xué)學(xué)報(自然科學(xué)版). 2004(02)
[10]人類基因組計劃與后基因組時代[J]. 駱建新,鄭崛村,馬用信,張思仲. 中國生物工程雜志. 2003(11)
博士論文
[1]基于深度學(xué)習(xí)的基因組功能元件的識別與注釋[D]. 劉峰.中國人民解放軍軍事醫(yī)學(xué)科學(xué)院 2016
[2]生物序列相似性比較算法的研究[D]. 李昭.中國科學(xué)院研究生院(計算技術(shù)研究所) 2002
本文編號:2908001
【文章來源】:國防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2基因組片段??基因編碼區(qū)的功能片段可分為兩類:順式作用元件和反式作用因子
CCCCGCCGTGCAT??mouse?TTTGGCTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??rat?TTTGGGTTTCGCAAATAGGGCATCCACAATAAC?C?^GTGTGTCACTAACCCCGCCGTGCAT??\?dog?TTTGGGTTTCGCAAATAGGGCATCGACAATAAC?A?^GTGTGGCACTAACCCTGCCGTGCAT??Multiple?alignment??圖1.3序列比對??序列比對是一種經(jīng)過在.序列中插入間隔,讓相同或相似的子序列處于相同的??位置,以找到最優(yōu)相似度序列排列的方怯【14]。比對中插入到序列的間隔字符一般??用符號表示。在一個比對中,若序列所屬的生物體共享同f?zhèn)祖先,那么不??匹配的堿基可以被解釋為突變,間隔被解釋為丟失。序列比對是識別相似區(qū)域的基??第3貞??
國防科技大學(xué)研究生院碩學(xué)位論文??本過程,其中相似的序列片段可能關(guān)乎與多序列間的功能關(guān)系、結(jié)構(gòu)關(guān)系或進(jìn)化關(guān)??系。依據(jù)待比對的.序列數(shù),.序列比對問題可分為雙序列比對(pairwise?alignment)??和推廣到多條摩列的多摩列比對(multiple?sequence?alignment,?MSA)。圖1.3是雙??序列比對和多摩列比對的取倉圈.。??序列_的匹_配鷹可以通過SPS?(Sum-of-Pairs?Score)指標(biāo)來衡藎無論是.原始序??列間匹配度還是通過比對所提高的序列間匹配度都可以使用SPS分?jǐn)?shù)來嫌化。SPS??分?jǐn)?shù)度量的是兩條或多條序列中可以完全匹配的位置所占的比例。具體的SPS分??數(shù)計算公共可參考本文的2.3.2小節(jié)。根據(jù)SPS分?jǐn)?shù)的定義,SPS值越高代表序列??間匹配度越高_若SPS分?jǐn)?shù)屬于比對后的結(jié)果序列,則該值越大代表序列比對獲??得的相似度越高,結(jié)果越接近最優(yōu)比對結(jié)果。??在雙序列比對算法中.,最經(jīng)典的莫過于Needleman-Wunsch算法[iNeedleman-??Wimsch算法本質(zhì)上是一種動態(tài)規(guī)劃算法,它的主要思想是將原始的整條序列比對??問題劃分為各個字符的比對問題,根據(jù)子問題之間的關(guān)系按照順序求解它們的最??優(yōu)解,最終通過商溯得到原始問題的最優(yōu)比對結(jié)果。這種動態(tài)的過程可以存儲在二??維矩陣中,稱為計分矩陣,如圖1.4為序列”ATTGAC”和序列”AGCTGAC”的計分??矩陣.6為衡量舄部單字符的比對可構(gòu)建分?jǐn)?shù)pseciT^,假設(shè)pscwe?(x,?X)=??1,P^<pre(Sx)?=?PsrareO,—)?=?—I,?=?_2。計分矩陣起始位置上的值??初fe化為_
【參考文獻(xiàn)】:
期刊論文
[1]VCSRA: A fast and accurate multiple sequence alignment algorithm with a high degree of parallelism[J]. Dong Dong,Wenhe Su,Wenqiang Shi,Quan Zou,Shaoliang Peng. Journal of Genetics and Genomics. 2018(07)
[2]生物信息學(xué)研究現(xiàn)狀及發(fā)展趨勢[J]. 趙屹,谷瑞升,杜生明. 醫(yī)學(xué)信息學(xué)雜志. 2012(05)
[3]多序列比對算法的研究進(jìn)展[J]. 鄒權(quán),郭茂祖,韓英鵬,李文濱. 生物信息學(xué). 2010(04)
[4]一種多序列比對分治算法DCA-ClustalW[J]. 業(yè)寧,張倩倩,許翠云. 計算機(jī)與數(shù)字工程. 2010(11)
[5]DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J]. 解增言,林俊華,譚軍,舒坤賢. 生物技術(shù)通報. 2010(08)
[6]基于關(guān)鍵字樹的DNA多序列星比對算法[J]. 鄒權(quán),郭茂祖,王曉凱,張濤濤. 電子學(xué)報. 2009(08)
[7]DNA序列數(shù)據(jù)挖掘技術(shù)[J]. 朱揚勇,熊赟. 軟件學(xué)報. 2007(11)
[8]一種基于動態(tài)規(guī)劃的全局雙序列比對優(yōu)化算法[J]. 李鎳嵐,李其申,張永. 電腦知識與技術(shù)(學(xué)術(shù)交流). 2007(06)
[9]數(shù)據(jù)挖掘綜述[J]. 王光宏,蔣平. 同濟(jì)大學(xué)學(xué)報(自然科學(xué)版). 2004(02)
[10]人類基因組計劃與后基因組時代[J]. 駱建新,鄭崛村,馬用信,張思仲. 中國生物工程雜志. 2003(11)
博士論文
[1]基于深度學(xué)習(xí)的基因組功能元件的識別與注釋[D]. 劉峰.中國人民解放軍軍事醫(yī)學(xué)科學(xué)院 2016
[2]生物序列相似性比較算法的研究[D]. 李昭.中國科學(xué)院研究生院(計算技術(shù)研究所) 2002
本文編號:2908001
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2908001.html
最近更新
教材專著