基于詞向量的流感病毒宿主預(yù)測(cè)和病毒序列鑒定
發(fā)布時(shí)間:2021-07-26 18:54
近年來(lái),新發(fā)突發(fā)傳染病對(duì)于人類社會(huì)的威脅越來(lái)越大。隨著基因組學(xué)技術(shù),信息技術(shù),人工智能的迅速發(fā)展,融合多個(gè)學(xué)科的生物信息學(xué)方法和技術(shù)在傳染病防控領(lǐng)域發(fā)揮著越來(lái)越重要的作用。本文通過(guò)對(duì)自然語(yǔ)言和生物序列的類比,將自然語(yǔ)言處理中的詞向量表示法應(yīng)用于生物序列的特征提取和表示,繼而基于生物序列的詞向量表示,研究了 A型流感病毒的宿主預(yù)測(cè)以及病毒序列的鑒定。本文的主要工作如下:(1)提出了一種基于詞向量的A型流感病毒宿主預(yù)測(cè)的計(jì)算方法。流感病毒不僅對(duì)人類健康造成極大威脅,而且給人類社會(huì)造成了巨大的經(jīng)濟(jì)損失?焖俅_定流感病毒的宿主將有助于評(píng)估新發(fā)突發(fā)流感病毒的潛在風(fēng)險(xiǎn)。本工作通過(guò)類比自然語(yǔ)言與生物序列,將自然語(yǔ)言處理中的詞向量方法應(yīng)用于A型流感病毒宿主預(yù)測(cè)。具體來(lái)說(shuō),本文采取一種簡(jiǎn)單的生物序列分詞方法,將A型流感病毒的DNA序列和蛋白質(zhì)序列使用自然語(yǔ)言處理工具word2vec表示成實(shí)值向量,進(jìn)而基于這些序列的特征向量表示,構(gòu)建分類模型預(yù)測(cè)A型流感病毒的禽、人、豬三類宿主。實(shí)驗(yàn)結(jié)果表明,該計(jì)算方法對(duì)A型流感病毒宿主預(yù)測(cè)有很好的效果,其中,建立在表面蛋白HA和NA(或它們的基因)上的模型效果要優(yōu)于建立...
【文章來(lái)源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:94 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1氨基酸通式??表2.3標(biāo)準(zhǔn)基酸中英文及
酸?Threonine?Thr酸?Valine?Val酸?Tryptophan?Trp酸?Tyrosine?Tyr結(jié)構(gòu)上,蛋白質(zhì)其實(shí)就是一條氨基酸鏈,氨基酸鏈又被成鏈上任意兩個(gè)氨基酸之間通過(guò)肽鍵相連接,肽鍵是通過(guò)一一個(gè)氨基酸上的羧基脫水縮合形成的。蛋白質(zhì)的形成過(guò)程經(jīng)過(guò)脫水縮合形成一條長(zhǎng)的多肽鏈,多肽鏈再經(jīng)過(guò)盤曲折如下圖2.2所示。蛋白質(zhì)序列,又被成為蛋白質(zhì)的一級(jí)結(jié)白質(zhì)分子中的氨基酸的排列順序,例如GIVEQCCASVCSL蛋白質(zhì)序列。每一條蛋白質(zhì)序列都有一個(gè)確定并且唯一的酸的排列順序的形成服從分子生物學(xué)中心法則(見圖2.3)DNA中,DNA的核苷酸的排列順序確定轉(zhuǎn)錄時(shí)與其互補(bǔ)列順序,而RNA的核苷酸的排列順序確定蛋白質(zhì)序列中?3〇H,0
?(2.9)??輸出層有|f"|個(gè)節(jié)點(diǎn),U是輸出層的權(quán)重,d是輸出層的偏移量,W是從輸入??層直接到輸出層的權(quán)重,它是一個(gè)|F|x(?-l)/w的矩陣,它對(duì)應(yīng)圖2.4中綠色虛線??表示的從輸入層到輸出層直接相連的邊,當(dāng)沒有這些直接相連的邊時(shí)W是一個(gè)零??矩陣。根據(jù)作者Bengio兄Ducharme?R,Vincent?P等人在文中的闡述[38],增加從輸??入層到輸出層直接相連的邊,可以較少模型的迭代次數(shù),但會(huì)影響最終模型的性??能。對(duì)于輸出層有:??y?=?Wx+Uz+b? ̄?Wx+U?ta.vih{Hx+d)?+?b?(2.10)??神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的目標(biāo)是要根據(jù)詞%的前n-1個(gè)詞預(yù)測(cè)詞?出現(xiàn)的概率。??20??
【參考文獻(xiàn)】:
期刊論文
[1]感染性疾病的病理學(xué)診斷[J]. 劉德純. 臨床與實(shí)驗(yàn)病理學(xué)雜志. 2014(07)
[2]病毒宏基因組學(xué)在動(dòng)物病毒研究中的應(yīng)用及研究進(jìn)展[J]. 廖勤豐,李文娟,向幫全. 湖北畜牧獸醫(yī). 2014(04)
[3]病毒宏基因組學(xué)在醫(yī)學(xué)領(lǐng)域的應(yīng)用[J]. 范勝濤,高玉偉,夏咸柱. 中國(guó)生物制品學(xué)雜志. 2014(02)
[4]新病毒鑒定的分子生物學(xué)技術(shù)[J]. 孫玉蘭,李德新. 病毒學(xué)報(bào). 2011(02)
[5]1957年流感大流行的流行病學(xué)概述[J]. 隋竑弢,楊麗梅,王偉,辛麗,董麗波,黃維娟,隗合江,徐翠玲,郭元吉,李德新,舒躍龍. 病毒學(xué)報(bào). 2009(S1)
[6]宏基因組學(xué)及其技術(shù)的研究進(jìn)展[J]. 楚雍烈,楊娥. 西安交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2008(06)
[7]淺析我國(guó)禽流感疫情對(duì)家禽業(yè)的影響及建議[J]. 蔣芳. 中國(guó)畜牧雜志. 2006(10)
本文編號(hào):3304155
【文章來(lái)源】:湖南大學(xué)湖南省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:94 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1氨基酸通式??表2.3標(biāo)準(zhǔn)基酸中英文及
酸?Threonine?Thr酸?Valine?Val酸?Tryptophan?Trp酸?Tyrosine?Tyr結(jié)構(gòu)上,蛋白質(zhì)其實(shí)就是一條氨基酸鏈,氨基酸鏈又被成鏈上任意兩個(gè)氨基酸之間通過(guò)肽鍵相連接,肽鍵是通過(guò)一一個(gè)氨基酸上的羧基脫水縮合形成的。蛋白質(zhì)的形成過(guò)程經(jīng)過(guò)脫水縮合形成一條長(zhǎng)的多肽鏈,多肽鏈再經(jīng)過(guò)盤曲折如下圖2.2所示。蛋白質(zhì)序列,又被成為蛋白質(zhì)的一級(jí)結(jié)白質(zhì)分子中的氨基酸的排列順序,例如GIVEQCCASVCSL蛋白質(zhì)序列。每一條蛋白質(zhì)序列都有一個(gè)確定并且唯一的酸的排列順序的形成服從分子生物學(xué)中心法則(見圖2.3)DNA中,DNA的核苷酸的排列順序確定轉(zhuǎn)錄時(shí)與其互補(bǔ)列順序,而RNA的核苷酸的排列順序確定蛋白質(zhì)序列中?3〇H,0
?(2.9)??輸出層有|f"|個(gè)節(jié)點(diǎn),U是輸出層的權(quán)重,d是輸出層的偏移量,W是從輸入??層直接到輸出層的權(quán)重,它是一個(gè)|F|x(?-l)/w的矩陣,它對(duì)應(yīng)圖2.4中綠色虛線??表示的從輸入層到輸出層直接相連的邊,當(dāng)沒有這些直接相連的邊時(shí)W是一個(gè)零??矩陣。根據(jù)作者Bengio兄Ducharme?R,Vincent?P等人在文中的闡述[38],增加從輸??入層到輸出層直接相連的邊,可以較少模型的迭代次數(shù),但會(huì)影響最終模型的性??能。對(duì)于輸出層有:??y?=?Wx+Uz+b? ̄?Wx+U?ta.vih{Hx+d)?+?b?(2.10)??神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的目標(biāo)是要根據(jù)詞%的前n-1個(gè)詞預(yù)測(cè)詞?出現(xiàn)的概率。??20??
【參考文獻(xiàn)】:
期刊論文
[1]感染性疾病的病理學(xué)診斷[J]. 劉德純. 臨床與實(shí)驗(yàn)病理學(xué)雜志. 2014(07)
[2]病毒宏基因組學(xué)在動(dòng)物病毒研究中的應(yīng)用及研究進(jìn)展[J]. 廖勤豐,李文娟,向幫全. 湖北畜牧獸醫(yī). 2014(04)
[3]病毒宏基因組學(xué)在醫(yī)學(xué)領(lǐng)域的應(yīng)用[J]. 范勝濤,高玉偉,夏咸柱. 中國(guó)生物制品學(xué)雜志. 2014(02)
[4]新病毒鑒定的分子生物學(xué)技術(shù)[J]. 孫玉蘭,李德新. 病毒學(xué)報(bào). 2011(02)
[5]1957年流感大流行的流行病學(xué)概述[J]. 隋竑弢,楊麗梅,王偉,辛麗,董麗波,黃維娟,隗合江,徐翠玲,郭元吉,李德新,舒躍龍. 病毒學(xué)報(bào). 2009(S1)
[6]宏基因組學(xué)及其技術(shù)的研究進(jìn)展[J]. 楚雍烈,楊娥. 西安交通大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2008(06)
[7]淺析我國(guó)禽流感疫情對(duì)家禽業(yè)的影響及建議[J]. 蔣芳. 中國(guó)畜牧雜志. 2006(10)
本文編號(hào):3304155
本文鏈接:http://sikaile.net/xiyixuelunwen/3304155.html
最近更新
教材專著