天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

基于多核學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究與應(yīng)用

發(fā)布時(shí)間:2020-10-17 09:09
   蛋白質(zhì)是地球上生物體的必要組成成分,針對蛋白質(zhì)的功能預(yù)測已成為生物蛋白領(lǐng)域的一個(gè)研究熱點(diǎn)。嗜熱蛋白質(zhì)可作極端環(huán)境下的生物催化劑,有著加速化學(xué)反應(yīng)、降低工業(yè)制造成本、減少能源消耗等優(yōu)點(diǎn),因此針對嗜熱蛋白質(zhì)的有效功能預(yù)測在各類制造業(yè)中有著極為重要的作用。隨著人類基因組計(jì)劃的推進(jìn)和實(shí)施,越來越多的蛋白質(zhì)序列被測定,傳統(tǒng)的蛋白質(zhì)功能識別方法因其耗時(shí)長、效率低等缺點(diǎn)已無法滿足需求,開發(fā)實(shí)時(shí)有效的蛋白質(zhì)功能預(yù)測方法迫在眉睫。機(jī)器學(xué)習(xí)算法的興起和計(jì)算機(jī)計(jì)算能力的增強(qiáng),為海量數(shù)據(jù)的信息挖掘提供了便利。本文主要研究了多核學(xué)習(xí)算法在蛋白質(zhì)序列功能預(yù)測中的應(yīng)用,具體研究內(nèi)容如下:1)為了更好地表示蛋白質(zhì),本文提出了一種新的基于word2vec的特征提取方法。該方法將蛋白質(zhì)序列看作一個(gè)文本句子,將二肽看作一個(gè)詞語,使用word2vec算法將每個(gè)二肽轉(zhuǎn)化為詞向量表示,然后依據(jù)蛋白質(zhì)序列中出現(xiàn)二肽對應(yīng)的詞向量得到序列的向量表示。實(shí)驗(yàn)結(jié)果表明,該方法可提升模型預(yù)測準(zhǔn)確率。2)多核學(xué)習(xí)方法第一步是選取基礎(chǔ)核函數(shù),包括核函數(shù)個(gè)數(shù)、類別及其內(nèi)部參數(shù),由于常規(guī)方法盲目且耗時(shí)耗力,本文提出了基于貪心算法的核函數(shù)選擇方法。該方法考慮特征向量主要源于不同的特征提取方法,故首先將特征提取方法個(gè)數(shù)作為核函數(shù)個(gè)數(shù),然后針對特征向量中不同特征提取方法對應(yīng)的特征組,使用貪心算法選出最佳核函數(shù),從而得到基礎(chǔ)核函數(shù)的選擇結(jié)果。3)本文提出了基于多核學(xué)習(xí)的蛋白質(zhì)序列分類模型。相對于其它方法,多核學(xué)習(xí)方法具有更高的靈活性。本文首先使用基于貪心算法的核函數(shù)選擇方法完成基礎(chǔ)核函數(shù)的選擇,然后使用簡單多核學(xué)習(xí)算法學(xué)習(xí)最佳組合核函數(shù),最后使用最佳組合核作為核函數(shù)的SVM算法訓(xùn)練分類模型。實(shí)驗(yàn)結(jié)果表明,該模型能夠很好地識別出嗜熱蛋白質(zhì),在本文使用的嗜熱蛋白質(zhì)序列數(shù)據(jù)集上,10折交叉驗(yàn)證的結(jié)果為:準(zhǔn)確率94.72%,嗜熱蛋白質(zhì)的召回率為94.84%,MCC值0.8939,ROCAUC值0.9859,優(yōu)于其它機(jī)器學(xué)習(xí)方法和已有方法。4)開發(fā)了針對嗜熱蛋白質(zhì)序列預(yù)測的web服務(wù),便于其他相關(guān)研究者使用本文提出的模型。
【學(xué)位單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:Q51;TP181
【部分圖文】:

蛋白質(zhì),結(jié)構(gòu)示意圖,氨基酸,氨基


圖 2-1 蛋白質(zhì)四種結(jié)構(gòu)示意圖2.1.2 氨基酸相關(guān)介紹蛋白質(zhì)結(jié)構(gòu)與其功能之間的關(guān)系密不可分,而一級結(jié)構(gòu)是其它高級結(jié)構(gòu)的礎(chǔ),又有著直觀、簡單且易于獲取和預(yù)測等優(yōu)點(diǎn),故本文主要使用蛋白質(zhì)的一級構(gòu)對蛋白質(zhì)進(jìn)行功能預(yù)測。當(dāng)今自然界中發(fā)現(xiàn)的氨基酸約有 300 多種,但在基翻譯中,由于部分密碼子是冗余的,參與蛋白質(zhì)合成的標(biāo)準(zhǔn)氨基酸只有 20 種;崾巧飳W(xué)上重要的有機(jī)化合物之一,每個(gè)氨基酸都由中心碳原子、氫原子、基、氨基和側(cè)鏈 R 基(又稱為側(cè)鏈基團(tuán))共同組成,具體的氨基酸分子的結(jié)構(gòu)式如圖 2-2 所示,不同種類氨基酸之間主要的區(qū)別就是側(cè)鏈 R 基之間的差異,鏈 R 基往往決定著氨基酸的種類和各種理化性質(zhì)。在生物學(xué)中,通常每種氨基都用與其對應(yīng)的英文大寫字母表示,如表 2-1 即為 20 種標(biāo)準(zhǔn)氨基酸及其對應(yīng)的文字母簡稱。不同氨基酸分子之間是由其氨基和羧基相連脫去一個(gè)水分子進(jìn)行接的,其中連接的化學(xué)鍵稱為肽鍵。通常所說的二肽指的是兩個(gè)氨基酸脫水縮合

示意圖,氨基酸分,通式,子結(jié)構(gòu)


酸相關(guān)介紹構(gòu)與其功能之間的關(guān)系密不可分,而一級結(jié)構(gòu)是其它觀、簡單且易于獲取和預(yù)測等優(yōu)點(diǎn),故本文主要使用蛋行功能預(yù)測。當(dāng)今自然界中發(fā)現(xiàn)的氨基酸約有 300 多部分密碼子是冗余的,參與蛋白質(zhì)合成的標(biāo)準(zhǔn)氨基酸上重要的有機(jī)化合物之一,每個(gè)氨基酸都由中心碳原子鏈 R 基(又稱為側(cè)鏈基團(tuán))共同組成,具體的氨基酸示,不同種類氨基酸之間主要的區(qū)別就是側(cè)鏈 R 基之決定著氨基酸的種類和各種理化性質(zhì)。在生物學(xué)中,通的英文大寫字母表示,如表 2-1 即為 20 種標(biāo)準(zhǔn)氨基酸不同氨基酸分子之間是由其氨基和羧基相連脫去一個(gè)接的化學(xué)鍵稱為肽鍵。通常所說的二肽指的是兩個(gè)氨基更廣泛的定義是指由兩個(gè)氨基酸和一個(gè)肽鍵組成的多肽物理位置上相鄰。

示意圖,模型結(jié)構(gòu),目標(biāo)詞,示意圖


電子科技大學(xué)碩士學(xué)位論文目標(biāo)詞的前面兩個(gè)詞和后面兩個(gè)詞的初始詞向量表示(通常為 One-hot 表ction 投影層為神經(jīng)網(wǎng)絡(luò)的隱層,與輸入層的連接方式為全連接,outpu要是對目標(biāo)詞的預(yù)測;圖中右側(cè)為 skip-gram 模型,input 輸入層為目標(biāo)詞始詞向量表示,projection 投影層為神經(jīng)網(wǎng)絡(luò)的隱層,與輸入層的連接方接,output 輸出層主要是對目標(biāo)詞上下文信息的預(yù)測,主要預(yù)測目標(biāo)詞的詞和后面兩個(gè)詞。
【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 蔣英芝;賀連華;劉建軍;;蛋白質(zhì)功能研究方法及技術(shù)[J];生物技術(shù)通報(bào);2009年09期


相關(guān)碩士學(xué)位論文 前1條

1 邵麗芬;基于深度學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究與應(yīng)用[D];電子科技大學(xué);2018年



本文編號:2844583

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/2844583.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9010b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com