基于終身機器學習的蛋白質分類問題研究

發(fā)布時間：2024-04-08 01:00

　　生物信息學滲透著生命科學的方方面面,如何利用計算機快速針對蛋白質進行分類一直以來都是計算機科學和生物信息學的熱點研究問題。另外,對于蛋白質分類問題,如何進行有效地增量學習一直以來是研究的空缺,同時這也是終身機器學習算法的一個難點。本文基于終身機器學習的思想,針對蛋白質家族數據構建了兩個可以進行有效增量學習的多分類模型,該模型擴展了終身機器學習的應用領域,為生物信息學中多分類問題的研究提供了新的思路。本文的主要研究內容和貢獻如下:1.數據方面,本文針對PFam數據庫中的蛋白質家族數據進行歸類,為終身機器學習模型的研究提供了一個具有標注嚴格,去除冗余的蛋白質家族數據集。該數據集由于具有大量任務并且每個單獨任務數據樣本較少,十分適合進行終身機器學習模型以及任務關聯(lián)發(fā)現(xiàn)的研究。并且本文利用多種方法分別從計算機以及生物學的角度構建氨基酸序列特征,該特征在本文提出的兩種模型上均取得了很好的分類效果。2.算法方面,本文根據是否保留歷史任務的訓練數據分別設計了兩種終身機器學習方法。本文通過對SVM多分類模型進行拆分,使其在子任務上可以選擇更加合適的特征子空間,在保留歷史任務訓練數據的情況下可以進行有效...

【文章頁數】：84 頁

【學位級別】：碩士

【部分圖文】：

圖2-1自編碼器結構

對于數據模型的評估一般有三種方法,最簡單的方式是把整個數據集分成訓練集,交叉驗證集和測試集,數據在訓練集上進行訓練,交叉驗證集用來對訓練時候的參數進行評估,最后在測試集上驗證最終效果。這樣的評估會由于交叉驗證集和測試集的數據始終參與不到訓練的過程中,因此具有一定的缺陷型,另外一種....

圖3-1基于SVM的蛋白質家族分類流程圖

蛋白質家族分類問題是一個多分類問題,本章并沒有采用傳統(tǒng)的多分類算法,而采用了SVM算法投票的方式進行多分類,這主要有以下兩個原因。第一,本文提出的算法不僅僅追求最終多分類較好的效果,還希望模型能夠較好的支持增量學習,即在花費較小代價的情況下能夠進行增量訓練從而支持更多類別的分類。....

圖3-2序列長度分布

蛋白質中氨基酸序列的長度并不固定,然而機器學習模型要求樣本表示為固定長度的向量,從字母序列到輸入模型代表其特征的向量的過程就叫做特征工程。特征工程包括特征構建,特征融合以及特征選擇。從字母序列中構建固定長度的向量特征的過程叫做特征構建,將不同種特征進行結合從而抓住更多維度上信息的....

圖3-3氨基酸出現(xiàn)次數

每條氨基酸序列的氨基酸組成特征按照圖3-4構建,氨基酸組成特征構建方法將不固定長度的氨基酸序列轉變?yōu)橐粋€長度為20維的向量FACC,向量中的每一個維度就代表這一個氨基酸在該序列中出現(xiàn)的頻率,氨基酸組成特征氨基酸序列最基礎也是最常用的特征,不同種類的蛋白質中含有的各種氨基酸的比例對....

本文編號：3948252

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/projectlw/swxlw/3948252.html

上一篇：基于尼氏染色圖譜的小型嚙齒動物快速腦區(qū)定位方法
下一篇：嘉陵江中下游河岸植被及植物多樣性研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于終身機器學習的蛋白質分類問題研究