基于終身機器學習的蛋白質分類問題研究
發(fā)布時間:2024-04-08 01:00
生物信息學滲透著生命科學的方方面面,如何利用計算機快速針對蛋白質進行分類一直以來都是計算機科學和生物信息學的熱點研究問題。另外,對于蛋白質分類問題,如何進行有效地增量學習一直以來是研究的空缺,同時這也是終身機器學習算法的一個難點。本文基于終身機器學習的思想,針對蛋白質家族數據構建了兩個可以進行有效增量學習的多分類模型,該模型擴展了終身機器學習的應用領域,為生物信息學中多分類問題的研究提供了新的思路。本文的主要研究內容和貢獻如下:1.數據方面,本文針對PFam數據庫中的蛋白質家族數據進行歸類,為終身機器學習模型的研究提供了一個具有標注嚴格,去除冗余的蛋白質家族數據集。該數據集由于具有大量任務并且每個單獨任務數據樣本較少,十分適合進行終身機器學習模型以及任務關聯(lián)發(fā)現(xiàn)的研究。并且本文利用多種方法分別從計算機以及生物學的角度構建氨基酸序列特征,該特征在本文提出的兩種模型上均取得了很好的分類效果。2.算法方面,本文根據是否保留歷史任務的訓練數據分別設計了兩種終身機器學習方法。本文通過對SVM多分類模型進行拆分,使其在子任務上可以選擇更加合適的特征子空間,在保留歷史任務訓練數據的情況下可以進行有效...
【文章頁數】:84 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3948252
【文章頁數】:84 頁
【學位級別】:碩士
【部分圖文】:
圖2-1自編碼器結構
對于數據模型的評估一般有三種方法,最簡單的方式是把整個數據集分成訓練集,交叉驗證集和測試集,數據在訓練集上進行訓練,交叉驗證集用來對訓練時候的參數進行評估,最后在測試集上驗證最終效果。這樣的評估會由于交叉驗證集和測試集的數據始終參與不到訓練的過程中,因此具有一定的缺陷型,另外一種....
圖3-1基于SVM的蛋白質家族分類流程圖
蛋白質家族分類問題是一個多分類問題,本章并沒有采用傳統(tǒng)的多分類算法,而采用了SVM算法投票的方式進行多分類,這主要有以下兩個原因。第一,本文提出的算法不僅僅追求最終多分類較好的效果,還希望模型能夠較好的支持增量學習,即在花費較小代價的情況下能夠進行增量訓練從而支持更多類別的分類。....
圖3-2序列長度分布
蛋白質中氨基酸序列的長度并不固定,然而機器學習模型要求樣本表示為固定長度的向量,從字母序列到輸入模型代表其特征的向量的過程就叫做特征工程。特征工程包括特征構建,特征融合以及特征選擇。從字母序列中構建固定長度的向量特征的過程叫做特征構建,將不同種特征進行結合從而抓住更多維度上信息的....
圖3-3氨基酸出現(xiàn)次數
每條氨基酸序列的氨基酸組成特征按照圖3-4構建,氨基酸組成特征構建方法將不固定長度的氨基酸序列轉變?yōu)橐粋長度為20維的向量FACC,向量中的每一個維度就代表這一個氨基酸在該序列中出現(xiàn)的頻率,氨基酸組成特征氨基酸序列最基礎也是最常用的特征,不同種類的蛋白質中含有的各種氨基酸的比例對....
本文編號:3948252
本文鏈接:http://sikaile.net/projectlw/swxlw/3948252.html