基于終身機器學習的蛋白質分類問題研究
【文章頁數(shù)】:84 頁
【學位級別】:碩士
【部分圖文】:
圖2-1自編碼器結構
對于數(shù)據(jù)模型的評估一般有三種方法,最簡單的方式是把整個數(shù)據(jù)集分成訓練集,交叉驗證集和測試集,數(shù)據(jù)在訓練集上進行訓練,交叉驗證集用來對訓練時候的參數(shù)進行評估,最后在測試集上驗證最終效果。這樣的評估會由于交叉驗證集和測試集的數(shù)據(jù)始終參與不到訓練的過程中,因此具有一定的缺陷型,另外一種....
圖3-1基于SVM的蛋白質家族分類流程圖
蛋白質家族分類問題是一個多分類問題,本章并沒有采用傳統(tǒng)的多分類算法,而采用了SVM算法投票的方式進行多分類,這主要有以下兩個原因。第一,本文提出的算法不僅僅追求最終多分類較好的效果,還希望模型能夠較好的支持增量學習,即在花費較小代價的情況下能夠進行增量訓練從而支持更多類別的分類。....
圖3-2序列長度分布
蛋白質中氨基酸序列的長度并不固定,然而機器學習模型要求樣本表示為固定長度的向量,從字母序列到輸入模型代表其特征的向量的過程就叫做特征工程。特征工程包括特征構建,特征融合以及特征選擇。從字母序列中構建固定長度的向量特征的過程叫做特征構建,將不同種特征進行結合從而抓住更多維度上信息的....
圖3-3氨基酸出現(xiàn)次數(shù)
每條氨基酸序列的氨基酸組成特征按照圖3-4構建,氨基酸組成特征構建方法將不固定長度的氨基酸序列轉變?yōu)橐粋長度為20維的向量FACC,向量中的每一個維度就代表這一個氨基酸在該序列中出現(xiàn)的頻率,氨基酸組成特征氨基酸序列最基礎也是最常用的特征,不同種類的蛋白質中含有的各種氨基酸的比例對....
本文編號:3948252
本文鏈接:http://sikaile.net/projectlw/swxlw/3948252.html