天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于集成學習的酰胺化位點預測

發(fā)布時間:2021-08-29 10:58
  在蛋白質(zhì)合成后,許多神經(jīng)肽和肽激素需要將其羧基末端酰胺化來獲得完整的生物活性,酰胺化在生物各種病理過程起著十分重要的作用,所以對其研究具有重要意義。用傳統(tǒng)生物實驗方法如生物質(zhì)譜技術(shù)等進行研究有著勞動密集、需要時間長和成本高等缺點,而常見的機器學習算法對于特征空間的擬合不是特別完美,所以本文提出了一種集成學習算法來實現(xiàn)對酰胺化位點研究效果的提高,該方法相比之前的方法有了不錯的提高。在本文中,提出了一種集成學習算法,stacking算法來進行實驗。將高質(zhì)量指數(shù)、氨基酸位置特異性傾向、K間隔氨基酸對相關(guān)性三種特征提取方法獲得的特征相結(jié)合,經(jīng)過特征選擇后分別訓練支持向量機、決策樹、樸素貝葉斯模型,用改進的K間隔氨基酸組成、氨基酸因子兩類特征經(jīng)過特征選擇后分別訓練相應最優(yōu)支持向量機模型,經(jīng)過上述實驗后一共獲得五個模型,使用stacking算法將這五個模型作為基模型,利用五折交叉驗證獲得5維的特征來訓練一個邏輯回歸模型。最終得到了一個具有不錯泛化能力的模型。該方法不但能夠?qū)⒍囝愄卣餍畔⑹褂玫?而且還通過不同類型的分類算法,將不同分類器誤分類的特征空間通過其他分類器進行修正,最終獲得最好的效果。最后... 

【文章來源】:天津大學天津市 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:49 頁

【學位級別】:碩士

【部分圖文】:

基于集成學習的酰胺化位點預測


酰胺化的機理

模型圖,決策樹,模型,信息增益


天津大學碩士學位論文102.2.2決策樹決策樹[23]是一種常見的基本分類和回歸算法,而在本文中使用決策樹方法是用來解決分類問題的。決策樹模型是一種樹形結(jié)構(gòu),由節(jié)點和有向邊組成,其中節(jié)點又分兩種,一種是內(nèi)部節(jié)點,代表某一種特征;另外一種葉節(jié)點,表示類標簽,即屬于哪一類,如圖2-2所示。決策樹的核心思想是對于給定訓練數(shù)據(jù)集,尋找出一組分類規(guī)則,從而構(gòu)建一個決策樹,而決策樹可能存在也可能不存在,但最終的目標是構(gòu)造一個與訓練數(shù)據(jù)集沖突最小的決策樹。它的優(yōu)點是易于理解,分類速度相對于其他分類算法要顯得更快。構(gòu)建決策樹模型通常分為三個步驟:第一步:特征選擇[24],在進行分類的時候,往往利用特征進行分類,而數(shù)據(jù)集的有些特征是無用的,利用該特征進行分類的時候效果和隨機分類差不多,所以選擇合適的特征是非常有必要的,而在決策樹算法中特征選擇通常采用信息增益或者信息增益比。信息增益的計算公式如下所示|,XDHDHXDg(2-11)其中DH表示數(shù)據(jù)集的經(jīng)驗熵,XDH|表示特征X給定條件下D的經(jīng)驗條件熵。通常情況下,特征信息增益越大,表示該特征分類能力越強。在決策樹中,基于信息增益的特征選擇方法是指在構(gòu)建決策樹的過程中每次選擇信息增益最大的特征,然后逐步生成決策樹。信息增益比,利用信息增益作為劃分訓練數(shù)據(jù)集特征的準則會存在一個缺點,那就是傾向于選擇取值比較多的特征。為了解決這個問題,于是提出了信息增益比這個概念。特征X的信息增益比計算方式是它的信息增益和特征X的熵的比,即DHADgADgAR,,(2-12)圖2-2決策樹模型

函數(shù)圖像,函數(shù)圖像


第2章關(guān)鍵技術(shù)介紹13圖2-3S函數(shù)圖像在確定了邏輯回歸分類模型的函數(shù)形式后,需要求解最佳回歸系數(shù),通常采用的方法是數(shù)學問題中常用的最優(yōu)化方法,其中包括梯度上升法和隨機梯度上升法。邏輯回歸分類算法的優(yōu)點是實現(xiàn)比較簡單,在實際應用中受到廣泛使用,尤其在工業(yè)問題上更加受歡迎;而且運行速度快,很適用于二分類問題,在實現(xiàn)過程中能計算出各個特征的權(quán)重,方便對于特征重要性判斷。缺點是當特征空間比較大的時候,模型的性能會比較低,而且邏輯回歸常會出現(xiàn)欠擬合現(xiàn)象,精確度不是特別的高。2.2.5集成學習集成學習是當前比較熱門的機器學習方法,它通過多個機器學習器來完成對訓練數(shù)據(jù)集的學習。集成學習的核心思想在于通過學習多個機器學習器,將多個學習器用一定的策略相結(jié)合,最終形成一個學習能力更強的學習器。目前,集成學習廣泛用于分類問題集成,回歸問題集成,特征選取集成等。常見的集成學習方法有boosting,bagging,stacking算法,而在本文中使用的是stacking算法[28]。Stacking算法是通過組合多個機器學習模型從而獲得一個更好的模型,核心思想并不復雜,它通常分為兩層,第一層利用訓練數(shù)據(jù)集訓練多個不同的機器學習模型,這些學習器又被稱為base-classifier;然后將第一層的各個base-classifier的輸出作為第二層的輸入來訓練一個模型,這個模型通過學習第一層的多個模型,從而大大提高模型的效果,第二層這一個模型通常稱為meta-classifier,而這個組合模型常常采用的是邏輯回歸算法。整個框架雖然看起來比較簡單,但靈


本文編號:3370525

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3370525.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶69e2e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com