基于W-GDipC和LRMR-Ri方法的抗凍蛋白預測研究
發(fā)布時間:2020-05-16 16:52
【摘要】:抗凍蛋白在多個領域都具有廣闊的應用前景。隨著后基因組時代的到來,各種數(shù)據(jù)庫收錄的蛋白質序列數(shù)據(jù)日趨完善,促進了生物信息學的發(fā)展。當前,許多研究小組致力于研究生物序列提取算法、特征選擇以及分類算法的研究,并成功將其應用蛋白質結構和功能譜的分類和預測中,但在抗凍蛋白領域鮮有研究;诖,本文主要針對抗凍蛋白的特征表達方式以及特征選擇方法進行了深入的研究,并從多方面進行試驗加以論證。本文的主要工作總結如下:第一,針對抗凍蛋白的特征表達。首先,本文基于所選背景抗凍蛋白序列的研究,提出了一種改進的序列特征提取方法即加權廣義二肽組成(W-GDipC),該方法通過線性加權融合兩種特征表達-廣義二肽組成(GDipC)和二肽組成(DipC)。再次,本文還對加權融合表達式中的融合系數(shù)展開了討論,融合系數(shù)范圍在0-1之間,每次增加十個百分點。最后,本文通過五折交叉驗證分別構建了具有不同特征的支持向量機(SVM)和決策樹(DT)以及隨機梯度下降(SGD)分類器與加權廣義二肽組成(W-GDipC)特征提取方法進行對比實驗論證。第二,針對抗凍蛋白的特征選擇。首先,本文引入機器學習方法中四種常用的特征選擇算法套索回歸(Lasso),嶺回歸(Ridge),互信息和最大信息系數(shù)(Mic)和過濾式選擇(Relief),分別對高維抗凍蛋白特征表達進行處理。其次,本文進一步提出了基于嶺回歸的集成特征選擇(LRMR-Ri)方法。最后,本文將改進的特征選擇方法與原始特征選擇方法分別在抗凍蛋白數(shù)據(jù)集(二分類)上與膜蛋白數(shù)據(jù)集(多分類)使用不同的分類算法進行了實驗,并基于五種評價指標通過五折交叉檢驗客觀驗證該方法的有效性。最終的實驗結果表明,我們所提的加權廣義二肽組成方法不僅能夠保留兩種單一特征的重要特性,而且又豐富了抗凍蛋白序列的特征表達。其次,本文所提的基于嶺回歸的集成特征選擇方法能夠在一定程度上避免產(chǎn)生局部最優(yōu)或次最優(yōu)特征子集,更大程度地篩除冗余特征,提煉出更有效的抗凍蛋白特征子集。
【圖文】:
圖2.邋1:二肽組成與廣義二肽組成匹配規(guī)則示意圖逡逑其中/丨,r2,r3,,…,為抗凍蛋白序列,A表示兩個殘基之間的等長間隔。逡逑廣義二肽組成(GDipC)中等長間距殘基對的數(shù)學表達式為:逡逑
時也避免了使用單一的廣義二肽組成(GDipC)提取方法和二肽組成(DipC)提取逡逑方法導致局部數(shù)據(jù)稀疏,從而達到使現(xiàn)有特征數(shù)據(jù)更具完整性和簡潔性的目的[M]。逡逑具體融合實驗流程如圖3.邋1所示。逡逑[抗凍蛋白序列]邐邐邋邐邐逡逑、邐邐^邐支持向雖機邐決策樹邐隨機悌度下降逡逑T邐邐;;邐;;邐邐逡逑zum邐廣義二》;組成邋邐?!邐分類逡逑I邐^邐1逡逑加權廣義二AFP邐Non-AFP逡逑1邐邋^—邋邋^邋^逡逑圖3.1:抗凍蛋白(AFP)預測模型構建流程圖逡逑20逡逑
【學位授予單位】:云南大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:Q51
本文編號:2667037
【圖文】:
圖2.邋1:二肽組成與廣義二肽組成匹配規(guī)則示意圖逡逑其中/丨,r2,r3,,…,為抗凍蛋白序列,A表示兩個殘基之間的等長間隔。逡逑廣義二肽組成(GDipC)中等長間距殘基對的數(shù)學表達式為:逡逑
時也避免了使用單一的廣義二肽組成(GDipC)提取方法和二肽組成(DipC)提取逡逑方法導致局部數(shù)據(jù)稀疏,從而達到使現(xiàn)有特征數(shù)據(jù)更具完整性和簡潔性的目的[M]。逡逑具體融合實驗流程如圖3.邋1所示。逡逑[抗凍蛋白序列]邐邐邋邐邐逡逑、邐邐^邐支持向雖機邐決策樹邐隨機悌度下降逡逑T邐邐;;邐;;邐邐逡逑zum邐廣義二》;組成邋邐?!邐分類逡逑I邐^邐1逡逑加權廣義二AFP邐Non-AFP逡逑1邐邋^—邋邋^邋^逡逑圖3.1:抗凍蛋白(AFP)預測模型構建流程圖逡逑20逡逑
【學位授予單位】:云南大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:Q51
【參考文獻】
相關博士學位論文 前1條
1 王彤;高維生物數(shù)據(jù)的分類與預測研究[D];上海交通大學;2009年
本文編號:2667037
本文鏈接:http://sikaile.net/projectlw/swxlw/2667037.html
最近更新
教材專著