基于W-GDipC和LRMR-Ri方法的抗凍蛋白預(yù)測(cè)研究
發(fā)布時(shí)間:2020-05-16 16:52
【摘要】:抗凍蛋白在多個(gè)領(lǐng)域都具有廣闊的應(yīng)用前景。隨著后基因組時(shí)代的到來(lái),各種數(shù)據(jù)庫(kù)收錄的蛋白質(zhì)序列數(shù)據(jù)日趨完善,促進(jìn)了生物信息學(xué)的發(fā)展。當(dāng)前,許多研究小組致力于研究生物序列提取算法、特征選擇以及分類(lèi)算法的研究,并成功將其應(yīng)用蛋白質(zhì)結(jié)構(gòu)和功能譜的分類(lèi)和預(yù)測(cè)中,但在抗凍蛋白領(lǐng)域鮮有研究;诖,本文主要針對(duì)抗凍蛋白的特征表達(dá)方式以及特征選擇方法進(jìn)行了深入的研究,并從多方面進(jìn)行試驗(yàn)加以論證。本文的主要工作總結(jié)如下:第一,針對(duì)抗凍蛋白的特征表達(dá)。首先,本文基于所選背景抗凍蛋白序列的研究,提出了一種改進(jìn)的序列特征提取方法即加權(quán)廣義二肽組成(W-GDipC),該方法通過(guò)線性加權(quán)融合兩種特征表達(dá)-廣義二肽組成(GDipC)和二肽組成(DipC)。再次,本文還對(duì)加權(quán)融合表達(dá)式中的融合系數(shù)展開(kāi)了討論,融合系數(shù)范圍在0-1之間,每次增加十個(gè)百分點(diǎn)。最后,本文通過(guò)五折交叉驗(yàn)證分別構(gòu)建了具有不同特征的支持向量機(jī)(SVM)和決策樹(shù)(DT)以及隨機(jī)梯度下降(SGD)分類(lèi)器與加權(quán)廣義二肽組成(W-GDipC)特征提取方法進(jìn)行對(duì)比實(shí)驗(yàn)論證。第二,針對(duì)抗凍蛋白的特征選擇。首先,本文引入機(jī)器學(xué)習(xí)方法中四種常用的特征選擇算法套索回歸(Lasso),嶺回歸(Ridge),互信息和最大信息系數(shù)(Mic)和過(guò)濾式選擇(Relief),分別對(duì)高維抗凍蛋白特征表達(dá)進(jìn)行處理。其次,本文進(jìn)一步提出了基于嶺回歸的集成特征選擇(LRMR-Ri)方法。最后,本文將改進(jìn)的特征選擇方法與原始特征選擇方法分別在抗凍蛋白數(shù)據(jù)集(二分類(lèi))上與膜蛋白數(shù)據(jù)集(多分類(lèi))使用不同的分類(lèi)算法進(jìn)行了實(shí)驗(yàn),并基于五種評(píng)價(jià)指標(biāo)通過(guò)五折交叉檢驗(yàn)客觀驗(yàn)證該方法的有效性。最終的實(shí)驗(yàn)結(jié)果表明,我們所提的加權(quán)廣義二肽組成方法不僅能夠保留兩種單一特征的重要特性,而且又豐富了抗凍蛋白序列的特征表達(dá)。其次,本文所提的基于嶺回歸的集成特征選擇方法能夠在一定程度上避免產(chǎn)生局部最優(yōu)或次最優(yōu)特征子集,更大程度地篩除冗余特征,提煉出更有效的抗凍蛋白特征子集。
【圖文】:
圖2.邋1:二肽組成與廣義二肽組成匹配規(guī)則示意圖逡逑其中/丨,r2,r3,,…,為抗凍蛋白序列,A表示兩個(gè)殘基之間的等長(zhǎng)間隔。逡逑廣義二肽組成(GDipC)中等長(zhǎng)間距殘基對(duì)的數(shù)學(xué)表達(dá)式為:逡逑
時(shí)也避免了使用單一的廣義二肽組成(GDipC)提取方法和二肽組成(DipC)提取逡逑方法導(dǎo)致局部數(shù)據(jù)稀疏,從而達(dá)到使現(xiàn)有特征數(shù)據(jù)更具完整性和簡(jiǎn)潔性的目的[M]。逡逑具體融合實(shí)驗(yàn)流程如圖3.邋1所示。逡逑[抗凍蛋白序列]邐邐邋邐邐逡逑、邐邐^邐支持向雖機(jī)邐決策樹(shù)邐隨機(jī)悌度下降逡逑T邐邐;;邐;;邐邐逡逑zum邐廣義二》;組成邋邐?!邐分類(lèi)逡逑I邐^邐1逡逑加權(quán)廣義二AFP邐Non-AFP逡逑1邐邋^—邋邋^邋^逡逑圖3.1:抗凍蛋白(AFP)預(yù)測(cè)模型構(gòu)建流程圖逡逑20逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:Q51
本文編號(hào):2667037
【圖文】:
圖2.邋1:二肽組成與廣義二肽組成匹配規(guī)則示意圖逡逑其中/丨,r2,r3,,…,為抗凍蛋白序列,A表示兩個(gè)殘基之間的等長(zhǎng)間隔。逡逑廣義二肽組成(GDipC)中等長(zhǎng)間距殘基對(duì)的數(shù)學(xué)表達(dá)式為:逡逑
時(shí)也避免了使用單一的廣義二肽組成(GDipC)提取方法和二肽組成(DipC)提取逡逑方法導(dǎo)致局部數(shù)據(jù)稀疏,從而達(dá)到使現(xiàn)有特征數(shù)據(jù)更具完整性和簡(jiǎn)潔性的目的[M]。逡逑具體融合實(shí)驗(yàn)流程如圖3.邋1所示。逡逑[抗凍蛋白序列]邐邐邋邐邐逡逑、邐邐^邐支持向雖機(jī)邐決策樹(shù)邐隨機(jī)悌度下降逡逑T邐邐;;邐;;邐邐逡逑zum邐廣義二》;組成邋邐?!邐分類(lèi)逡逑I邐^邐1逡逑加權(quán)廣義二AFP邐Non-AFP逡逑1邐邋^—邋邋^邋^逡逑圖3.1:抗凍蛋白(AFP)預(yù)測(cè)模型構(gòu)建流程圖逡逑20逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:Q51
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 王彤;高維生物數(shù)據(jù)的分類(lèi)與預(yù)測(cè)研究[D];上海交通大學(xué);2009年
本文編號(hào):2667037
本文鏈接:http://sikaile.net/projectlw/swxlw/2667037.html
最近更新
教材專(zhuān)著