基于特征融合和二維小波去噪的蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)
發(fā)布時(shí)間:2020-05-05 14:49
【摘要】:蛋白質(zhì)的空間結(jié)構(gòu)決定著其功能,其空間結(jié)構(gòu)的確定非常復(fù)雜。通過前人的研究表明獲得蛋白質(zhì)的結(jié)構(gòu)類,可以確定肽鏈的折疊形態(tài),從而縮小空間結(jié)構(gòu)自然搜索的范圍,為其結(jié)構(gòu)測(cè)定提供了方向,節(jié)省了許多時(shí)間和物力。但結(jié)構(gòu)類的預(yù)測(cè)準(zhǔn)確率一直很低,特別是在低相似性序列數(shù)據(jù)集上。導(dǎo)致其預(yù)測(cè)率低的原因在于用傳統(tǒng)的方法所提取結(jié)構(gòu)類序列的特征信息中有很多冗余信息。基于此,本文的工作如下:(1)提出了一種基于降維的特征融合和迭代二維小波去噪的預(yù)測(cè)模型,稱之為FU-ERD-IWD(Model 1)。它用來解決在蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)過程中,高維特征向量融合后計(jì)算成本和冗余信息增加的問題。首先用二肽組成和三肽組成提取結(jié)構(gòu)類序列的特征信息,然后用核主成分分析(KPCA)對(duì)其降維,將降維之后的特征向量進(jìn)行融合。之后對(duì)融合的特征向量進(jìn)行二維小波去噪,通過多次迭代去噪,去除特征向量里的冗余信息。雖然本預(yù)測(cè)模型的預(yù)測(cè)效果與其他文獻(xiàn)有差距,但所取得的預(yù)測(cè)效果還是行之有效的。(2)提出了一種基于并行二維小波去噪和特征融合的預(yù)測(cè)模型,稱之為PWD-FU-PseAAC(Model 2)。在蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)過程中提出一種新的融合策略:先去噪后融合,來增強(qiáng)低維特征向量的有效性,使之更容易預(yù)測(cè)和識(shí)別。首先通過兩種類型的偽氨基酸組成提取結(jié)構(gòu)類序列的特征信息,然后對(duì)這兩部分特征向量進(jìn)行二維小波去噪,去除冗余信息。其次將去噪后的兩部分特征向量進(jìn)行融合。相比另一種融合策略:先融合后去噪,本文所提新的融合策略要更好。并與其他文獻(xiàn)中的預(yù)測(cè)方法相比較,本預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確率更高,而且本預(yù)測(cè)模型有望應(yīng)用于生物信息學(xué)其他領(lǐng)域。
【圖文】:
其他距離高效簡(jiǎn)單。對(duì)相似度由小到大的順序排列,選擇前K個(gè),將其中出現(xiàn)次逡逑數(shù)最多的類別作為待分類樣本的類別。雖然K近鄰簡(jiǎn)單,但是其泛化錯(cuò)誤率不高,逡逑有時(shí)能達(dá)到令人滿意的預(yù)測(cè)效果。圖2.邋1是K近鄰分類示意圖。逡逑0邐°逡逑?邐G逡逑^邋:邋?逡逑:0逡逑:邐★邐°i逡逑°匕…a…J邋?逡逑L邋0邋°邋J逡逑圖2.1邋K近鄰分類示意圖逡逑圖2.1中藍(lán)色的星星代表待分類樣本,圓圈代表訓(xùn)練樣本,不同顏色的圓圈逡逑代表不同類別,其中有四個(gè)類別。如果以虛線框內(nèi)的5個(gè)點(diǎn)作為鄰居,則待分類逡逑樣本將被歸類為粉色圓圈所屬類別,而如果以實(shí)線框內(nèi)的13個(gè)點(diǎn)作為鄰居,則待逡逑分類樣本被歸類為黃色圓圈所屬類別。逡逑2.邋4.評(píng)估方法與性能度置逡逑一個(gè)模型性能的好壞需要一些驗(yàn)證方法和相應(yīng)的性能指標(biāo)來定量的評(píng)估。常逡逑用的驗(yàn)證方法有:獨(dú)立集檢驗(yàn)(independent邋dataset邋test)、自助法(bootstrapping)逡逑16逡逑
圖3.邋1二維小波去噪流程框圖逡逑小波去噪的關(guān)鍵是閾值的確定和閾值函數(shù)的選取,它們影響著最終的去果。通常情況下,有三種方法可以確定閾值,分別是默認(rèn)閾值、給定閾值和強(qiáng)閾值。在本文中我們選擇默認(rèn)閾值的方式來確定閾值,因?yàn)樗姆奖愫秃?jiǎn)明。一般來說,有兩種常用的閾值函數(shù),分別是軟閾值函數(shù)和硬閾值函數(shù)。本文選前者來作用信號(hào),因?yàn)榍罢弑绕鸷笳,前者可以使重?gòu)的信號(hào)更光滑。逡逑3.1.3.預(yù)測(cè)模型的構(gòu)建逡逑在本章我們提出了一種基于降維的特征融合和迭代二維小波去噪的預(yù)測(cè)型,稱之為FU-ERD-1WD邋(Modell)。把25PDB數(shù)據(jù)集作為研究對(duì)象,首先蛋白質(zhì)序列進(jìn)行特征提取,通過二肽組成和三肽組成,,可以得到400維和800
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q51;O212.1
本文編號(hào):2650318
【圖文】:
其他距離高效簡(jiǎn)單。對(duì)相似度由小到大的順序排列,選擇前K個(gè),將其中出現(xiàn)次逡逑數(shù)最多的類別作為待分類樣本的類別。雖然K近鄰簡(jiǎn)單,但是其泛化錯(cuò)誤率不高,逡逑有時(shí)能達(dá)到令人滿意的預(yù)測(cè)效果。圖2.邋1是K近鄰分類示意圖。逡逑0邐°逡逑?邐G逡逑^邋:邋?逡逑:0逡逑:邐★邐°i逡逑°匕…a…J邋?逡逑L邋0邋°邋J逡逑圖2.1邋K近鄰分類示意圖逡逑圖2.1中藍(lán)色的星星代表待分類樣本,圓圈代表訓(xùn)練樣本,不同顏色的圓圈逡逑代表不同類別,其中有四個(gè)類別。如果以虛線框內(nèi)的5個(gè)點(diǎn)作為鄰居,則待分類逡逑樣本將被歸類為粉色圓圈所屬類別,而如果以實(shí)線框內(nèi)的13個(gè)點(diǎn)作為鄰居,則待逡逑分類樣本被歸類為黃色圓圈所屬類別。逡逑2.邋4.評(píng)估方法與性能度置逡逑一個(gè)模型性能的好壞需要一些驗(yàn)證方法和相應(yīng)的性能指標(biāo)來定量的評(píng)估。常逡逑用的驗(yàn)證方法有:獨(dú)立集檢驗(yàn)(independent邋dataset邋test)、自助法(bootstrapping)逡逑16逡逑
圖3.邋1二維小波去噪流程框圖逡逑小波去噪的關(guān)鍵是閾值的確定和閾值函數(shù)的選取,它們影響著最終的去果。通常情況下,有三種方法可以確定閾值,分別是默認(rèn)閾值、給定閾值和強(qiáng)閾值。在本文中我們選擇默認(rèn)閾值的方式來確定閾值,因?yàn)樗姆奖愫秃?jiǎn)明。一般來說,有兩種常用的閾值函數(shù),分別是軟閾值函數(shù)和硬閾值函數(shù)。本文選前者來作用信號(hào),因?yàn)榍罢弑绕鸷笳,前者可以使重?gòu)的信號(hào)更光滑。逡逑3.1.3.預(yù)測(cè)模型的構(gòu)建逡逑在本章我們提出了一種基于降維的特征融合和迭代二維小波去噪的預(yù)測(cè)型,稱之為FU-ERD-1WD邋(Modell)。把25PDB數(shù)據(jù)集作為研究對(duì)象,首先蛋白質(zhì)序列進(jìn)行特征提取,通過二肽組成和三肽組成,,可以得到400維和800
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:Q51;O212.1
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 靳利霞;蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法研究[D];大連理工大學(xué);2002年
本文編號(hào):2650318
本文鏈接:http://sikaile.net/projectlw/swxlw/2650318.html
最近更新
教材專著