基于改進(jìn)混合多標(biāo)簽分類器的蛋白質(zhì)分類研究
發(fā)布時(shí)間:2021-01-05 22:43
蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),同時(shí)也是生命活動(dòng)的主要承擔(dān)者。近年來,隨著數(shù)據(jù)庫中蛋白質(zhì)序列越來越多,而常規(guī)的生物物理技術(shù)極其繁瑣,昂貴且容易出錯(cuò);谏镄畔W(xué)技術(shù)研究蛋白質(zhì)功能或結(jié)構(gòu)分類越來越迫切。通過引入“改進(jìn)的混合多標(biāo)簽分類器”和“近鄰得分”,開發(fā)了一種新的預(yù)測器,稱為MF-EFP,可用于處理同時(shí)包含單功能和多功能酶的分類。為了驗(yàn)證所設(shè)計(jì)的預(yù)測器性能,在構(gòu)建的新多功能酶的基準(zhǔn)數(shù)據(jù)集上使用了MF-EFP進(jìn)行五折交叉驗(yàn)證,該數(shù)據(jù)集含有以下7個(gè)功能類別:氧化還原酶(EC1),轉(zhuǎn)移酶(EC2),水解酶(EC3),裂解酶(EC4),異構(gòu)酶(EC5),連接酶(EC6),易位酶(EC7),其中所含的酶都具有≤90%的冗余度。實(shí)驗(yàn)表明,MF-EFP的性能優(yōu)于現(xiàn)有的預(yù)測器。作為用戶友好的Web服務(wù)器,MF-EFP預(yù)測網(wǎng)站http://www.jci-bioinfo.cn/MF-EFP免費(fèi)向公眾提供。通過引入基于Re LU激活函數(shù)的多標(biāo)簽神經(jīng)網(wǎng)絡(luò)算法,設(shè)計(jì)了膜蛋白功能多標(biāo)簽預(yù)測器。為滿足多標(biāo)簽數(shù)據(jù)集的需求,該算法將單標(biāo)簽學(xué)習(xí)中常用的損失函數(shù)(如交叉熵)替換成多標(biāo)簽交叉熵?fù)p失函數(shù)。為了驗(yàn)證所設(shè)計(jì)的預(yù)測器性能...
【文章來源】:景德鎮(zhèn)陶瓷大學(xué)江西省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
UniProtKB/TrEMBL數(shù)據(jù)庫中蛋白質(zhì)數(shù)量變化曲線
景德鎮(zhèn)陶瓷大學(xué)碩士學(xué)位論文1緒論5membrane)、第四類跨膜蛋白(single-passtypeIVmembrane)、多通道跨膜蛋白(multi-passmembrane)、脂鏈錨定膜蛋白(lipid-anchormembrane)、GPI錨定膜蛋白(GPI-anchor)、外周膜蛋白(peripheralmembrane)。由于膜蛋白的類型與自身組成存在某種密切聯(lián)系,可以將提取膜蛋白的信息作為確定未知膜蛋白類型的重要線索[20]。若是單純用傳統(tǒng)的實(shí)驗(yàn)方法來確定未知膜蛋白的類型,那樣將費(fèi)時(shí)又費(fèi)錢。因此,迫切需要發(fā)展一種計(jì)算方法來代替實(shí)驗(yàn)方法,特別是在蛋白質(zhì)序列數(shù)量呈爆炸式增長的后基因組時(shí)代。圖1-2:八種類型的膜蛋白示意圖實(shí)際上,在過去的幾十年中,提出了各種各樣的方法來預(yù)測膜蛋白的類型,如文獻(xiàn)[21-24]。這些方法對促進(jìn)膜蛋白研究的發(fā)展起到了重要作用,然而上述文獻(xiàn)提及的所有預(yù)測器僅針對處理單一類型的膜蛋白,未涉及同時(shí)含有兩種或兩種以上類型的膜蛋白。而這些多類型的膜蛋白可能具有一些非常特殊的生物學(xué)功能,無論對于基礎(chǔ)研究還是藥物發(fā)現(xiàn),都值得研究者的深入研究。2007年,Chou和Shen[25]首次提出了8種類型的膜蛋白預(yù)測,采用了Pse-PSSM的特征提取方法,在Jackknife的驗(yàn)證方法下,預(yù)測膜蛋白類型的成功率達(dá)到85.0%。2013年,Huang和Yuan[26]介紹膜蛋白數(shù)據(jù)集如何收集的詳細(xì)步驟,并且采用當(dāng)時(shí)熱門的ML-KNN算法和PseAAC特征提取方法,最后平均精度結(jié)果達(dá)到了87%。2015年,Xiao[27]在更加嚴(yán)格的基準(zhǔn)數(shù)據(jù)集下,提出了物理化學(xué)性質(zhì)矩陣和灰色PSSM結(jié)合的方法,得到了子集準(zhǔn)確度為67.74%的結(jié)果。2018年,Sankari[28]提出了一種基于交換基團(tuán)的蛋白質(zhì)序列表示的特征集用于膜蛋白的分類,該特征集具有兩種新的特征提取策略,稱為
景德鎮(zhèn)陶瓷大學(xué)碩士學(xué)位論文2序列信息的特征提取方法92序列信息的特征提取方法2.1引言一個(gè)好用的預(yù)測器能夠極大的幫助學(xué)者節(jié)省精力與時(shí)間。如何建立一個(gè)真正有用的預(yù)測器成了一個(gè)值得深思的問題。根據(jù)Chou[36]以及其相關(guān)文獻(xiàn)[37,38]的總結(jié),一個(gè)真正有用的預(yù)測器可以簡要概括為五個(gè)步驟:(1)收集有效數(shù)據(jù)構(gòu)成基準(zhǔn)數(shù)據(jù)集用于模型的訓(xùn)練和測試;(2)尋找合適的關(guān)系式對蛋白質(zhì)樣品數(shù)字化表達(dá),該關(guān)系式在一定程度上,可以真實(shí)反映它們與待預(yù)測樣本屬性的內(nèi)在聯(lián)系;(3)引入或開發(fā)有效的算法以進(jìn)行預(yù)測;(4)執(zhí)行交叉驗(yàn)證測試以客觀評估預(yù)測指標(biāo)的準(zhǔn)確性;(5)建立一個(gè)對公眾開放的預(yù)測器網(wǎng)站或模型代碼。在這五個(gè)步驟都需要認(rèn)真嚴(yán)謹(jǐn)?shù)膶Υ,其中十分重要的是如何提取有用的生物特征,達(dá)到分辨蛋白質(zhì)功能類型的目的。在蛋白質(zhì)序列信息中,如何從字母序列轉(zhuǎn)換到數(shù)字特征,將是本章研究主要內(nèi)容。圖2-1預(yù)測的一般流程2.2特征提取算法在生物信息學(xué)中,一般情況下蛋白質(zhì)序列信息可以分為兩種模型:連續(xù)模型和離散模型。連續(xù)模型包括蛋白質(zhì)序列中氨基酸位置信息,主要依賴序列同源性搜索工具,但問題在于該提取只能在蛋白具有同源序列的情況下。當(dāng)面對該蛋白無同源序列,則不能進(jìn)行有效預(yù)測。為了解決上述問題,提出了許多基于離散模型作為特征提取方法。在蛋白質(zhì)序列信息中,通過數(shù)學(xué)表達(dá)式讓字母序列轉(zhuǎn)換成不連續(xù)的數(shù)字特征,其中大量的轉(zhuǎn)換利用計(jì)算機(jī)強(qiáng)大的計(jì)算功能便可實(shí)現(xiàn)。下面,主要從氨基
【參考文獻(xiàn)】:
期刊論文
[1]多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計(jì)算機(jī)科學(xué). 2013(04)
博士論文
[1]多標(biāo)記學(xué)習(xí)算法研究及在生物醫(yī)學(xué)數(shù)據(jù)挖掘中的應(yīng)用[D]. 王普.中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院) 2017
碩士論文
[1]基于偽氨基酸成分的蛋白質(zhì)多標(biāo)簽分類預(yù)測研究[D]. 鄒洪亮.景德鎮(zhèn)陶瓷學(xué)院 2015
本文編號(hào):2959430
【文章來源】:景德鎮(zhèn)陶瓷大學(xué)江西省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
UniProtKB/TrEMBL數(shù)據(jù)庫中蛋白質(zhì)數(shù)量變化曲線
景德鎮(zhèn)陶瓷大學(xué)碩士學(xué)位論文1緒論5membrane)、第四類跨膜蛋白(single-passtypeIVmembrane)、多通道跨膜蛋白(multi-passmembrane)、脂鏈錨定膜蛋白(lipid-anchormembrane)、GPI錨定膜蛋白(GPI-anchor)、外周膜蛋白(peripheralmembrane)。由于膜蛋白的類型與自身組成存在某種密切聯(lián)系,可以將提取膜蛋白的信息作為確定未知膜蛋白類型的重要線索[20]。若是單純用傳統(tǒng)的實(shí)驗(yàn)方法來確定未知膜蛋白的類型,那樣將費(fèi)時(shí)又費(fèi)錢。因此,迫切需要發(fā)展一種計(jì)算方法來代替實(shí)驗(yàn)方法,特別是在蛋白質(zhì)序列數(shù)量呈爆炸式增長的后基因組時(shí)代。圖1-2:八種類型的膜蛋白示意圖實(shí)際上,在過去的幾十年中,提出了各種各樣的方法來預(yù)測膜蛋白的類型,如文獻(xiàn)[21-24]。這些方法對促進(jìn)膜蛋白研究的發(fā)展起到了重要作用,然而上述文獻(xiàn)提及的所有預(yù)測器僅針對處理單一類型的膜蛋白,未涉及同時(shí)含有兩種或兩種以上類型的膜蛋白。而這些多類型的膜蛋白可能具有一些非常特殊的生物學(xué)功能,無論對于基礎(chǔ)研究還是藥物發(fā)現(xiàn),都值得研究者的深入研究。2007年,Chou和Shen[25]首次提出了8種類型的膜蛋白預(yù)測,采用了Pse-PSSM的特征提取方法,在Jackknife的驗(yàn)證方法下,預(yù)測膜蛋白類型的成功率達(dá)到85.0%。2013年,Huang和Yuan[26]介紹膜蛋白數(shù)據(jù)集如何收集的詳細(xì)步驟,并且采用當(dāng)時(shí)熱門的ML-KNN算法和PseAAC特征提取方法,最后平均精度結(jié)果達(dá)到了87%。2015年,Xiao[27]在更加嚴(yán)格的基準(zhǔn)數(shù)據(jù)集下,提出了物理化學(xué)性質(zhì)矩陣和灰色PSSM結(jié)合的方法,得到了子集準(zhǔn)確度為67.74%的結(jié)果。2018年,Sankari[28]提出了一種基于交換基團(tuán)的蛋白質(zhì)序列表示的特征集用于膜蛋白的分類,該特征集具有兩種新的特征提取策略,稱為
景德鎮(zhèn)陶瓷大學(xué)碩士學(xué)位論文2序列信息的特征提取方法92序列信息的特征提取方法2.1引言一個(gè)好用的預(yù)測器能夠極大的幫助學(xué)者節(jié)省精力與時(shí)間。如何建立一個(gè)真正有用的預(yù)測器成了一個(gè)值得深思的問題。根據(jù)Chou[36]以及其相關(guān)文獻(xiàn)[37,38]的總結(jié),一個(gè)真正有用的預(yù)測器可以簡要概括為五個(gè)步驟:(1)收集有效數(shù)據(jù)構(gòu)成基準(zhǔn)數(shù)據(jù)集用于模型的訓(xùn)練和測試;(2)尋找合適的關(guān)系式對蛋白質(zhì)樣品數(shù)字化表達(dá),該關(guān)系式在一定程度上,可以真實(shí)反映它們與待預(yù)測樣本屬性的內(nèi)在聯(lián)系;(3)引入或開發(fā)有效的算法以進(jìn)行預(yù)測;(4)執(zhí)行交叉驗(yàn)證測試以客觀評估預(yù)測指標(biāo)的準(zhǔn)確性;(5)建立一個(gè)對公眾開放的預(yù)測器網(wǎng)站或模型代碼。在這五個(gè)步驟都需要認(rèn)真嚴(yán)謹(jǐn)?shù)膶Υ,其中十分重要的是如何提取有用的生物特征,達(dá)到分辨蛋白質(zhì)功能類型的目的。在蛋白質(zhì)序列信息中,如何從字母序列轉(zhuǎn)換到數(shù)字特征,將是本章研究主要內(nèi)容。圖2-1預(yù)測的一般流程2.2特征提取算法在生物信息學(xué)中,一般情況下蛋白質(zhì)序列信息可以分為兩種模型:連續(xù)模型和離散模型。連續(xù)模型包括蛋白質(zhì)序列中氨基酸位置信息,主要依賴序列同源性搜索工具,但問題在于該提取只能在蛋白具有同源序列的情況下。當(dāng)面對該蛋白無同源序列,則不能進(jìn)行有效預(yù)測。為了解決上述問題,提出了許多基于離散模型作為特征提取方法。在蛋白質(zhì)序列信息中,通過數(shù)學(xué)表達(dá)式讓字母序列轉(zhuǎn)換成不連續(xù)的數(shù)字特征,其中大量的轉(zhuǎn)換利用計(jì)算機(jī)強(qiáng)大的計(jì)算功能便可實(shí)現(xiàn)。下面,主要從氨基
【參考文獻(xiàn)】:
期刊論文
[1]多標(biāo)簽數(shù)據(jù)挖掘技術(shù):研究綜述[J]. 李思男,李寧,李戰(zhàn)懷. 計(jì)算機(jī)科學(xué). 2013(04)
博士論文
[1]多標(biāo)記學(xué)習(xí)算法研究及在生物醫(yī)學(xué)數(shù)據(jù)挖掘中的應(yīng)用[D]. 王普.中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院) 2017
碩士論文
[1]基于偽氨基酸成分的蛋白質(zhì)多標(biāo)簽分類預(yù)測研究[D]. 鄒洪亮.景德鎮(zhèn)陶瓷學(xué)院 2015
本文編號(hào):2959430
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2959430.html
最近更新
教材專著