多功能酶分類預(yù)測中的特征表達(dá)與融合算法研究
發(fā)布時間:2020-03-18 22:03
【摘要】:多功能酶作為一種生物催化劑在生物的各種反應(yīng)中都起到了非常重要的作用。正確區(qū)分多功能酶在基因工程和細(xì)胞工程中能起到關(guān)鍵性作用。本文目的是通過多標(biāo)簽分類器對多功能酶進(jìn)行功能預(yù)測,由于多功能酶的預(yù)測受到數(shù)據(jù)集、特征表達(dá)、分類器的選擇影響,因此,本文從這些方面展開了研究工作。具體研究工作如下:(1)多功能酶的研究中前人構(gòu)建的數(shù)據(jù)集同源性太高,在對低同源性多功能酶進(jìn)行預(yù)測時精度不是很高,因此,本文構(gòu)建出了較低同源性多功能酶數(shù)據(jù)集進(jìn)行多功能酶的預(yù)測。(2)針對特征表達(dá),本文提出了多重進(jìn)化信息PSSM矩陣。多重進(jìn)化信息PSSM矩陣相對于傳統(tǒng)的PSSM矩陣能夠表達(dá)出多功能酶序列的更多進(jìn)化信息。本文還結(jié)合二維Gabor變換對PSSM矩陣進(jìn)行局部特征提取。通過Gabor變換可以將PSSM矩陣進(jìn)行多尺度、多方向的分解,因此,能得到PSSM更多的信息。相對于現(xiàn)有的基于PSSM矩陣的特征提取法(DPC-PSSM)本文的方法在分類效果上有一定的優(yōu)勢;诎被嵝蛄刑卣鞅磉_(dá)中,本文提出了二肽局部詞特征提取法,提取到的特征相對于AAC、AmPseAAC有更好的效果。(3)針對實(shí)驗中得到的多種特征信息,本文進(jìn)行了特征融合。首先。運(yùn)用特征抽取融合方法進(jìn)行特征的融合,在特征抽取中運(yùn)用到了遞歸特征消除法(RFE)。其次,將融合后的數(shù)據(jù)進(jìn)行歸一化和除冗余。經(jīng)過處理后的融合特征數(shù)據(jù)在召回率、精度、F-值和平均精度這四種指標(biāo)上能達(dá)到92.21%、93.73%、91.11%、97.68%。(4)針對多功能酶分類預(yù)測問題,本文使用了隨機(jī)K標(biāo)簽集成分類算法,在隨機(jī)K標(biāo)簽分類算法中基分類器的選擇上做了詳細(xì)的討論。本文中分別用了支持向量機(jī)分類模型(SVM)、K近鄰分類模型(KNN)、貝葉斯分類模型(NB)、隨機(jī)森林分類模型(RF)四個分類器進(jìn)行實(shí)驗。通過五折交叉驗證以及四種評估指標(biāo)對這些基分類器進(jìn)行分析,發(fā)現(xiàn)隨機(jī)森林作為基分類器取得的性能最好。本文構(gòu)建的模型與其它多標(biāo)簽分類模型相比,能取得比較良好的分類效果。
【圖文】:
太多的多功能酶被發(fā)現(xiàn),其二、傳統(tǒng)物理化學(xué)手段的費(fèi)用太高。后期技術(shù)的迅速逡逑發(fā)展學(xué)者們對多功能酶的研究更加方便。從1996年以后每年都有幾篇論文發(fā)表出逡逑來。從1986年到2018年這些年期間發(fā)表的關(guān)于多功能酶的論文數(shù)量如圖1.1所逡逑示。從國外的研宄來看(主要是通過外文庫sci檢索),最早能搜索到的論文為逡逑1978年,JK.Stoops在脂肪酸合成酶的研宄中發(fā)現(xiàn)有多功能酶參與反應(yīng),并發(fā)表逡逑出兩篇多功能酶的論文[54][55]。其后的每年都有大量的關(guān)于多功能酶的論文發(fā)表。逡逑2005年生物學(xué)家通過多序列對比分析來區(qū)分多功能酶。逡逑在多功能酶的分類預(yù)測上近些年來也有很多人運(yùn)用機(jī)器學(xué)習(xí)方法來進(jìn)行研究,逡逑其主要用到的分類算法是多標(biāo)簽分類學(xué)習(xí)。2012年Ferrari邋L邋D利用BRKNN多逡逑標(biāo)簽分類器對多功能酶進(jìn)行了分類預(yù)測,在平均精度上能達(dá)到89%[37]。2014年逡逑Zuo等人在利用雙層分類模型進(jìn)行多功能酶的分類研宄,其中第一層是單標(biāo)簽分逡逑類器主要是判斷是不是多功能酶,第二層構(gòu)建了多標(biāo)簽分類器,對第一層選擇出逡逑的多功能酶進(jìn)行分類預(yù)測。他們的模型得到了非常好的成果,并且預(yù)測出了多種逡逑3逡逑
邐A逡逑|逡逑圖3.2:邋85%的同源性中各功能酶的條數(shù)圖3.3:邋65%的同源性中各功能酶的條數(shù)逡逑3.邋2多重進(jìn)化信息PSSM矩陣逡逑本章提到的多重進(jìn)化信息PSSM矩陣,主要是運(yùn)用不同的氨基酸置換矩陣來逡逑進(jìn)行PSSM矩陣的生成。因為不同的氨基酸置換矩陣代表的氨基酸之間的進(jìn)化信逡逑息是不同的。因此,我們通過加入的氨基酸置換矩陣的不同,就可以得到多種進(jìn)逡逑化信息PSSM矩陣。得到的多種PSSM矩陣我們將其稱為多重進(jìn)化信息PSSM矩逡逑陣。逡逑3.2.1多重進(jìn)化信息PSSM矩陣生成原理逡逑不論是傳統(tǒng)的PSSM矩陣還是本章中提出的多重進(jìn)化信息PSSM矩陣,都是逡逑要經(jīng)過多重序列對比后得到位置頻率矩陣,位置頻率矩陣表示每個位置中出現(xiàn)的逡逑相應(yīng)的20種常見的氨基酸概率。位置頻率矩陣在表達(dá)序列的位置特異性上往往會逡逑出現(xiàn)很大的偏差。傳統(tǒng)的PSSM矩陣處理這種偏差時是運(yùn)用概形矩陣(高度保守逡逑區(qū)域的氨基酸的置換)來進(jìn)行迭代處理,直到誤差小于設(shè)定的值為止。本文中多逡逑重進(jìn)化信息矩陣是往位置頻率矩陣中加入偽計數(shù)使其偏差減少。逡逑在偽計數(shù)添加的多少是一個比較難以把握的點(diǎn),本章中偽計數(shù)大小的計算是逡逑通過運(yùn)用氨基酸置換矩陣計算出來。因為,氨基酸置換矩陣表示的是某種進(jìn)化條逡逑件下的氨基酸之間的突變。所以
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP181;Q55
本文編號:2589249
【圖文】:
太多的多功能酶被發(fā)現(xiàn),其二、傳統(tǒng)物理化學(xué)手段的費(fèi)用太高。后期技術(shù)的迅速逡逑發(fā)展學(xué)者們對多功能酶的研究更加方便。從1996年以后每年都有幾篇論文發(fā)表出逡逑來。從1986年到2018年這些年期間發(fā)表的關(guān)于多功能酶的論文數(shù)量如圖1.1所逡逑示。從國外的研宄來看(主要是通過外文庫sci檢索),最早能搜索到的論文為逡逑1978年,JK.Stoops在脂肪酸合成酶的研宄中發(fā)現(xiàn)有多功能酶參與反應(yīng),并發(fā)表逡逑出兩篇多功能酶的論文[54][55]。其后的每年都有大量的關(guān)于多功能酶的論文發(fā)表。逡逑2005年生物學(xué)家通過多序列對比分析來區(qū)分多功能酶。逡逑在多功能酶的分類預(yù)測上近些年來也有很多人運(yùn)用機(jī)器學(xué)習(xí)方法來進(jìn)行研究,逡逑其主要用到的分類算法是多標(biāo)簽分類學(xué)習(xí)。2012年Ferrari邋L邋D利用BRKNN多逡逑標(biāo)簽分類器對多功能酶進(jìn)行了分類預(yù)測,在平均精度上能達(dá)到89%[37]。2014年逡逑Zuo等人在利用雙層分類模型進(jìn)行多功能酶的分類研宄,其中第一層是單標(biāo)簽分逡逑類器主要是判斷是不是多功能酶,第二層構(gòu)建了多標(biāo)簽分類器,對第一層選擇出逡逑的多功能酶進(jìn)行分類預(yù)測。他們的模型得到了非常好的成果,并且預(yù)測出了多種逡逑3逡逑
邐A逡逑|逡逑圖3.2:邋85%的同源性中各功能酶的條數(shù)圖3.3:邋65%的同源性中各功能酶的條數(shù)逡逑3.邋2多重進(jìn)化信息PSSM矩陣逡逑本章提到的多重進(jìn)化信息PSSM矩陣,主要是運(yùn)用不同的氨基酸置換矩陣來逡逑進(jìn)行PSSM矩陣的生成。因為不同的氨基酸置換矩陣代表的氨基酸之間的進(jìn)化信逡逑息是不同的。因此,我們通過加入的氨基酸置換矩陣的不同,就可以得到多種進(jìn)逡逑化信息PSSM矩陣。得到的多種PSSM矩陣我們將其稱為多重進(jìn)化信息PSSM矩逡逑陣。逡逑3.2.1多重進(jìn)化信息PSSM矩陣生成原理逡逑不論是傳統(tǒng)的PSSM矩陣還是本章中提出的多重進(jìn)化信息PSSM矩陣,都是逡逑要經(jīng)過多重序列對比后得到位置頻率矩陣,位置頻率矩陣表示每個位置中出現(xiàn)的逡逑相應(yīng)的20種常見的氨基酸概率。位置頻率矩陣在表達(dá)序列的位置特異性上往往會逡逑出現(xiàn)很大的偏差。傳統(tǒng)的PSSM矩陣處理這種偏差時是運(yùn)用概形矩陣(高度保守逡逑區(qū)域的氨基酸的置換)來進(jìn)行迭代處理,直到誤差小于設(shè)定的值為止。本文中多逡逑重進(jìn)化信息矩陣是往位置頻率矩陣中加入偽計數(shù)使其偏差減少。逡逑在偽計數(shù)添加的多少是一個比較難以把握的點(diǎn),本章中偽計數(shù)大小的計算是逡逑通過運(yùn)用氨基酸置換矩陣計算出來。因為,氨基酸置換矩陣表示的是某種進(jìn)化條逡逑件下的氨基酸之間的突變。所以
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP181;Q55
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 鄢凱舟;陸兵;梁鈺婷;張云開;陳桂光;梁智群;;融合酶構(gòu)建技術(shù)在酶的改性以及多功能酶的構(gòu)建方面的應(yīng)用[J];中國生物工程雜志;2014年07期
2 孫晶京;;使用偽氨基酸模型和K近鄰分類器預(yù)測酶的分類[J];計算機(jī)工程與應(yīng)用;2013年09期
相關(guān)碩士學(xué)位論文 前2條
1 魏繼翔;基于特征提取的酶識別問題研究[D];山東經(jīng)濟(jì)學(xué)院;2011年
2 黃煒娟;多功能酶的預(yù)測及結(jié)構(gòu)功能模式分析[D];廈門大學(xué);2009年
,本文編號:2589249
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2589249.html
最近更新
教材專著