基于序列信息的荷爾蒙連接蛋白預(yù)測算法研究
發(fā)布時間:2021-03-31 00:19
荷爾蒙連接蛋白(HBP)可以選擇性地、非共價地與荷爾蒙蛋白(HP)相互作用,從而充當HP的調(diào)節(jié)劑或抑制劑。準確地識別HBP也為正確理解細胞生長、發(fā)育和功能機制提供重要的前提保障。傳統(tǒng)識別HBP的方法通常要通過復(fù)雜的生物學(xué)實驗,耗時耗力且速度緩慢。近幾年來,為了改善這個弊端,科研人員開始嘗試使用機器學(xué)習(xí)的方法來識別HBP,使得這種缺點得以改善。但是,不同的機器學(xué)習(xí)算法有著不同的預(yù)測效果,絕大多數(shù)的算法預(yù)測效果不盡如人意,分類能力有待提高。因此,本文通過嘗試多種算法,搭建多種預(yù)測模型,使用交叉驗證的方法與常用評價指標進行評估的方式,從眾多模型中選取出具有最優(yōu)預(yù)測效果的模型作為最終的HBP預(yù)測模型。本文從Uniprot數(shù)據(jù)庫下載了一套HBP原始數(shù)據(jù),通過嚴格的篩選構(gòu)建出了一組精準的基準數(shù)據(jù)集。我們嘗試了多種特征提取方法,利用支持向量機(SVM)分類算法對HBP與non-HBP(非HBP)進行分類,并基于5-折交叉驗證評價模型的性能,產(chǎn)生了如下的結(jié)果:(一)使用CTD方法提取HBP序列中氨基酸位置、組成與分布等信息,最終得到60.16%的總成功率;(二)使用自然矢量法(NV)提取HBP序列中的...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
一個HBP(紅色部分)與兩個HP(黃色部分)結(jié)合的示意圖
第一章緒論3文的研究:(一):收集得到一套客觀且公正的基準數(shù)據(jù)集去訓(xùn)練模型,并提供一套精準且合理的獨立集去檢驗得到的模型;(二):嘗試選擇多種特征提取算法去表征蛋白質(zhì)序列信息,即尋找、利用最好的表達方法將蛋白質(zhì)序列信息描述成計算機能夠識別出來的離散數(shù)字的形式;(三):嘗試選擇不同種類的分類器算法以求最大化正負樣本之間的差異性;(四):通過使用交叉驗證的方法得到一系列評價指標,進而評價所構(gòu)建出來的模型的預(yù)測性能;(五):選擇出一個表現(xiàn)力最好、魯棒性最佳的模型搭建出一個用戶友好型的在線服務(wù)網(wǎng)站,方便其他從事HBP研究的科研人員去使用。按照以上五個方面的內(nèi)容提要,將如下安排本篇論文的結(jié)構(gòu)與內(nèi)容,并按照圖1-2的思路去探索預(yù)測HBP的最優(yōu)模型:圖1-2論文計算流程圖第一章為論文的緒論部分,言簡意賅的闡明了HBP的生物學(xué)定義與其在人體中發(fā)揮的重要功能,從而引出正確預(yù)測HBP的意義與必要性。另外,闡述了目前國內(nèi)外已經(jīng)存在的對HBP預(yù)測算法的研究現(xiàn)狀與本論文進行研究的重要性。最后,簡要描述了本文的結(jié)構(gòu)與內(nèi)容。第二章為論文的數(shù)據(jù)集構(gòu)建部分,在此環(huán)節(jié)中詳細的闡述了構(gòu)建基準數(shù)據(jù)集
第四章基于多種不同特征提取方法下的模型構(gòu)建15=[,,2,…,,,2,…,,2](4-6)其中,A,R,…,Y為20種常見氨基酸。4.2.2基于NV方法的交叉驗證結(jié)果由4.2.1章節(jié)可知,基于NV特征提取方法,一條蛋白質(zhì)序列可以用一個60維的向量來表示,以此構(gòu)建出一個特征集合,并利用這個特征集合搭建一個SVM模型。在使用SVM分類器經(jīng)過5-折交叉驗證后,最終的總精度為70.33%,敏感性與特異性分別為70.73%和69.92%(表4-2),從中可以得到如下結(jié)論,NV特征提取方法較CTD方法預(yù)測能力提高,并且對正負樣本的預(yù)測能力相差無幾且比較均衡。嘗試性的考慮將NV與CTD特征提取方法相結(jié)合,一條蛋白質(zhì)序列可以被描述成為一個21+60=81維的向量,以此構(gòu)建出一個特征集合,在使用SVM分類器經(jīng)過5-折交叉驗證后,最終的總精度為67.07%,敏感性與特異性分別為70.73%和63.41%(表4-2),從中可以得到以下結(jié)論,預(yù)測結(jié)果相比較于單一使用NV方法變差,說明CTD方法對于HBP預(yù)測效果不佳。除此之外,它們的詳細的5種評價指標結(jié)果可以在表4-2中找到,圖4-1展示了每一種模型的ROC曲線及各自的AUC值。由此我們可以看出,相比較這兩種特征提取方法來說,NV方法的表現(xiàn)力總是強于CTD方法的。但是這兩種方法的預(yù)測總精度仍然不夠理想,分類效果都不令人滿意,因此很有必要嘗試其他方法來更加準確的為HBP分類預(yù)測。表4-2基于NV方法的詳細預(yù)測結(jié)果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709圖4-1基于NV與CTD方法的ROC曲線及其AUC
本文編號:3110413
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
一個HBP(紅色部分)與兩個HP(黃色部分)結(jié)合的示意圖
第一章緒論3文的研究:(一):收集得到一套客觀且公正的基準數(shù)據(jù)集去訓(xùn)練模型,并提供一套精準且合理的獨立集去檢驗得到的模型;(二):嘗試選擇多種特征提取算法去表征蛋白質(zhì)序列信息,即尋找、利用最好的表達方法將蛋白質(zhì)序列信息描述成計算機能夠識別出來的離散數(shù)字的形式;(三):嘗試選擇不同種類的分類器算法以求最大化正負樣本之間的差異性;(四):通過使用交叉驗證的方法得到一系列評價指標,進而評價所構(gòu)建出來的模型的預(yù)測性能;(五):選擇出一個表現(xiàn)力最好、魯棒性最佳的模型搭建出一個用戶友好型的在線服務(wù)網(wǎng)站,方便其他從事HBP研究的科研人員去使用。按照以上五個方面的內(nèi)容提要,將如下安排本篇論文的結(jié)構(gòu)與內(nèi)容,并按照圖1-2的思路去探索預(yù)測HBP的最優(yōu)模型:圖1-2論文計算流程圖第一章為論文的緒論部分,言簡意賅的闡明了HBP的生物學(xué)定義與其在人體中發(fā)揮的重要功能,從而引出正確預(yù)測HBP的意義與必要性。另外,闡述了目前國內(nèi)外已經(jīng)存在的對HBP預(yù)測算法的研究現(xiàn)狀與本論文進行研究的重要性。最后,簡要描述了本文的結(jié)構(gòu)與內(nèi)容。第二章為論文的數(shù)據(jù)集構(gòu)建部分,在此環(huán)節(jié)中詳細的闡述了構(gòu)建基準數(shù)據(jù)集
第四章基于多種不同特征提取方法下的模型構(gòu)建15=[,,2,…,,,2,…,,2](4-6)其中,A,R,…,Y為20種常見氨基酸。4.2.2基于NV方法的交叉驗證結(jié)果由4.2.1章節(jié)可知,基于NV特征提取方法,一條蛋白質(zhì)序列可以用一個60維的向量來表示,以此構(gòu)建出一個特征集合,并利用這個特征集合搭建一個SVM模型。在使用SVM分類器經(jīng)過5-折交叉驗證后,最終的總精度為70.33%,敏感性與特異性分別為70.73%和69.92%(表4-2),從中可以得到如下結(jié)論,NV特征提取方法較CTD方法預(yù)測能力提高,并且對正負樣本的預(yù)測能力相差無幾且比較均衡。嘗試性的考慮將NV與CTD特征提取方法相結(jié)合,一條蛋白質(zhì)序列可以被描述成為一個21+60=81維的向量,以此構(gòu)建出一個特征集合,在使用SVM分類器經(jīng)過5-折交叉驗證后,最終的總精度為67.07%,敏感性與特異性分別為70.73%和63.41%(表4-2),從中可以得到以下結(jié)論,預(yù)測結(jié)果相比較于單一使用NV方法變差,說明CTD方法對于HBP預(yù)測效果不佳。除此之外,它們的詳細的5種評價指標結(jié)果可以在表4-2中找到,圖4-1展示了每一種模型的ROC曲線及各自的AUC值。由此我們可以看出,相比較這兩種特征提取方法來說,NV方法的表現(xiàn)力總是強于CTD方法的。但是這兩種方法的預(yù)測總精度仍然不夠理想,分類效果都不令人滿意,因此很有必要嘗試其他方法來更加準確的為HBP分類預(yù)測。表4-2基于NV方法的詳細預(yù)測結(jié)果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709圖4-1基于NV與CTD方法的ROC曲線及其AUC
本文編號:3110413
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3110413.html
最近更新
教材專著