天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于序列信息的荷爾蒙連接蛋白預(yù)測(cè)算法研究

發(fā)布時(shí)間:2021-03-31 00:19
  荷爾蒙連接蛋白(HBP)可以選擇性地、非共價(jià)地與荷爾蒙蛋白(HP)相互作用,從而充當(dāng)HP的調(diào)節(jié)劑或抑制劑。準(zhǔn)確地識(shí)別HBP也為正確理解細(xì)胞生長(zhǎng)、發(fā)育和功能機(jī)制提供重要的前提保障。傳統(tǒng)識(shí)別HBP的方法通常要通過(guò)復(fù)雜的生物學(xué)實(shí)驗(yàn),耗時(shí)耗力且速度緩慢。近幾年來(lái),為了改善這個(gè)弊端,科研人員開始嘗試使用機(jī)器學(xué)習(xí)的方法來(lái)識(shí)別HBP,使得這種缺點(diǎn)得以改善。但是,不同的機(jī)器學(xué)習(xí)算法有著不同的預(yù)測(cè)效果,絕大多數(shù)的算法預(yù)測(cè)效果不盡如人意,分類能力有待提高。因此,本文通過(guò)嘗試多種算法,搭建多種預(yù)測(cè)模型,使用交叉驗(yàn)證的方法與常用評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估的方式,從眾多模型中選取出具有最優(yōu)預(yù)測(cè)效果的模型作為最終的HBP預(yù)測(cè)模型。本文從Uniprot數(shù)據(jù)庫(kù)下載了一套HBP原始數(shù)據(jù),通過(guò)嚴(yán)格的篩選構(gòu)建出了一組精準(zhǔn)的基準(zhǔn)數(shù)據(jù)集。我們嘗試了多種特征提取方法,利用支持向量機(jī)(SVM)分類算法對(duì)HBP與non-HBP(非HBP)進(jìn)行分類,并基于5-折交叉驗(yàn)證評(píng)價(jià)模型的性能,產(chǎn)生了如下的結(jié)果:(一)使用CTD方法提取HBP序列中氨基酸位置、組成與分布等信息,最終得到60.16%的總成功率;(二)使用自然矢量法(NV)提取HBP序列中的... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:53 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于序列信息的荷爾蒙連接蛋白預(yù)測(cè)算法研究


一個(gè)HBP(紅色部分)與兩個(gè)HP(黃色部分)結(jié)合的示意圖

流程圖,論文,流程圖


第一章緒論3文的研究:(一):收集得到一套客觀且公正的基準(zhǔn)數(shù)據(jù)集去訓(xùn)練模型,并提供一套精準(zhǔn)且合理的獨(dú)立集去檢驗(yàn)得到的模型;(二):嘗試選擇多種特征提取算法去表征蛋白質(zhì)序列信息,即尋找、利用最好的表達(dá)方法將蛋白質(zhì)序列信息描述成計(jì)算機(jī)能夠識(shí)別出來(lái)的離散數(shù)字的形式;(三):嘗試選擇不同種類的分類器算法以求最大化正負(fù)樣本之間的差異性;(四):通過(guò)使用交叉驗(yàn)證的方法得到一系列評(píng)價(jià)指標(biāo),進(jìn)而評(píng)價(jià)所構(gòu)建出來(lái)的模型的預(yù)測(cè)性能;(五):選擇出一個(gè)表現(xiàn)力最好、魯棒性最佳的模型搭建出一個(gè)用戶友好型的在線服務(wù)網(wǎng)站,方便其他從事HBP研究的科研人員去使用。按照以上五個(gè)方面的內(nèi)容提要,將如下安排本篇論文的結(jié)構(gòu)與內(nèi)容,并按照?qǐng)D1-2的思路去探索預(yù)測(cè)HBP的最優(yōu)模型:圖1-2論文計(jì)算流程圖第一章為論文的緒論部分,言簡(jiǎn)意賅的闡明了HBP的生物學(xué)定義與其在人體中發(fā)揮的重要功能,從而引出正確預(yù)測(cè)HBP的意義與必要性。另外,闡述了目前國(guó)內(nèi)外已經(jīng)存在的對(duì)HBP預(yù)測(cè)算法的研究現(xiàn)狀與本論文進(jìn)行研究的重要性。最后,簡(jiǎn)要描述了本文的結(jié)構(gòu)與內(nèi)容。第二章為論文的數(shù)據(jù)集構(gòu)建部分,在此環(huán)節(jié)中詳細(xì)的闡述了構(gòu)建基準(zhǔn)數(shù)據(jù)集

ROC曲線,ROC曲線,方法,特征提取


第四章基于多種不同特征提取方法下的模型構(gòu)建15=[,,2,…,,,2,…,,2](4-6)其中,A,R,…,Y為20種常見氨基酸。4.2.2基于NV方法的交叉驗(yàn)證結(jié)果由4.2.1章節(jié)可知,基于NV特征提取方法,一條蛋白質(zhì)序列可以用一個(gè)60維的向量來(lái)表示,以此構(gòu)建出一個(gè)特征集合,并利用這個(gè)特征集合搭建一個(gè)SVM模型。在使用SVM分類器經(jīng)過(guò)5-折交叉驗(yàn)證后,最終的總精度為70.33%,敏感性與特異性分別為70.73%和69.92%(表4-2),從中可以得到如下結(jié)論,NV特征提取方法較CTD方法預(yù)測(cè)能力提高,并且對(duì)正負(fù)樣本的預(yù)測(cè)能力相差無(wú)幾且比較均衡。嘗試性的考慮將NV與CTD特征提取方法相結(jié)合,一條蛋白質(zhì)序列可以被描述成為一個(gè)21+60=81維的向量,以此構(gòu)建出一個(gè)特征集合,在使用SVM分類器經(jīng)過(guò)5-折交叉驗(yàn)證后,最終的總精度為67.07%,敏感性與特異性分別為70.73%和63.41%(表4-2),從中可以得到以下結(jié)論,預(yù)測(cè)結(jié)果相比較于單一使用NV方法變差,說(shuō)明CTD方法對(duì)于HBP預(yù)測(cè)效果不佳。除此之外,它們的詳細(xì)的5種評(píng)價(jià)指標(biāo)結(jié)果可以在表4-2中找到,圖4-1展示了每一種模型的ROC曲線及各自的AUC值。由此我們可以看出,相比較這兩種特征提取方法來(lái)說(shuō),NV方法的表現(xiàn)力總是強(qiáng)于CTD方法的。但是這兩種方法的預(yù)測(cè)總精度仍然不夠理想,分類效果都不令人滿意,因此很有必要嘗試其他方法來(lái)更加準(zhǔn)確的為HBP分類預(yù)測(cè)。表4-2基于NV方法的詳細(xì)預(yù)測(cè)結(jié)果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709圖4-1基于NV與CTD方法的ROC曲線及其AUC


本文編號(hào):3110413

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3110413.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶34f61***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com