當(dāng)前位置：主頁(yè) > 碩博論文 > 基礎(chǔ)科學(xué)碩士論文 >

基于序列信息的荷爾蒙連接蛋白預(yù)測(cè)算法研究

發(fā)布時(shí)間：2021-03-31 00:19

　　荷爾蒙連接蛋白（HBP）可以選擇性地、非共價(jià)地與荷爾蒙蛋白（HP）相互作用,從而充當(dāng)HP的調(diào)節(jié)劑或抑制劑。準(zhǔn)確地識(shí)別HBP也為正確理解細(xì)胞生長(zhǎng)、發(fā)育和功能機(jī)制提供重要的前提保障。傳統(tǒng)識(shí)別HBP的方法通常要通過(guò)復(fù)雜的生物學(xué)實(shí)驗(yàn),耗時(shí)耗力且速度緩慢。近幾年來(lái),為了改善這個(gè)弊端,科研人員開始嘗試使用機(jī)器學(xué)習(xí)的方法來(lái)識(shí)別HBP,使得這種缺點(diǎn)得以改善。但是,不同的機(jī)器學(xué)習(xí)算法有著不同的預(yù)測(cè)效果,絕大多數(shù)的算法預(yù)測(cè)效果不盡如人意,分類能力有待提高。因此,本文通過(guò)嘗試多種算法,搭建多種預(yù)測(cè)模型,使用交叉驗(yàn)證的方法與常用評(píng)價(jià)指標(biāo)進(jìn)行評(píng)估的方式,從眾多模型中選取出具有最優(yōu)預(yù)測(cè)效果的模型作為最終的HBP預(yù)測(cè)模型。本文從Uniprot數(shù)據(jù)庫(kù)下載了一套HBP原始數(shù)據(jù),通過(guò)嚴(yán)格的篩選構(gòu)建出了一組精準(zhǔn)的基準(zhǔn)數(shù)據(jù)集。我們嘗試了多種特征提取方法,利用支持向量機(jī)（SVM）分類算法對(duì)HBP與non-HBP（非HBP）進(jìn)行分類,并基于5-折交叉驗(yàn)證評(píng)價(jià)模型的性能,產(chǎn)生了如下的結(jié)果:（一）使用CTD方法提取HBP序列中氨基酸位置、組成與分布等信息,最終得到60.16%的總成功率;（二）使用自然矢量法（NV）提取HBP序列中的...

【文章來(lái)源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：53 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

一個(gè)HBP（紅色部分）與兩個(gè)HP（黃色部分）結(jié)合的示意圖

流程圖,論文,流程圖

第一章緒論3文的研究：（一）：收集得到一套客觀且公正的基準(zhǔn)數(shù)據(jù)集去訓(xùn)練模型，并提供一套精準(zhǔn)且合理的獨(dú)立集去檢驗(yàn)得到的模型；（二）：嘗試選擇多種特征提取算法去表征蛋白質(zhì)序列信息，即尋找、利用最好的表達(dá)方法將蛋白質(zhì)序列信息描述成計(jì)算機(jī)能夠識(shí)別出來(lái)的離散數(shù)字的形式；（三）：嘗試選擇不同種類的分類器算法以求最大化正負(fù)樣本之間的差異性；（四）：通過(guò)使用交叉驗(yàn)證的方法得到一系列評(píng)價(jià)指標(biāo)，進(jìn)而評(píng)價(jià)所構(gòu)建出來(lái)的模型的預(yù)測(cè)性能；（五）：選擇出一個(gè)表現(xiàn)力最好、魯棒性最佳的模型搭建出一個(gè)用戶友好型的在線服務(wù)網(wǎng)站，方便其他從事HBP研究的科研人員去使用。按照以上五個(gè)方面的內(nèi)容提要，將如下安排本篇論文的結(jié)構(gòu)與內(nèi)容，并按照?qǐng)D1-2的思路去探索預(yù)測(cè)HBP的最優(yōu)模型：圖1-2論文計(jì)算流程圖第一章為論文的緒論部分，言簡(jiǎn)意賅的闡明了HBP的生物學(xué)定義與其在人體中發(fā)揮的重要功能，從而引出正確預(yù)測(cè)HBP的意義與必要性。另外，闡述了目前國(guó)內(nèi)外已經(jīng)存在的對(duì)HBP預(yù)測(cè)算法的研究現(xiàn)狀與本論文進(jìn)行研究的重要性。最后，簡(jiǎn)要描述了本文的結(jié)構(gòu)與內(nèi)容。第二章為論文的數(shù)據(jù)集構(gòu)建部分，在此環(huán)節(jié)中詳細(xì)的闡述了構(gòu)建基準(zhǔn)數(shù)據(jù)集

ROC曲線,ROC曲線,方法,特征提取

第四章基于多種不同特征提取方法下的模型構(gòu)建15=[,,2,…,,,2,…,,2](4-6)其中，A，R，…，Y為20種常見氨基酸。4.2.2基于NV方法的交叉驗(yàn)證結(jié)果由4.2.1章節(jié)可知，基于NV特征提取方法，一條蛋白質(zhì)序列可以用一個(gè)60維的向量來(lái)表示，以此構(gòu)建出一個(gè)特征集合，并利用這個(gè)特征集合搭建一個(gè)SVM模型。在使用SVM分類器經(jīng)過(guò)5-折交叉驗(yàn)證后，最終的總精度為70.33%，敏感性與特異性分別為70.73%和69.92%（表4-2），從中可以得到如下結(jié)論，NV特征提取方法較CTD方法預(yù)測(cè)能力提高，并且對(duì)正負(fù)樣本的預(yù)測(cè)能力相差無(wú)幾且比較均衡。嘗試性的考慮將NV與CTD特征提取方法相結(jié)合，一條蛋白質(zhì)序列可以被描述成為一個(gè)21+60=81維的向量，以此構(gòu)建出一個(gè)特征集合，在使用SVM分類器經(jīng)過(guò)5-折交叉驗(yàn)證后，最終的總精度為67.07%，敏感性與特異性分別為70.73%和63.41%（表4-2），從中可以得到以下結(jié)論，預(yù)測(cè)結(jié)果相比較于單一使用NV方法變差，說(shuō)明CTD方法對(duì)于HBP預(yù)測(cè)效果不佳。除此之外，它們的詳細(xì)的5種評(píng)價(jià)指標(biāo)結(jié)果可以在表4-2中找到，圖4-1展示了每一種模型的ROC曲線及各自的AUC值。由此我們可以看出，相比較這兩種特征提取方法來(lái)說(shuō)，NV方法的表現(xiàn)力總是強(qiáng)于CTD方法的。但是這兩種方法的預(yù)測(cè)總精度仍然不夠理想，分類效果都不令人滿意，因此很有必要嘗試其他方法來(lái)更加準(zhǔn)確的為HBP分類預(yù)測(cè)。表4-2基于NV方法的詳細(xì)預(yù)測(cè)結(jié)果特征提取方法Cg(%)(%)(%)MccAUCNV(60-D)2-52-1370.7369.9270.330.4070.762CTD+NV(81-D)292-770.7363.4167.070.3420.709圖4-1基于NV與CTD方法的ROC曲線及其AUC

本文編號(hào)：3110413

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/benkebiyelunwen/3110413.html

上一篇：大地電磁測(cè)深時(shí)間域標(biāo)定、阻抗估計(jì)及去噪技術(shù)研究
下一篇：基于CRISPR/Cas13的vlincRNA生物學(xué)功能研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于序列信息的荷爾蒙連接蛋白預(yù)測(cè)算法研究