天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二酰化位點(diǎn)分析與預(yù)測(cè)

發(fā)布時(shí)間:2021-08-20 10:50
  翻譯后修飾是對(duì)蛋白質(zhì)中的一個(gè)或多個(gè)氨基酸添加官能團(tuán)(如烷基、烯基、苯基等)改變其化學(xué)性質(zhì)或者空間結(jié)構(gòu),從而進(jìn)一步影響蛋白質(zhì)在細(xì)胞生命活動(dòng)過(guò)程的調(diào)控作用。在眾多的蛋白質(zhì)翻譯后修飾中,賴氨酸丙二;菍⒈;鶊F(tuán)從丙二酰輔酶A轉(zhuǎn)移到賴氨酸殘基上的一種化學(xué)修飾。研究證明,這一修飾能調(diào)控肝臟組織中葡萄糖和脂肪酸的代謝,并且與二型糖尿病和肥胖癥等高發(fā)病率的代謝疾病相關(guān)。因此,對(duì)賴氨酸丙二;稽c(diǎn)的精準(zhǔn)識(shí)別能有助于人們深入了解相關(guān)疾病的發(fā)病機(jī)理以及治療方法。本文基于實(shí)驗(yàn)驗(yàn)證的真實(shí)數(shù)據(jù),提出了一個(gè)用于精準(zhǔn)預(yù)測(cè)賴氨酸丙二;稽c(diǎn)的集成學(xué)習(xí)框架,主要工作與結(jié)論如下:(1)賴氨酸丙二酰化數(shù)據(jù)集的收集與預(yù)處理。首先,我們從公共數(shù)據(jù)庫(kù)中收集實(shí)驗(yàn)驗(yàn)證過(guò)的丙二;揎椀牡鞍踪|(zhì)序列。然后,以賴氨酸(K)為中心截取長(zhǎng)度為25個(gè)氨基酸的殘基序列,若中心賴氨酸(K)被丙二酰化則定義為正樣本,否則定義為負(fù)樣本,以此構(gòu)建用于機(jī)器學(xué)習(xí)建模的高質(zhì)量的賴氨酸丙二酰化位點(diǎn)數(shù)據(jù)集。此外,通過(guò)序列比對(duì)的方式探究了正負(fù)樣本序列的差異性,并發(fā)現(xiàn)正負(fù)樣本之間存在大量的區(qū)域性重疊;谛蛄械娜轿惶卣魈剿,找尋正負(fù)樣本之間潛在的差異性,為構(gòu)建高... 

【文章來(lái)源】:桂林電子科技大學(xué)廣西壯族自治區(qū)

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二;稽c(diǎn)分析與預(yù)測(cè)


賴氨酸丙二酰化示意圖

蛋白質(zhì)序列,丙二酰,賴氨酸,開發(fā)流程


第一章 引言§1.3 研究?jī)?nèi)容、方法及創(chuàng)新點(diǎn)盡管現(xiàn)有工作加速了對(duì)賴氨酸丙二酰化位點(diǎn)的預(yù)測(cè)研究,但他們使用的特征或機(jī)器學(xué)習(xí)算法較為單一,很難全面有效地識(shí)別生物序列中潛在的賴氨酸丙二酰化位點(diǎn)。本研究在現(xiàn)有工作的基礎(chǔ)上,針對(duì)其中的不足,提出了一整套賴氨酸丙二;稽c(diǎn)預(yù)測(cè)的方案。我們首先對(duì)蛋白質(zhì)序列進(jìn)行了全面的分析,實(shí)現(xiàn)了 11 種特征提取算法。然后設(shè)計(jì)實(shí)現(xiàn)了一種新的集成機(jī)器學(xué)習(xí)模型,稱為 kmal-sp,該模型融合了支持向量機(jī)、隨機(jī)森林、梯度提升決策樹、K 近鄰和邏輯回歸五種機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì),在預(yù)測(cè)性能上有了很大的提高,最后基于已有的集成學(xué)習(xí)模型開發(fā)了一個(gè)賴氨酸丙二;稽c(diǎn)在線預(yù)測(cè)服務(wù)器(整體開發(fā)流程如圖 1-2 所示)。以下重點(diǎn)說(shuō)明本研究的研究?jī)?nèi)容、方法及創(chuàng)新點(diǎn)。

流程圖,丙二酰,賴氨酸,樣本


圖 2-1 賴氨酸丙二;(fù)樣本截取流程圖按照上述步驟,對(duì)收集到的蛋白質(zhì)序列做預(yù)處理,最后我們分別得到了大腸桿菌,小鼠,人類的 1553,2609,3885 個(gè)正樣本,7830,26655,52027 個(gè)負(fù)樣本(該數(shù)據(jù)集下載地址為 http://kmalsp.erc.monash.edu/download.jsp/)。為了避免非平衡數(shù)據(jù)集對(duì)模型性能的影響,我們隨機(jī)選取與正樣本數(shù)量等量的負(fù)樣本構(gòu)建最終的基準(zhǔn)數(shù)據(jù)集并把基準(zhǔn)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和獨(dú)立測(cè)試集,分別用于構(gòu)建模型以及驗(yàn)證模型性能及其泛化能力(具體數(shù)據(jù)統(tǒng)計(jì)匯總表請(qǐng)參考表 2-1)。表 2-1 本研究使用的丙二酰化數(shù)據(jù)集的統(tǒng)計(jì)概要數(shù)據(jù)集 大腸桿菌 小鼠 人類蛋白質(zhì)數(shù)量(全部/相似度小于 70%)595/592 1174/1131 1660/1609正樣本數(shù)量(全部/相似度小于 70%)1746/1553 3435/2906 4579/3885

【參考文獻(xiàn)】:
期刊論文
[1]決策樹分類模型預(yù)測(cè)蛋白質(zhì)相互作用的應(yīng)用研究[J]. 郭曉龍,蔣艷,邱路.  生物醫(yī)學(xué)工程學(xué)雜志. 2013(05)
[2]蛋白質(zhì)翻譯后修飾研究進(jìn)展[J]. 郭會(huì)燦.  生物技術(shù)通報(bào). 2011(07)
[3]基于集成學(xué)習(xí)方法的蛋白質(zhì)相互作用預(yù)測(cè)[J]. 朱敏,張永清,李夢(mèng)龍,周大威,黃俊.  四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2011(03)
[4]利用決策樹方法對(duì)蛋白質(zhì)鑒定結(jié)果二次評(píng)價(jià)[J]. 于長(zhǎng)永,王國(guó)仁,吳俊杰,毛克明.  小型微型計(jì)算機(jī)系統(tǒng). 2010(04)
[5]基于K近鄰的蛋白質(zhì)功能的預(yù)測(cè)方法[J]. 倪青山,王正志,黎剛果,孟祥林.  生物醫(yī)學(xué)工程研究. 2009(02)
[6]決策樹算法在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)問(wèn)題中的應(yīng)用研究[J]. 張維東,朱宏明,周聞鈞.  微型電腦應(yīng)用. 2009(02)
[7]異源蛋白質(zhì)相互作用數(shù)據(jù)整合算法的進(jìn)展[J]. 王文馨,陳宇光,石鐵流.  生命科學(xué). 2008(05)
[8]應(yīng)用支持向量機(jī)預(yù)測(cè)蛋白質(zhì)相互作用位點(diǎn)[J]. 孟煒,王飛飛,彭新俊,沈稱意,王翼飛.  應(yīng)用科學(xué)學(xué)報(bào). 2008(04)
[9]基于支持向量機(jī)的蛋白質(zhì)相互作用預(yù)測(cè)[J]. 李哲謙,劉書朋,嚴(yán)壯志,黃海.  電子測(cè)量技術(shù). 2008(05)
[10]集成學(xué)習(xí)算法的差異性及性能比較[J]. 李凱,崔麗娟.  計(jì)算機(jī)工程. 2008(06)

博士論文
[1]蛋白質(zhì)構(gòu)效關(guān)系的計(jì)算方法研究[D]. 權(quán)麗君.蘇州大學(xué) 2017
[2]基于支持向量機(jī)的蛋白質(zhì)分類研究[D]. 張紹武.西北工業(yè)大學(xué) 2004

碩士論文
[1]基于入侵檢測(cè)的數(shù)據(jù)處理分析關(guān)鍵算法研究[D]. 王澤芳.西南科技大學(xué) 2016
[2]基于集成學(xué)習(xí)與多標(biāo)記學(xué)習(xí)的蛋白質(zhì)分類方法研究[D]. 陳偉程.廈門大學(xué) 2014
[3]支持向量機(jī)中Fourier核的性能分析[D]. 張勇.華東師范大學(xué) 2008



本文編號(hào):3353361

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/3353361.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cc4a2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com