當(dāng)前位置：主頁(yè) > 醫(yī)學(xué)論文 > 基礎(chǔ)醫(yī)學(xué)論文 >

基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二酰化位點(diǎn)分析與預(yù)測(cè)

發(fā)布時(shí)間：2021-08-20 10:50

　　翻譯后修飾是對(duì)蛋白質(zhì)中的一個(gè)或多個(gè)氨基酸添加官能團(tuán)（如烷基、烯基、苯基等）改變其化學(xué)性質(zhì)或者空間結(jié)構(gòu),從而進(jìn)一步影響蛋白質(zhì)在細(xì)胞生命活動(dòng)過(guò)程的調(diào)控作用。在眾多的蛋白質(zhì)翻譯后修飾中,賴氨酸丙二�；菍⒈；鶊F(tuán)從丙二酰輔酶A轉(zhuǎn)移到賴氨酸殘基上的一種化學(xué)修飾。研究證明,這一修飾能調(diào)控肝臟組織中葡萄糖和脂肪酸的代謝,并且與二型糖尿病和肥胖癥等高發(fā)病率的代謝疾病相關(guān)。因此,對(duì)賴氨酸丙二�；稽c(diǎn)的精準(zhǔn)識(shí)別能有助于人們深入了解相關(guān)疾病的發(fā)病機(jī)理以及治療方法。本文基于實(shí)驗(yàn)驗(yàn)證的真實(shí)數(shù)據(jù),提出了一個(gè)用于精準(zhǔn)預(yù)測(cè)賴氨酸丙二�；稽c(diǎn)的集成學(xué)習(xí)框架,主要工作與結(jié)論如下:（1）賴氨酸丙二酰化數(shù)據(jù)集的收集與預(yù)處理。首先,我們從公共數(shù)據(jù)庫(kù)中收集實(shí)驗(yàn)驗(yàn)證過(guò)的丙二�；揎椀牡鞍踪|(zhì)序列。然后,以賴氨酸（K）為中心截取長(zhǎng)度為25個(gè)氨基酸的殘基序列,若中心賴氨酸（K）被丙二酰化則定義為正樣本,否則定義為負(fù)樣本,以此構(gòu)建用于機(jī)器學(xué)習(xí)建模的高質(zhì)量的賴氨酸丙二酰化位點(diǎn)數(shù)據(jù)集。此外,通過(guò)序列比對(duì)的方式探究了正負(fù)樣本序列的差異性,并發(fā)現(xiàn)正負(fù)樣本之間存在大量的區(qū)域性重疊�；谛蛄械娜轿惶卣魈剿�,找尋正負(fù)樣本之間潛在的差異性,為構(gòu)建高...

【文章來(lái)源】：桂林電子科技大學(xué)廣西壯族自治區(qū)

【文章頁(yè)數(shù)】：71 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二�；稽c(diǎn)分析與預(yù)測(cè)

賴氨酸丙二酰化示意圖

蛋白質(zhì)序列,丙二酰,賴氨酸,開發(fā)流程

第一章引言§1.3 研究?jī)?nèi)容、方法及創(chuàng)新點(diǎn)盡管現(xiàn)有工作加速了對(duì)賴氨酸丙二酰化位點(diǎn)的預(yù)測(cè)研究，但他們使用的特征或機(jī)器學(xué)習(xí)算法較為單一，很難全面有效地識(shí)別生物序列中潛在的賴氨酸丙二酰化位點(diǎn)。本研究在現(xiàn)有工作的基礎(chǔ)上，針對(duì)其中的不足，提出了一整套賴氨酸丙二�；稽c(diǎn)預(yù)測(cè)的方案。我們首先對(duì)蛋白質(zhì)序列進(jìn)行了全面的分析，實(shí)現(xiàn)了 11 種特征提取算法。然后設(shè)計(jì)實(shí)現(xiàn)了一種新的集成機(jī)器學(xué)習(xí)模型，稱為 kmal-sp，該模型融合了支持向量機(jī)、隨機(jī)森林、梯度提升決策樹、K 近鄰和邏輯回歸五種機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì)，在預(yù)測(cè)性能上有了很大的提高，最后基于已有的集成學(xué)習(xí)模型開發(fā)了一個(gè)賴氨酸丙二�；稽c(diǎn)在線預(yù)測(cè)服務(wù)器（整體開發(fā)流程如圖 1-2 所示）。以下重點(diǎn)說(shuō)明本研究的研究?jī)?nèi)容、方法及創(chuàng)新點(diǎn)。

流程圖,丙二酰,賴氨酸,樣本

圖 2-1 賴氨酸丙二�；�(fù)樣本截取流程圖按照上述步驟，對(duì)收集到的蛋白質(zhì)序列做預(yù)處理，最后我們分別得到了大腸桿菌，小鼠，人類的 1553，2609，3885 個(gè)正樣本，7830，26655，52027 個(gè)負(fù)樣本（該數(shù)據(jù)集下載地址為 http://kmalsp.erc.monash.edu/download.jsp/）。為了避免非平衡數(shù)據(jù)集對(duì)模型性能的影響，我們隨機(jī)選取與正樣本數(shù)量等量的負(fù)樣本構(gòu)建最終的基準(zhǔn)數(shù)據(jù)集并把基準(zhǔn)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和獨(dú)立測(cè)試集，分別用于構(gòu)建模型以及驗(yàn)證模型性能及其泛化能力（具體數(shù)據(jù)統(tǒng)計(jì)匯總表請(qǐng)參考表 2-1）。表 2-1 本研究使用的丙二酰化數(shù)據(jù)集的統(tǒng)計(jì)概要數(shù)據(jù)集大腸桿菌小鼠人類蛋白質(zhì)數(shù)量（全部/相似度小于 70%）595/592 1174/1131 1660/1609正樣本數(shù)量（全部/相似度小于 70%）1746/1553 3435/2906 4579/3885

【參考文獻(xiàn)】：
期刊論文
[1]決策樹分類模型預(yù)測(cè)蛋白質(zhì)相互作用的應(yīng)用研究[J]. 郭曉龍,蔣艷,邱路.  生物醫(yī)學(xué)工程學(xué)雜志. 2013(05)
[2]蛋白質(zhì)翻譯后修飾研究進(jìn)展[J]. 郭會(huì)燦.  生物技術(shù)通報(bào). 2011(07)
[3]基于集成學(xué)習(xí)方法的蛋白質(zhì)相互作用預(yù)測(cè)[J]. 朱敏,張永清,李夢(mèng)龍,周大威,黃俊.  四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2011(03)
[4]利用決策樹方法對(duì)蛋白質(zhì)鑒定結(jié)果二次評(píng)價(jià)[J]. 于長(zhǎng)永,王國(guó)仁,吳俊杰,毛克明.  小型微型計(jì)算機(jī)系統(tǒng). 2010(04)
[5]基于K近鄰的蛋白質(zhì)功能的預(yù)測(cè)方法[J]. 倪青山,王正志,黎剛果,孟祥林.  生物醫(yī)學(xué)工程研究. 2009(02)
[6]決策樹算法在蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)問(wèn)題中的應(yīng)用研究[J]. 張維東,朱宏明,周聞鈞.  微型電腦應(yīng)用. 2009(02)
[7]異源蛋白質(zhì)相互作用數(shù)據(jù)整合算法的進(jìn)展[J]. 王文馨,陳宇光,石鐵流.  生命科學(xué). 2008(05)
[8]應(yīng)用支持向量機(jī)預(yù)測(cè)蛋白質(zhì)相互作用位點(diǎn)[J]. 孟煒,王飛飛,彭新俊,沈稱意,王翼飛.  應(yīng)用科學(xué)學(xué)報(bào). 2008(04)
[9]基于支持向量機(jī)的蛋白質(zhì)相互作用預(yù)測(cè)[J]. 李哲謙,劉書朋,嚴(yán)壯志,黃海.  電子測(cè)量技術(shù). 2008(05)
[10]集成學(xué)習(xí)算法的差異性及性能比較[J]. 李凱,崔麗娟.  計(jì)算機(jī)工程. 2008(06)

博士論文
[1]蛋白質(zhì)構(gòu)效關(guān)系的計(jì)算方法研究[D]. 權(quán)麗君.蘇州大學(xué) 2017
[2]基于支持向量機(jī)的蛋白質(zhì)分類研究[D]. 張紹武.西北工業(yè)大學(xué) 2004

碩士論文
[1]基于入侵檢測(cè)的數(shù)據(jù)處理分析關(guān)鍵算法研究[D]. 王澤芳.西南科技大學(xué) 2016
[2]基于集成學(xué)習(xí)與多標(biāo)記學(xué)習(xí)的蛋白質(zhì)分類方法研究[D]. 陳偉程.廈門大學(xué) 2014
[3]支持向量機(jī)中Fourier核的性能分析[D]. 張勇.華東師范大學(xué) 2008

本文編號(hào)：3353361

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/yixuelunwen/jichuyixue/3353361.html

上一篇：RTA與LANA共調(diào)控let-7a/RBPJ信號(hào)在KSHV復(fù)制中的作用
下一篇：約翰·奧爾森：新冠病毒顯然是自然產(chǎn)生的病毒

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二酰化位點(diǎn)分析與預(yù)測(cè)