基于有效特征探索和集成學(xué)習(xí)模型的賴氨酸丙二酰化位點分析與預(yù)測
發(fā)布時間:2021-08-20 10:50
翻譯后修飾是對蛋白質(zhì)中的一個或多個氨基酸添加官能團(tuán)(如烷基、烯基、苯基等)改變其化學(xué)性質(zhì)或者空間結(jié)構(gòu),從而進(jìn)一步影響蛋白質(zhì)在細(xì)胞生命活動過程的調(diào)控作用。在眾多的蛋白質(zhì)翻譯后修飾中,賴氨酸丙二;菍⒈;鶊F(tuán)從丙二酰輔酶A轉(zhuǎn)移到賴氨酸殘基上的一種化學(xué)修飾。研究證明,這一修飾能調(diào)控肝臟組織中葡萄糖和脂肪酸的代謝,并且與二型糖尿病和肥胖癥等高發(fā)病率的代謝疾病相關(guān)。因此,對賴氨酸丙二;稽c的精準(zhǔn)識別能有助于人們深入了解相關(guān)疾病的發(fā)病機(jī)理以及治療方法。本文基于實驗驗證的真實數(shù)據(jù),提出了一個用于精準(zhǔn)預(yù)測賴氨酸丙二;稽c的集成學(xué)習(xí)框架,主要工作與結(jié)論如下:(1)賴氨酸丙二;瘮(shù)據(jù)集的收集與預(yù)處理。首先,我們從公共數(shù)據(jù)庫中收集實驗驗證過的丙二酰化修飾的蛋白質(zhì)序列。然后,以賴氨酸(K)為中心截取長度為25個氨基酸的殘基序列,若中心賴氨酸(K)被丙二酰化則定義為正樣本,否則定義為負(fù)樣本,以此構(gòu)建用于機(jī)器學(xué)習(xí)建模的高質(zhì)量的賴氨酸丙二;稽c數(shù)據(jù)集。此外,通過序列比對的方式探究了正負(fù)樣本序列的差異性,并發(fā)現(xiàn)正負(fù)樣本之間存在大量的區(qū)域性重疊。基于序列的全方位特征探索,找尋正負(fù)樣本之間潛在的差異性,為構(gòu)建高...
【文章來源】:桂林電子科技大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
賴氨酸丙二酰化示意圖
第一章 引言§1.3 研究內(nèi)容、方法及創(chuàng)新點盡管現(xiàn)有工作加速了對賴氨酸丙二;稽c的預(yù)測研究,但他們使用的特征或機(jī)器學(xué)習(xí)算法較為單一,很難全面有效地識別生物序列中潛在的賴氨酸丙二;稽c。本研究在現(xiàn)有工作的基礎(chǔ)上,針對其中的不足,提出了一整套賴氨酸丙二酰化位點預(yù)測的方案。我們首先對蛋白質(zhì)序列進(jìn)行了全面的分析,實現(xiàn)了 11 種特征提取算法。然后設(shè)計實現(xiàn)了一種新的集成機(jī)器學(xué)習(xí)模型,稱為 kmal-sp,該模型融合了支持向量機(jī)、隨機(jī)森林、梯度提升決策樹、K 近鄰和邏輯回歸五種機(jī)器學(xué)習(xí)算法的優(yōu)勢,在預(yù)測性能上有了很大的提高,最后基于已有的集成學(xué)習(xí)模型開發(fā)了一個賴氨酸丙二;稽c在線預(yù)測服務(wù)器(整體開發(fā)流程如圖 1-2 所示)。以下重點說明本研究的研究內(nèi)容、方法及創(chuàng)新點。
圖 2-1 賴氨酸丙二酰化正負(fù)樣本截取流程圖按照上述步驟,對收集到的蛋白質(zhì)序列做預(yù)處理,最后我們分別得到了大腸桿菌,小鼠,人類的 1553,2609,3885 個正樣本,7830,26655,52027 個負(fù)樣本(該數(shù)據(jù)集下載地址為 http://kmalsp.erc.monash.edu/download.jsp/)。為了避免非平衡數(shù)據(jù)集對模型性能的影響,我們隨機(jī)選取與正樣本數(shù)量等量的負(fù)樣本構(gòu)建最終的基準(zhǔn)數(shù)據(jù)集并把基準(zhǔn)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和獨立測試集,分別用于構(gòu)建模型以及驗證模型性能及其泛化能力(具體數(shù)據(jù)統(tǒng)計匯總表請參考表 2-1)。表 2-1 本研究使用的丙二;瘮(shù)據(jù)集的統(tǒng)計概要數(shù)據(jù)集 大腸桿菌 小鼠 人類蛋白質(zhì)數(shù)量(全部/相似度小于 70%)595/592 1174/1131 1660/1609正樣本數(shù)量(全部/相似度小于 70%)1746/1553 3435/2906 4579/3885
【參考文獻(xiàn)】:
期刊論文
[1]決策樹分類模型預(yù)測蛋白質(zhì)相互作用的應(yīng)用研究[J]. 郭曉龍,蔣艷,邱路. 生物醫(yī)學(xué)工程學(xué)雜志. 2013(05)
[2]蛋白質(zhì)翻譯后修飾研究進(jìn)展[J]. 郭會燦. 生物技術(shù)通報. 2011(07)
[3]基于集成學(xué)習(xí)方法的蛋白質(zhì)相互作用預(yù)測[J]. 朱敏,張永清,李夢龍,周大威,黃俊. 四川大學(xué)學(xué)報(工程科學(xué)版). 2011(03)
[4]利用決策樹方法對蛋白質(zhì)鑒定結(jié)果二次評價[J]. 于長永,王國仁,吳俊杰,毛克明. 小型微型計算機(jī)系統(tǒng). 2010(04)
[5]基于K近鄰的蛋白質(zhì)功能的預(yù)測方法[J]. 倪青山,王正志,黎剛果,孟祥林. 生物醫(yī)學(xué)工程研究. 2009(02)
[6]決策樹算法在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測問題中的應(yīng)用研究[J]. 張維東,朱宏明,周聞鈞. 微型電腦應(yīng)用. 2009(02)
[7]異源蛋白質(zhì)相互作用數(shù)據(jù)整合算法的進(jìn)展[J]. 王文馨,陳宇光,石鐵流. 生命科學(xué). 2008(05)
[8]應(yīng)用支持向量機(jī)預(yù)測蛋白質(zhì)相互作用位點[J]. 孟煒,王飛飛,彭新俊,沈稱意,王翼飛. 應(yīng)用科學(xué)學(xué)報. 2008(04)
[9]基于支持向量機(jī)的蛋白質(zhì)相互作用預(yù)測[J]. 李哲謙,劉書朋,嚴(yán)壯志,黃海. 電子測量技術(shù). 2008(05)
[10]集成學(xué)習(xí)算法的差異性及性能比較[J]. 李凱,崔麗娟. 計算機(jī)工程. 2008(06)
博士論文
[1]蛋白質(zhì)構(gòu)效關(guān)系的計算方法研究[D]. 權(quán)麗君.蘇州大學(xué) 2017
[2]基于支持向量機(jī)的蛋白質(zhì)分類研究[D]. 張紹武.西北工業(yè)大學(xué) 2004
碩士論文
[1]基于入侵檢測的數(shù)據(jù)處理分析關(guān)鍵算法研究[D]. 王澤芳.西南科技大學(xué) 2016
[2]基于集成學(xué)習(xí)與多標(biāo)記學(xué)習(xí)的蛋白質(zhì)分類方法研究[D]. 陳偉程.廈門大學(xué) 2014
[3]支持向量機(jī)中Fourier核的性能分析[D]. 張勇.華東師范大學(xué) 2008
本文編號:3353361
【文章來源】:桂林電子科技大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
賴氨酸丙二酰化示意圖
第一章 引言§1.3 研究內(nèi)容、方法及創(chuàng)新點盡管現(xiàn)有工作加速了對賴氨酸丙二;稽c的預(yù)測研究,但他們使用的特征或機(jī)器學(xué)習(xí)算法較為單一,很難全面有效地識別生物序列中潛在的賴氨酸丙二;稽c。本研究在現(xiàn)有工作的基礎(chǔ)上,針對其中的不足,提出了一整套賴氨酸丙二酰化位點預(yù)測的方案。我們首先對蛋白質(zhì)序列進(jìn)行了全面的分析,實現(xiàn)了 11 種特征提取算法。然后設(shè)計實現(xiàn)了一種新的集成機(jī)器學(xué)習(xí)模型,稱為 kmal-sp,該模型融合了支持向量機(jī)、隨機(jī)森林、梯度提升決策樹、K 近鄰和邏輯回歸五種機(jī)器學(xué)習(xí)算法的優(yōu)勢,在預(yù)測性能上有了很大的提高,最后基于已有的集成學(xué)習(xí)模型開發(fā)了一個賴氨酸丙二;稽c在線預(yù)測服務(wù)器(整體開發(fā)流程如圖 1-2 所示)。以下重點說明本研究的研究內(nèi)容、方法及創(chuàng)新點。
圖 2-1 賴氨酸丙二酰化正負(fù)樣本截取流程圖按照上述步驟,對收集到的蛋白質(zhì)序列做預(yù)處理,最后我們分別得到了大腸桿菌,小鼠,人類的 1553,2609,3885 個正樣本,7830,26655,52027 個負(fù)樣本(該數(shù)據(jù)集下載地址為 http://kmalsp.erc.monash.edu/download.jsp/)。為了避免非平衡數(shù)據(jù)集對模型性能的影響,我們隨機(jī)選取與正樣本數(shù)量等量的負(fù)樣本構(gòu)建最終的基準(zhǔn)數(shù)據(jù)集并把基準(zhǔn)數(shù)據(jù)集隨機(jī)分為訓(xùn)練集和獨立測試集,分別用于構(gòu)建模型以及驗證模型性能及其泛化能力(具體數(shù)據(jù)統(tǒng)計匯總表請參考表 2-1)。表 2-1 本研究使用的丙二;瘮(shù)據(jù)集的統(tǒng)計概要數(shù)據(jù)集 大腸桿菌 小鼠 人類蛋白質(zhì)數(shù)量(全部/相似度小于 70%)595/592 1174/1131 1660/1609正樣本數(shù)量(全部/相似度小于 70%)1746/1553 3435/2906 4579/3885
【參考文獻(xiàn)】:
期刊論文
[1]決策樹分類模型預(yù)測蛋白質(zhì)相互作用的應(yīng)用研究[J]. 郭曉龍,蔣艷,邱路. 生物醫(yī)學(xué)工程學(xué)雜志. 2013(05)
[2]蛋白質(zhì)翻譯后修飾研究進(jìn)展[J]. 郭會燦. 生物技術(shù)通報. 2011(07)
[3]基于集成學(xué)習(xí)方法的蛋白質(zhì)相互作用預(yù)測[J]. 朱敏,張永清,李夢龍,周大威,黃俊. 四川大學(xué)學(xué)報(工程科學(xué)版). 2011(03)
[4]利用決策樹方法對蛋白質(zhì)鑒定結(jié)果二次評價[J]. 于長永,王國仁,吳俊杰,毛克明. 小型微型計算機(jī)系統(tǒng). 2010(04)
[5]基于K近鄰的蛋白質(zhì)功能的預(yù)測方法[J]. 倪青山,王正志,黎剛果,孟祥林. 生物醫(yī)學(xué)工程研究. 2009(02)
[6]決策樹算法在蛋白質(zhì)二級結(jié)構(gòu)預(yù)測問題中的應(yīng)用研究[J]. 張維東,朱宏明,周聞鈞. 微型電腦應(yīng)用. 2009(02)
[7]異源蛋白質(zhì)相互作用數(shù)據(jù)整合算法的進(jìn)展[J]. 王文馨,陳宇光,石鐵流. 生命科學(xué). 2008(05)
[8]應(yīng)用支持向量機(jī)預(yù)測蛋白質(zhì)相互作用位點[J]. 孟煒,王飛飛,彭新俊,沈稱意,王翼飛. 應(yīng)用科學(xué)學(xué)報. 2008(04)
[9]基于支持向量機(jī)的蛋白質(zhì)相互作用預(yù)測[J]. 李哲謙,劉書朋,嚴(yán)壯志,黃海. 電子測量技術(shù). 2008(05)
[10]集成學(xué)習(xí)算法的差異性及性能比較[J]. 李凱,崔麗娟. 計算機(jī)工程. 2008(06)
博士論文
[1]蛋白質(zhì)構(gòu)效關(guān)系的計算方法研究[D]. 權(quán)麗君.蘇州大學(xué) 2017
[2]基于支持向量機(jī)的蛋白質(zhì)分類研究[D]. 張紹武.西北工業(yè)大學(xué) 2004
碩士論文
[1]基于入侵檢測的數(shù)據(jù)處理分析關(guān)鍵算法研究[D]. 王澤芳.西南科技大學(xué) 2016
[2]基于集成學(xué)習(xí)與多標(biāo)記學(xué)習(xí)的蛋白質(zhì)分類方法研究[D]. 陳偉程.廈門大學(xué) 2014
[3]支持向量機(jī)中Fourier核的性能分析[D]. 張勇.華東師范大學(xué) 2008
本文編號:3353361
本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/3353361.html
最近更新
教材專著