基于機器學(xué)習(xí)的蛋白質(zhì)琥珀�；A(yù)測的軟件開發(fā)

發(fā)布時間：2021-08-02 21:04

　　賴氨酸琥珀�；驯蛔C實普遍存在于原核生物、真核生物中,特別是在中心代謝和中間代謝的很多代謝酶都存在。蛋白質(zhì)賴氨酸位點的琥珀酰化廣泛參與細(xì)胞分化、細(xì)胞代謝等重要生理活動,在中心代謝途徑、疾病等重要生理病理活動中的有重要的調(diào)控作用,這代表著其與許多疾病發(fā)生有關(guān)。所以,幫助從事相關(guān)工作人員去確定未驗證的蛋白質(zhì)序列中賴氨酸是否擁有琥珀�；稽c,這對于生理特性的研究和相關(guān)藥物的研發(fā)中都是十分關(guān)鍵的。通過做實驗確定蛋白質(zhì)琥珀�；揎椢稽c,往往需要耗費相關(guān)人員大量的精力、時間以及實驗資源,大大限制了該領(lǐng)域研究的速度。本著解決這個難題的目的,我們開發(fā)了一個電腦軟件平臺來作為蛋白質(zhì)琥珀�；念A(yù)測工具。本文的主要工作包括:（1）完成十分關(guān)鍵的一步提取出樣本中的特征。樣本氨基酸序列每個氨基是字母的形式,本文通過把每個樣本當(dāng)做一個文本,把氨基酸字母當(dāng)做字詞,使用TF-IDF技術(shù)將字母信息轉(zhuǎn)換為數(shù)字信息來完成特征構(gòu)建得到模型特征。（2）由于正負(fù)樣本的比例極不平衡,所以在選擇算法模型訓(xùn)練之前必須解決。在參考了常見的解決辦法以及數(shù)據(jù)集本身的特點,并經(jīng)過實驗性嘗試后,我們采用SMOTE算法對數(shù)據(jù)集進行處理使正負(fù)樣本集...

【文章來源】：華中科技大學(xué)湖北省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：50 頁

【學(xué)位級別】：碩士

【部分圖文】：

基于機器學(xué)習(xí)的蛋白質(zhì)琥珀酰化預(yù)測的軟件開發(fā)

機器學(xué)習(xí)和模式分類

片段,樣本,琥珀�；�

3.1 數(shù)據(jù)收集、處理首先我們從 UniProt 蛋白質(zhì)數(shù)據(jù)庫下載的數(shù)據(jù)如圖 3.1 箭頭上方所示，由相關(guān)知識可知，只有中心位點為 K 的肽鏈才有具有琥珀�；稽c的機會。本文把蛋白質(zhì)中那些經(jīng)歷過泛素化修飾的已經(jīng)注釋好的賴氨酸殘基記為琥珀�；揎椢稽c。在蛋白質(zhì)中，那些未注釋的賴氨酸殘基作為非琥珀�；男揎椢稽c。在本文中，我們使用一個固定長度來提取琥珀�；胺晴牾；碾亩危ㄈ鐖D 3-1），把琥珀酰化修飾位點或非琥珀�；揎椢稽c即殘基 K 做為中心，提取出左右兩側(cè)包括 30 個位點作為非琥珀�；揎椘�(如圖 3-1 中的紅色‘K’)，在左側(cè)和右側(cè)提取 30 個位點作為非琥珀�；男揎椘危ㄈ鐖D 3-1 中的藍(lán)色'K'）。將一個或多個字符'*'添加到少于 30 個左右兩側(cè)的肽段中，作為假氨基酸。此時，將琥珀�；男揎椘斡米麝栃詷悠罚⒎晴牾；男揎椘斡米麝幮云�。

曲線,因變量,自變量,問題

科技大學(xué) 碩士學(xué) 位論文代表那個人沒有患糖尿病，Y=1 代表那個人患有糖尿病0-1）分布的變量，其不可能采用 h 函數(shù)對應(yīng)的連續(xù)的或 1）。性回歸往往用于處理因變量是連續(xù)變量的這類問題，歸就不可能再用來解決這個問題了，只能改換成邏輯ogistic Regression）是將因變量作為分類變量處理的回題，這些問題實際上屬于分類方法。量問題的概率與自變量之間的關(guān)系通常是 S 形曲線，函數(shù)二分類問題的概率與自變量之間的關(guān)系圖形往往

【參考文獻(xiàn)】：
期刊論文
[1]淺談不同編程語言對計算機軟件開發(fā)的影響[J]. 朱睿思.  電腦知識與技術(shù). 2018(22)
[2]基于底層特征建模的行為識別算法優(yōu)化[J]. 劉云,楊建濱,王傳旭.  科學(xué)技術(shù)與工程. 2018(21)
[3]Jupyter Notebook在Python教學(xué)中的應(yīng)用探索[J]. 薛煜陽.  信息技術(shù)與信息化. 2018(07)
[4]基于Na?ve Bayes和TF-IDF的真假新聞分類[J]. 蔡揚,付小斌.  電腦知識與技術(shù). 2018(04)
[5]不平衡數(shù)據(jù)集的分類方法研究[J]. 王和勇,樊泓坤,姚正安,李成安.  計算機應(yīng)用研究. 2008(05)
[6]機器學(xué)習(xí)在生物信息學(xué)中的應(yīng)用[J]. 張曉龍,楊艷霞.  武漢科技大學(xué)學(xué)報(自然科學(xué)版). 2005(02)
[7]高通量篩選技術(shù)及其應(yīng)用[J]. 韓闖,楊盛昌.  生物技術(shù)通報. 2005(02)
[8]用離散量方法預(yù)測細(xì)胞凋亡蛋白的亞細(xì)胞位置[J]. 陳穎麗,李前忠.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2004(04)

博士論文
[1]基于序列信息的蛋白質(zhì)功能位點預(yù)測的算法開發(fā)[D]. 陳震.中國農(nóng)業(yè)大學(xué) 2014
[2]蛋白質(zhì)翻譯后修飾及其相互作用預(yù)測方法研究[D]. 趙曉威.東北師范大學(xué) 2013
[3]機器學(xué)習(xí)及數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用研究[D]. 杜偉.吉林大學(xué) 2011

碩士論文
[1]基于操作溫度控制的工業(yè)建筑圍護結(jié)構(gòu)防熱性能優(yōu)化研究[D]. 李俊鋒.西安建筑科技大學(xué) 2018
[2]基于Web的線上社群管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 陳孝義.北京郵電大學(xué) 2018
[3]基于GBM算法預(yù)測蛋白質(zhì)琥珀�；稽c的研究與實現(xiàn)[D]. 吳潤林.遼寧大學(xué) 2017
[4]蛋白質(zhì)熱穩(wěn)定性分類預(yù)測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 張吉寬.遼寧大學(xué) 2016
[5]基于本體的個性化Web信息檢索方法研究[D]. 張楠.東北大學(xué) 2015
[6]機器學(xué)習(xí)方法在生物信息學(xué)中的應(yīng)用[D]. 楊閆.渤海大學(xué) 2014
[7]基于序列的人類蛋白質(zhì)泛素化修飾位點計算分析[D]. 何冰.南京航空航天大學(xué) 2013

本文編號：3318272

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/projectlw/swxlw/3318272.html

上一篇：自裂解型人工適體核酶的設(shè)計及其在枯草芽胞桿菌基因表達(dá)中的應(yīng)用
下一篇：OCT4通過緊密連接通路影響人毛囊間充質(zhì)干細(xì)胞紅系造血的機制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機器學(xué)習(xí)的蛋白質(zhì)琥珀�；A(yù)測的軟件開發(fā)

基于機器學(xué)習(xí)的蛋白質(zhì)琥珀�；A(yù)測的軟件開發(fā)