天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 理工論文 > 生物學(xué)論文 >

基于機器學(xué)習(xí)的蛋白質(zhì)琥珀;A(yù)測的軟件開發(fā)

發(fā)布時間:2021-08-02 21:04
  賴氨酸琥珀;驯蛔C實普遍存在于原核生物、真核生物中,特別是在中心代謝和中間代謝的很多代謝酶都存在。蛋白質(zhì)賴氨酸位點的琥珀酰化廣泛參與細(xì)胞分化、細(xì)胞代謝等重要生理活動,在中心代謝途徑、疾病等重要生理病理活動中的有重要的調(diào)控作用,這代表著其與許多疾病發(fā)生有關(guān)。所以,幫助從事相關(guān)工作人員去確定未驗證的蛋白質(zhì)序列中賴氨酸是否擁有琥珀;稽c,這對于生理特性的研究和相關(guān)藥物的研發(fā)中都是十分關(guān)鍵的。通過做實驗確定蛋白質(zhì)琥珀;揎椢稽c,往往需要耗費相關(guān)人員大量的精力、時間以及實驗資源,大大限制了該領(lǐng)域研究的速度。本著解決這個難題的目的,我們開發(fā)了一個電腦軟件平臺來作為蛋白質(zhì)琥珀;念A(yù)測工具。本文的主要工作包括:(1)完成十分關(guān)鍵的一步提取出樣本中的特征。樣本氨基酸序列每個氨基是字母的形式,本文通過把每個樣本當(dāng)做一個文本,把氨基酸字母當(dāng)做字詞,使用TF-IDF技術(shù)將字母信息轉(zhuǎn)換為數(shù)字信息來完成特征構(gòu)建得到模型特征。(2)由于正負(fù)樣本的比例極不平衡,所以在選擇算法模型訓(xùn)練之前必須解決。在參考了常見的解決辦法以及數(shù)據(jù)集本身的特點,并經(jīng)過實驗性嘗試后,我們采用SMOTE算法對數(shù)據(jù)集進行處理使正負(fù)樣本集... 

【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:50 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于機器學(xué)習(xí)的蛋白質(zhì)琥珀酰化預(yù)測的軟件開發(fā)


機器學(xué)習(xí)和模式分類

片段,樣本,琥珀;


3.1 數(shù)據(jù)收集、處理首先我們從 UniProt 蛋白質(zhì)數(shù)據(jù)庫下載的數(shù)據(jù)如圖 3.1 箭頭上方所示,由相關(guān)知識可知,只有中心位點為 K 的肽鏈才有具有琥珀;稽c的機會。本文把蛋白質(zhì)中那些經(jīng)歷過泛素化修飾的已經(jīng)注釋好的賴氨酸殘基記為琥珀;揎椢稽c。在蛋白質(zhì)中,那些未注釋的賴氨酸殘基作為非琥珀;男揎椢稽c。在本文中,我們使用一個固定長度來提取琥珀;胺晴牾;碾亩危ㄈ鐖D 3-1),把琥珀酰化修飾位點或非琥珀;揎椢稽c即殘基 K 做為中心,提取出左右兩側(cè)包括 30 個位點作為非琥珀;揎椘(如圖 3-1 中的紅色‘K’),在左側(cè)和右側(cè)提取 30 個位點作為非琥珀;男揎椘危ㄈ鐖D 3-1 中的藍(lán)色'K')。將一個或多個字符'*'添加到少于 30 個左右兩側(cè)的肽段中,作為假氨基酸。 此時,將琥珀;男揎椘斡米麝栃詷悠罚⒎晴牾;男揎椘斡米麝幮云。

曲線,因變量,自變量,問題


科 技 大 學(xué) 碩 士 學(xué) 位 論 文代表那個人沒有患糖尿病,Y=1 代表那個人患有糖尿病0-1)分布的變量,其不可能采用 h 函數(shù)對應(yīng)的連續(xù)的 或 1)。性回歸往往用于處理因變量是連續(xù)變量的這類問題,歸就不可能再用來解決這個問題了,只能改換成邏輯ogistic Regression)是將因變量作為分類變量處理的回題,這些問題實際上屬于分類方法。量問題的概率與自變量之間的關(guān)系通常是 S 形曲線, 函數(shù)二分類問題的概率與自變量之間的關(guān)系圖形往往

【參考文獻(xiàn)】:
期刊論文
[1]淺談不同編程語言對計算機軟件開發(fā)的影響[J]. 朱睿思.  電腦知識與技術(shù). 2018(22)
[2]基于底層特征建模的行為識別算法優(yōu)化[J]. 劉云,楊建濱,王傳旭.  科學(xué)技術(shù)與工程. 2018(21)
[3]Jupyter Notebook在Python教學(xué)中的應(yīng)用探索[J]. 薛煜陽.  信息技術(shù)與信息化. 2018(07)
[4]基于Na?ve Bayes和TF-IDF的真假新聞分類[J]. 蔡揚,付小斌.  電腦知識與技術(shù). 2018(04)
[5]不平衡數(shù)據(jù)集的分類方法研究[J]. 王和勇,樊泓坤,姚正安,李成安.  計算機應(yīng)用研究. 2008(05)
[6]機器學(xué)習(xí)在生物信息學(xué)中的應(yīng)用[J]. 張曉龍,楊艷霞.  武漢科技大學(xué)學(xué)報(自然科學(xué)版). 2005(02)
[7]高通量篩選技術(shù)及其應(yīng)用[J]. 韓闖,楊盛昌.  生物技術(shù)通報. 2005(02)
[8]用離散量方法預(yù)測細(xì)胞凋亡蛋白的亞細(xì)胞位置[J]. 陳穎麗,李前忠.  內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版). 2004(04)

博士論文
[1]基于序列信息的蛋白質(zhì)功能位點預(yù)測的算法開發(fā)[D]. 陳震.中國農(nóng)業(yè)大學(xué) 2014
[2]蛋白質(zhì)翻譯后修飾及其相互作用預(yù)測方法研究[D]. 趙曉威.東北師范大學(xué) 2013
[3]機器學(xué)習(xí)及數(shù)據(jù)挖掘在生物信息學(xué)中的應(yīng)用研究[D]. 杜偉.吉林大學(xué) 2011

碩士論文
[1]基于操作溫度控制的工業(yè)建筑圍護結(jié)構(gòu)防熱性能優(yōu)化研究[D]. 李俊鋒.西安建筑科技大學(xué) 2018
[2]基于Web的線上社群管理系統(tǒng)的設(shè)計與實現(xiàn)[D]. 陳孝義.北京郵電大學(xué) 2018
[3]基于GBM算法預(yù)測蛋白質(zhì)琥珀;稽c的研究與實現(xiàn)[D]. 吳潤林.遼寧大學(xué) 2017
[4]蛋白質(zhì)熱穩(wěn)定性分類預(yù)測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 張吉寬.遼寧大學(xué) 2016
[5]基于本體的個性化Web信息檢索方法研究[D]. 張楠.東北大學(xué) 2015
[6]機器學(xué)習(xí)方法在生物信息學(xué)中的應(yīng)用[D]. 楊閆.渤海大學(xué) 2014
[7]基于序列的人類蛋白質(zhì)泛素化修飾位點計算分析[D]. 何冰.南京航空航天大學(xué) 2013



本文編號:3318272

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/projectlw/swxlw/3318272.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f4c9b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com