天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 基因論文 >

細菌必需基因特征分析及其分類預(yù)測研究

發(fā)布時間:2017-10-14 23:40

  本文關(guān)鍵詞:細菌必需基因特征分析及其分類預(yù)測研究


  更多相關(guān)文章: 必需基因 支持向量機 特征選擇 計算預(yù)測 集成學(xué)習(xí)


【摘要】:必需基因是生物體生命活動必不可少的基因,識別必需基因?qū)τ谘芯考毎娴淖畹铜h(huán)境非常重要,同時也有助于探索生命的起源進化,在藥物靶點設(shè)計、疾病治療和生物工程方面有許多實際應(yīng)用。目前主要采用實驗方法測定必需基因,由于其耗時長、耗費大、實驗結(jié)果不一致等缺點,利用計算方法預(yù)測必需基因成為重要的研究工作。近年來,許多計算方法被用來預(yù)測必需基因,尤其是基于機器學(xué)習(xí)的方法。研究人員提出各種與基因必需性有關(guān)的特征,其中包括很多高通量實驗特征和拓撲特征。但還存在以下兩方面的問題:一是預(yù)測模型只是針對一種或是某幾種生物提出,對其他生物對象可能不適用;二是用于計算預(yù)測的各類特征包括諸多實驗數(shù)據(jù)特征,這些特征都不能從序列中得到,而新基因組的實驗數(shù)據(jù)特征一般都是缺失的,因此使計算預(yù)測應(yīng)用范圍有限。針對這些問題,本文以目前DEG(Database of Essential Genes)數(shù)據(jù)庫收錄的全部細菌生物必需基因作為研究對象,提取了基于序列的特征,特征選擇后,用支持向量機和集成學(xué)習(xí)方法預(yù)測必需基因。主要工作如下:(1)用Hurst指數(shù)分析33種細菌生物。Hurst指數(shù)表示序列的長程相關(guān)性,通過對兩類樣本(必需和非必需基因)的Hurst指數(shù)進行統(tǒng)計分析,結(jié)果顯示33個基因組中有31個基因組的必需基因Hurst指數(shù)顯著性水平明顯高于相應(yīng)的全基因組,而非必需基因與全基因集相比沒有明顯差異。Hurst指數(shù)在兩類樣本(必需基因和非必需基因)間存在顯著性差異,因此將Hurst指數(shù)作為基因必需性描述特征。(2)基因必需性關(guān)鍵特征子集研究。在原始特征集上用Lasso(Least absolute shrinkage and selection operator)算法進行特征選擇,并把選擇后的特征子集加入到支持向量機分類器來評價特征選擇的有效性。設(shè)計了三個數(shù)據(jù)集(31種細菌生物構(gòu)成的全部數(shù)據(jù)集、21種革蘭氏陰性菌構(gòu)成的數(shù)據(jù)集和10種革蘭氏陽性菌構(gòu)成的數(shù)據(jù)集)進行必需基因預(yù)測,在預(yù)測效果沒有降低的情況下,原始特征分別從57、59和58維分別降低到40、37和38維,結(jié)果表明原始特征集中存在冗余性。(3)使用支持向量機預(yù)測必需基因。必需基因在全部基因中只是小部分,兩類樣本分布極不平衡,因此必需基因預(yù)測是一個不平衡學(xué)習(xí)問題。采用加權(quán)支持向量機分類器,給不同樣本賦予不同的權(quán)重值,利用優(yōu)化的核參數(shù),用4種方法(自檢測、交叉驗證、留一物種法、跨物種預(yù)測)進行訓(xùn)練和預(yù)測。(4)使用集成學(xué)習(xí)預(yù)測必需基因。為進一步提高預(yù)測效果,從兩方面進行改進:一是借鑒集成學(xué)習(xí)方法,根據(jù)兩類樣本數(shù)量,將多數(shù)類樣本劃分為多個數(shù)據(jù)集,再分別和少數(shù)類樣本構(gòu)成新的訓(xùn)練集,訓(xùn)練產(chǎn)生多個支持向量機分類器,通過分類器集成方法得到最終結(jié)果;二是分別用四種學(xué)習(xí)算法,支持向量機、貝葉斯、KNN和Bagging算法,分別訓(xùn)練產(chǎn)生多個分類器,最后將分類器進行集成,得到最終預(yù)測結(jié)果。
【關(guān)鍵詞】:必需基因 支持向量機 特征選擇 計算預(yù)測 集成學(xué)習(xí)
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q811.4;TP18
【目錄】:
  • 中文摘要3-5
  • 英文摘要5-9
  • 1 緒論9-16
  • 1.1 引言9-11
  • 1.1.1 分子生物學(xué)9-10
  • 1.1.2 生物信息學(xué)及其研究內(nèi)容10-11
  • 1.2 課題研究背景11-12
  • 1.3 國內(nèi)外研究現(xiàn)狀12-14
  • 1.3.1 實驗方法測定必需基因12-13
  • 1.3.2 理論預(yù)測必需基因13-14
  • 1.4 本文的主要研究方法和組織結(jié)構(gòu)14-15
  • 1.5 本章小結(jié)15-16
  • 2 必需基因的特征及其選擇16-38
  • 2.1 基因必需性與特征16-21
  • 2.1.1 基因序列特征17
  • 2.1.2 氨基酸特征17-18
  • 2.1.3 密碼子偏性特征18-19
  • 2.1.4 蛋白質(zhì)亞細胞定位特征19-20
  • 2.1.5 氨基酸跨膜特征20-21
  • 2.1.6 氨基酸理化特性21
  • 2.2 基因HURST指數(shù)特征分析21-29
  • 2.2.1 數(shù)據(jù)獲取22-23
  • 2.2.2 數(shù)據(jù)分析過程23-24
  • 2.2.3 結(jié)果及討論24-29
  • 2.3 特征選擇算法及LASSO29-37
  • 2.3.1 數(shù)據(jù)獲取30-31
  • 2.3.2 材料與方法31-34
  • 2.3.3 特征選擇34-35
  • 2.3.4 結(jié)果分析及討論35-37
  • 2.4 本章小結(jié)37-38
  • 3 基于支持向量機的必需基因預(yù)測38-56
  • 3.1 支持向量機38-41
  • 3.1.1 統(tǒng)計學(xué)習(xí)理論38
  • 3.1.2 線性支持向量機38-39
  • 3.1.3 非線性支持向量機39-41
  • 3.2 不平衡學(xué)習(xí)41-43
  • 3.2.1 數(shù)據(jù)層面處理不平衡數(shù)據(jù)42-43
  • 3.2.2 算法層面處理不平衡數(shù)據(jù)43
  • 3.3 預(yù)測評價方法43-45
  • 3.4 支持向量機預(yù)測必需基因45-55
  • 3.4.1 數(shù)據(jù)準備及預(yù)處理45-46
  • 3.4.2 模型構(gòu)建及核參數(shù)選擇46-47
  • 3.4.3 預(yù)測結(jié)果47-53
  • 3.4.4 結(jié)果分析及討論53-55
  • 3.5 本章小結(jié)55-56
  • 4 集成學(xué)習(xí)方法預(yù)測必需基因56-65
  • 4.1 集成學(xué)習(xí)技術(shù)56-57
  • 4.2 集成學(xué)習(xí)的主要算法57-59
  • 4.2.1 Bagging算法57-58
  • 4.2.2 Boosting算法58-59
  • 4.3 模型構(gòu)建59-61
  • 4.3.1 訓(xùn)練集劃分集成方法59-60
  • 4.3.2 多類型分類器集成方法60-61
  • 4.4 結(jié)果分析與討論61-64
  • 4.4.1 訓(xùn)練集劃分集成學(xué)習(xí)預(yù)測61
  • 4.4.2 多分類器集成分類結(jié)果61-64
  • 4.5 本章小結(jié)64-65
  • 5 工作總結(jié)及展望65-67
  • 5.1 工作總結(jié)65-66
  • 5.2 研究展望66-67
  • 致謝67-68
  • 參考文獻68-74
  • 附錄74
  • A. 作者在攻讀碩士學(xué)位期間發(fā)表的論文目錄74
  • B. 作者在攻讀碩士學(xué)位期間參加的科研項目74

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前3條

1 葉遠濃;郭鋒彪;;微生物必需基因的理論研究現(xiàn)狀[J];遺傳;2012年04期

2 沈露露;杜敏;林興鳳;蔡婷;王大勇;;嗅覺神經(jīng)元AWA功能必需基因以胰島素信號依賴的方式調(diào)控秀麗線蟲的衰老(英文)[J];Neuroscience Bulletin;2010年02期

3 ;[J];;年期

中國重要會議論文全文數(shù)據(jù)庫 前2條

1 張春霆;;細菌必需基因研究與最小基因組[A];第五屆全國生物信息學(xué)與系統(tǒng)生物學(xué)學(xué)術(shù)大會論文集[C];2012年

2 郭鋒彪;寧綠文;黃健;林昊;張會雄;;新洋蔥伯克霍爾德氏菌AU-1054菌株的三條染色體上必需基因的異常分布[A];中國的遺傳學(xué)研究——遺傳學(xué)進步推動中國西部經(jīng)濟與社會發(fā)展——2011年中國遺傳學(xué)會大會論文摘要匯編[C];2011年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 葉遠濃;細菌必需基因團簇模型及最小基因集構(gòu)建[D];電子科技大學(xué);2015年

2 林巖;微生物必需基因數(shù)據(jù)的分析[D];天津大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 林丹;多種微生物功能基因的預(yù)測和分析[D];電子科技大學(xué);2014年

2 鄧炎炎;細菌必需基因的預(yù)測及進化特征的分析[D];電子科技大學(xué);2016年

3 羅森;細菌必需基因自訓(xùn)練算法的研究及實現(xiàn)[D];電子科技大學(xué);2016年

4 王寶錦;細菌必需基因特征分析及其分類預(yù)測研究[D];重慶大學(xué);2016年

5 竇運濤;原核生物基因識別程序ZCURVE 1.02的研發(fā)和微生物必需基因的分析[D];天津大學(xué);2005年

,

本文編號:1033853

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/1033853.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶98218***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
精品欧美国产一二三区| 国产又粗又猛又长又大| 国产一区欧美午夜福利| 亚洲二区欧美一区二区| 91精品视频全国免费| 日韩一级免费中文字幕视频| 狠狠干狠狠操在线播放| 99久久精品免费看国产高清| 99热中文字幕在线精品| 日本黄色录像韩国黄色录像| 日韩精品在线观看完整版| 欧美熟妇一区二区在线| 国产主播精品福利午夜二区| 久久热在线免费视频精品| 日韩欧美一区二区久久婷婷| 国产精品流白浆无遮挡| 日韩午夜福利高清在线观看| 国产亚洲精品久久99| 白白操白白在线免费观看| 熟女少妇一区二区三区蜜桃| 中文字幕日韩欧美亚洲午夜| 欧美日韩欧美国产另类| 国产99久久精品果冻传媒| 午夜精品一区二区三区国产| 国产精品国产亚洲看不卡| 欧美一区二区三区喷汁尤物| 人妻少妇系列中文字幕| 激情视频在线视频在线视频| 精品欧美国产一二三区| 国产一区二区久久综合| 激情综合网俺也狠狠地| 国产精欧美一区二区三区久久| 日本黄色美女日本黄色| 国产一级一片内射视频在线| 国产亚州欧美一区二区| 日本加勒比中文在线观看| 激情五月天深爱丁香婷婷| 国产日本欧美特黄在线观看| 亚洲专区一区中文字幕| 麻豆蜜桃星空传媒在线观看| 日本一本不卡免费视频|