基于分布式計算平臺Spark的脫落膜蛋白預(yù)測與應(yīng)用
發(fā)布時間:2017-03-20 15:10
本文關(guān)鍵詞:基于分布式計算平臺Spark的脫落膜蛋白預(yù)測與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:廣泛分布于細(xì)胞膜上的膜蛋白同絕大多數(shù)分泌蛋白的分泌均有著密切的聯(lián)系,而且由于膜蛋白是許多信號通路的潛在受體,因此在現(xiàn)代醫(yī)學(xué)中膜蛋白發(fā)揮著重要的作用。已有的相關(guān)統(tǒng)計表明,現(xiàn)有醫(yī)學(xué)藥物靶點有超過一半均作用在膜蛋白上。隨著醫(yī)學(xué)的發(fā)展,用于診斷不同疾病的生物標(biāo)志物受到了廣泛的重視,其中許多位于細(xì)胞膜上的膜蛋白已被作為多種疾病的生物標(biāo)志物。細(xì)胞外的膜蛋白質(zhì)由于蛋白水溶性的作用可能發(fā)生脫落,該過程被稱為“胞外域脫落(Ectodomain Shedding)”現(xiàn)象。在這一過程中,位于細(xì)胞外膜上的膜蛋白可能脫落并成為分泌蛋白。相關(guān)研究顯示,約有近4%的膜蛋白會發(fā)生脫落。胞外域脫落可以作用于一系列的生物過程且主要由MMP(基質(zhì)金屬蛋白酶)和ADAM(和解整合素金屬蛋白酶)控制。由于這一原因,胞外域脫落同許多疾病都有關(guān)聯(lián),比如:各種炎癥、癌癥及老年癡呆等慢性疾病。此外,脫落膜蛋白所形成的分泌蛋白易于得到,其廣泛存在于血液、唾液以及尿液中。但現(xiàn)在尚無能夠?qū)δさ鞍酌撀涫录M行高效預(yù)測的工具,所以現(xiàn)急需能夠?qū)δさ鞍资欠駮l(fā)生脫落進行高效且準(zhǔn)確預(yù)測的工具。隨著現(xiàn)代技術(shù)的不斷發(fā)展,生物信息學(xué)中各組學(xué)的數(shù)據(jù)量均呈現(xiàn)爆炸式增長。更加豐富的數(shù)據(jù)給相關(guān)研究帶來了新的機遇,但對數(shù)據(jù)的處理也需要提供更高的計算性能,這給原有的單機計算方式帶來了嚴(yán)峻的挑戰(zhàn)。而分布式計算平臺憑借其高效的運算效率,良好的拓展性以及使用的便捷性,為數(shù)據(jù)的計算問題提供了新的解決方案。本文中使用的膜蛋白數(shù)據(jù)具有較高的維度,而且構(gòu)建預(yù)測模型的時間復(fù)雜度較高,如果采用單機運算方式則需要耗費大量的時間與資源。本文構(gòu)建的脫落膜蛋白預(yù)測模型采用基于分布式計算平臺Spark的方式,在保證脫落膜蛋白預(yù)測準(zhǔn)確性的同時,又提供了更為高效的運算效率。在對脫落膜蛋白預(yù)測模型構(gòu)建的過程中,首先通過比對不同數(shù)據(jù)庫中現(xiàn)有記錄獲取了相應(yīng)的蛋白的屬性信息,其中能夠發(fā)生脫落的膜蛋白作為正樣本,其他不會脫落的膜蛋白作為負(fù)樣本。然后將得到的膜蛋白進行初始化并通過特征選擇算法獲取特征向量的排序列表,從而得到用于實驗的初始數(shù)據(jù)集。最后采用基于內(nèi)存運算的分布式計算平臺Spark,并通過支持向量機(SVM)構(gòu)建了脫落膜蛋白預(yù)測模型。在模型構(gòu)建的過程中使用多種評定標(biāo)準(zhǔn)對膜蛋白特征向量排序列表進行篩選,最終構(gòu)建了具有最優(yōu)預(yù)測性能的脫落膜蛋白預(yù)測模型。實驗結(jié)果表明,本文提出的脫落膜蛋白預(yù)測模型具有更好的運算性能和預(yù)測準(zhǔn)確性,同時在實驗中預(yù)測得到的會發(fā)生脫落的膜蛋白中,有許多已被有關(guān)研究證實其確實會發(fā)生脫落,并在患有某些嚴(yán)重疾病的患者體內(nèi)具有高表達(dá)的特性。模擬實驗與對比研究結(jié)果表明,本文提出的脫落膜蛋白預(yù)測模型能夠?qū)δさ鞍资欠衩撀涮峁?zhǔn)確判定,并且能夠發(fā)生脫落的膜蛋白可以作為診斷某些疾病的潛在標(biāo)志物,預(yù)期將在臨床醫(yī)學(xué)等領(lǐng)域發(fā)揮重要作用。
【關(guān)鍵詞】:膜蛋白 胞外域脫落 特征選擇 支持向量機 Spark
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q51;TP338.8
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景及意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-13
- 1.3 本文主要工作13-14
- 1.4 本文組織架構(gòu)14-15
- 第2章 特征選擇與支持向量機簡介15-25
- 2.1 特征選擇15-18
- 2.2 支持向量機(SVM)18-25
- 第3章 分布式計算平臺簡介25-36
- 3.1 分布式系統(tǒng)架構(gòu)Hadoop25-31
- 3.2 分布式計算平臺Spark31-36
- 第4章 脫落膜蛋白預(yù)測模型的建立與應(yīng)用36-57
- 4.1 模型概述36-37
- 4.2 相關(guān)數(shù)據(jù)集的收集37-41
- 4.3 模型實現(xiàn)41-46
- 4.4 實驗方法與結(jié)果分析46-57
- 第5章 總結(jié)與展望57-59
- 5.1 總結(jié)57
- 5.2 展望57-59
- 參考文獻(xiàn)59-64
- 個人簡介64-65
- 致謝65
【相似文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 汪連恒;基于分布式計算平臺Spark的脫落膜蛋白預(yù)測與應(yīng)用[D];吉林大學(xué);2016年
本文關(guān)鍵詞:基于分布式計算平臺Spark的脫落膜蛋白預(yù)測與應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:257991
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/257991.html
最近更新
教材專著