宏蛋白質(zhì)組中蛋白質(zhì)推斷策略研究
發(fā)布時(shí)間:2021-06-23 13:08
近十年以來,基于質(zhì)譜技術(shù)的宏蛋白質(zhì)組學(xué)在表征微生物群落特征方面表現(xiàn)出巨大潛力。蛋白質(zhì)推斷將從數(shù)據(jù)庫檢索引擎獲得的肽段-譜圖匹配與蛋白質(zhì)聯(lián)系起來,它是宏蛋白質(zhì)組學(xué)研究的核心問題之一。然而,由于微生物群落本身的復(fù)雜性,與單一物種的蛋白質(zhì)組學(xué)相比,宏蛋白質(zhì)組學(xué)中的蛋白質(zhì)推斷要困難得多。目前還沒有一個(gè)數(shù)據(jù)分析平臺可以用來比較不同蛋白質(zhì)推斷策略對分析結(jié)果的影響,或提供數(shù)據(jù)特征探索功能,幫助研究者構(gòu)建合適的蛋白質(zhì)推斷工作流。為解決上述問題,本研究首先構(gòu)建了一個(gè)宏蛋白質(zhì)組數(shù)據(jù)分析平臺MAP(Metaproteomics Analysis Pipelines)。它由兩個(gè)模塊構(gòu)成:(1)以蛋白質(zhì)為中心的分析模塊,該模塊集成了三個(gè)基礎(chǔ)的蛋白質(zhì)推斷處理器。用戶可以根據(jù)輸入數(shù)據(jù)特征組合這三個(gè)處理器,定制蛋白質(zhì)推斷工作流,并對不同工作流產(chǎn)生的數(shù)據(jù)分析結(jié)果進(jìn)行多維度、可視化的比較。(2)以肽段為中心的分析模塊,該模塊基于NCBI的NR蛋白質(zhì)序列數(shù)據(jù)庫和物種分類數(shù)據(jù)庫計(jì)算肽段對應(yīng)的最近公共祖先,從而進(jìn)行物種分析。該模塊基于Elasticsearch構(gòu)建了一套新的存儲和檢索方案,與現(xiàn)存的類似平臺的技術(shù)方案相比,它具有...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:98 頁
【學(xué)位級別】:碩士
【部分圖文】:
蛋白質(zhì)推斷示意圖
重慶郵電大學(xué)碩士學(xué)位論文第2章宏蛋白質(zhì)組學(xué)中的蛋白質(zhì)推斷策略及相關(guān)技術(shù)10地,定義R為樣本中存在的蛋白質(zhì)集合,E為相應(yīng)的肽段集合,D為觀測到的譜圖集合,ε是肽段的索引。R和E表示真實(shí)存在的蛋白質(zhì)和肽段的隨機(jī)變量,r和e是隨機(jī)變量的特定值。公式2.7通過邊緣化所有譜圖可能匹配的肽段集合來消除未知肽段E造成的不確定性,可推導(dǎo)出公式2.8。L(=|)∝Pr(|=)(2.7)=5&Pr (1=1)Pr (1=1|=)13(2.8)為了能夠在大數(shù)據(jù)集上運(yùn)行Fido,F(xiàn)ido引入了三種圖轉(zhuǎn)換程序:分區(qū)(partitioning),聚類(clustering)和修剪(pruning)來優(yōu)化程序執(zhí)行效率(圖2.1)。分區(qū)是指將原始輸入的二分圖依據(jù)連通性分割成小的子二分圖;聚類是指將匹配到相同肽段的蛋白質(zhì)進(jìn)行合并;修剪是指依據(jù)設(shè)定的PSM置信度閾值,將部分低于閾值的節(jié)點(diǎn)分配到不同的子圖中,這樣可以降低二分圖的復(fù)雜性,提升計(jì)算效率。Fido模型的局限性在于它需要一個(gè)誘餌數(shù)據(jù)庫以結(jié)合ROC優(yōu)化通過網(wǎng)格搜索來找到參數(shù)的最佳值,這降低了運(yùn)行效率[59]。圖2.1Fido算法的預(yù)處理流程[76]從上面的介紹可以看出,宏蛋白質(zhì)組學(xué)中的蛋白質(zhì)推斷策略多樣,目前還沒有統(tǒng)一定論。普遍認(rèn)為針對不同特征的數(shù)據(jù),其最優(yōu)的蛋白質(zhì)推斷策略也不同。例如,在使用基于規(guī)則的推斷策略時(shí),需要權(quán)衡特異性和敏感性,從而選擇合適的閾值。在使用基于概率模型的推斷策略時(shí),需要考慮共享肽段對算法的影響。因此本研究提出構(gòu)建一個(gè)宏蛋白質(zhì)組學(xué)數(shù)據(jù)分析平臺,通過該平臺用戶不僅能夠便捷高效地執(zhí)
重慶郵電大學(xué)碩士學(xué)位論文第3章宏蛋白質(zhì)組學(xué)數(shù)據(jù)分析平臺MAP的構(gòu)建19圖3.1蛋白質(zhì)合并示意圖表3.1蛋白質(zhì)protein1和protein2的譜系信息超界門綱目科屬種superkingdom1phylum1class1order1family1genus1species1superkingdom1phylum1class1order1family1genus1species23.2.2肽段處理器肽段處理器(peptidehandler)根據(jù)肽段的屬性執(zhí)行蛋白質(zhì)推斷。依據(jù)肽段匹配到的蛋白質(zhì)集合的數(shù)目可分為兩類:(1)獨(dú)有肽段:肽段僅匹配到一個(gè)蛋白質(zhì)集合;(2)共享肽段:肽段出現(xiàn)在多個(gè)蛋白質(zhì)集合中。無法僅通過共享肽段確定具體存在于樣本中的蛋白質(zhì)集合。肽段處理器的參數(shù)設(shè)置面板如圖3.2所示,肽段處理器支持:(1)基于蛋白質(zhì)集合所包含的獨(dú)有肽段的數(shù)目進(jìn)行蛋白質(zhì)推斷。一種常用的策略是第2章提到的“兩肽規(guī)則”,即保留至少包含2個(gè)獨(dú)有肽段的蛋白質(zhì)集合,可以通過設(shè)置圖3.2中的參數(shù)“uniquepeptidethreshold”為2實(shí)現(xiàn)。;(2)基于蛋白質(zhì)所包含的肽段總數(shù)進(jìn)行蛋白質(zhì)推斷。例如,可以設(shè)置圖3.2中的參數(shù)“totalpeptidethreshold”為2,從而防止所謂的“one-hitwonders[92]”,即單個(gè)錯(cuò)誤的PSM造成錯(cuò)誤的蛋白質(zhì)鑒定的情況。
【參考文獻(xiàn)】:
期刊論文
[1]宏蛋白質(zhì)組學(xué)信息分析的基本策略及其挑戰(zhàn)[J]. 徐洪凱,閆克強(qiáng),何燕斌,聞博,楊煥明,劉斯奇. 生物化學(xué)與生物物理進(jìn)展. 2018(01)
[2]基于質(zhì)譜的定量蛋白質(zhì)組學(xué)策略和方法研究進(jìn)展[J]. 常乘,朱云平. 中國科學(xué):生命科學(xué). 2015(05)
本文編號:3244996
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:98 頁
【學(xué)位級別】:碩士
【部分圖文】:
蛋白質(zhì)推斷示意圖
重慶郵電大學(xué)碩士學(xué)位論文第2章宏蛋白質(zhì)組學(xué)中的蛋白質(zhì)推斷策略及相關(guān)技術(shù)10地,定義R為樣本中存在的蛋白質(zhì)集合,E為相應(yīng)的肽段集合,D為觀測到的譜圖集合,ε是肽段的索引。R和E表示真實(shí)存在的蛋白質(zhì)和肽段的隨機(jī)變量,r和e是隨機(jī)變量的特定值。公式2.7通過邊緣化所有譜圖可能匹配的肽段集合來消除未知肽段E造成的不確定性,可推導(dǎo)出公式2.8。L(=|)∝Pr(|=)(2.7)=5&Pr (1=1)Pr (1=1|=)13(2.8)為了能夠在大數(shù)據(jù)集上運(yùn)行Fido,F(xiàn)ido引入了三種圖轉(zhuǎn)換程序:分區(qū)(partitioning),聚類(clustering)和修剪(pruning)來優(yōu)化程序執(zhí)行效率(圖2.1)。分區(qū)是指將原始輸入的二分圖依據(jù)連通性分割成小的子二分圖;聚類是指將匹配到相同肽段的蛋白質(zhì)進(jìn)行合并;修剪是指依據(jù)設(shè)定的PSM置信度閾值,將部分低于閾值的節(jié)點(diǎn)分配到不同的子圖中,這樣可以降低二分圖的復(fù)雜性,提升計(jì)算效率。Fido模型的局限性在于它需要一個(gè)誘餌數(shù)據(jù)庫以結(jié)合ROC優(yōu)化通過網(wǎng)格搜索來找到參數(shù)的最佳值,這降低了運(yùn)行效率[59]。圖2.1Fido算法的預(yù)處理流程[76]從上面的介紹可以看出,宏蛋白質(zhì)組學(xué)中的蛋白質(zhì)推斷策略多樣,目前還沒有統(tǒng)一定論。普遍認(rèn)為針對不同特征的數(shù)據(jù),其最優(yōu)的蛋白質(zhì)推斷策略也不同。例如,在使用基于規(guī)則的推斷策略時(shí),需要權(quán)衡特異性和敏感性,從而選擇合適的閾值。在使用基于概率模型的推斷策略時(shí),需要考慮共享肽段對算法的影響。因此本研究提出構(gòu)建一個(gè)宏蛋白質(zhì)組學(xué)數(shù)據(jù)分析平臺,通過該平臺用戶不僅能夠便捷高效地執(zhí)
重慶郵電大學(xué)碩士學(xué)位論文第3章宏蛋白質(zhì)組學(xué)數(shù)據(jù)分析平臺MAP的構(gòu)建19圖3.1蛋白質(zhì)合并示意圖表3.1蛋白質(zhì)protein1和protein2的譜系信息超界門綱目科屬種superkingdom1phylum1class1order1family1genus1species1superkingdom1phylum1class1order1family1genus1species23.2.2肽段處理器肽段處理器(peptidehandler)根據(jù)肽段的屬性執(zhí)行蛋白質(zhì)推斷。依據(jù)肽段匹配到的蛋白質(zhì)集合的數(shù)目可分為兩類:(1)獨(dú)有肽段:肽段僅匹配到一個(gè)蛋白質(zhì)集合;(2)共享肽段:肽段出現(xiàn)在多個(gè)蛋白質(zhì)集合中。無法僅通過共享肽段確定具體存在于樣本中的蛋白質(zhì)集合。肽段處理器的參數(shù)設(shè)置面板如圖3.2所示,肽段處理器支持:(1)基于蛋白質(zhì)集合所包含的獨(dú)有肽段的數(shù)目進(jìn)行蛋白質(zhì)推斷。一種常用的策略是第2章提到的“兩肽規(guī)則”,即保留至少包含2個(gè)獨(dú)有肽段的蛋白質(zhì)集合,可以通過設(shè)置圖3.2中的參數(shù)“uniquepeptidethreshold”為2實(shí)現(xiàn)。;(2)基于蛋白質(zhì)所包含的肽段總數(shù)進(jìn)行蛋白質(zhì)推斷。例如,可以設(shè)置圖3.2中的參數(shù)“totalpeptidethreshold”為2,從而防止所謂的“one-hitwonders[92]”,即單個(gè)錯(cuò)誤的PSM造成錯(cuò)誤的蛋白質(zhì)鑒定的情況。
【參考文獻(xiàn)】:
期刊論文
[1]宏蛋白質(zhì)組學(xué)信息分析的基本策略及其挑戰(zhàn)[J]. 徐洪凱,閆克強(qiáng),何燕斌,聞博,楊煥明,劉斯奇. 生物化學(xué)與生物物理進(jìn)展. 2018(01)
[2]基于質(zhì)譜的定量蛋白質(zhì)組學(xué)策略和方法研究進(jìn)展[J]. 常乘,朱云平. 中國科學(xué):生命科學(xué). 2015(05)
本文編號:3244996
本文鏈接:http://sikaile.net/projectlw/swxlw/3244996.html
最近更新
教材專著