定量蛋白質(zhì)組算法研究與應(yīng)用
本文關(guān)鍵詞:定量蛋白質(zhì)組算法研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:自Marc Wilkins于1994年提出首次“proteome”(蛋白質(zhì)組)以來,蛋白質(zhì)組學(xué)作為繼基因組學(xué)之后的一個(gè)研究熱點(diǎn)領(lǐng)域,已經(jīng)走過了二十個(gè)年頭。期間,隨著質(zhì)譜儀器的不斷更新,以及相應(yīng)實(shí)驗(yàn)技術(shù)的不斷完善,蛋白質(zhì)組學(xué)呈現(xiàn)出高速發(fā)展的趨勢。質(zhì)譜技術(shù)憑借其高通量、高靈敏性等優(yōu)點(diǎn)已經(jīng)成為了蛋白質(zhì)組研究的主流技術(shù)。質(zhì)譜數(shù)據(jù)解析也成為蛋白質(zhì)組信息學(xué)的主要研究內(nèi)容之一。然而,早期的質(zhì)譜儀器精度較低,數(shù)據(jù)往往包含較多的噪聲,譜圖質(zhì)量較差。因此研究人員首先要解決定性鑒定的相關(guān)問題,比如如何找到譜圖對應(yīng)的肽段序列、鑒定結(jié)果中的假陽性如何過濾即質(zhì)量控制等多方面的問題。值得欣慰的是,經(jīng)過多年來科研人員的共同努力,一方面質(zhì)譜儀器的精度和分辨率得到了大幅度提升,質(zhì)譜數(shù)據(jù)質(zhì)量越來越高;另一方面,相應(yīng)的分析方法和工具也日趨完善,這些基本的鑒定問題已經(jīng)得到了較好的解決。近年來,蛋白質(zhì)組學(xué)的研究重點(diǎn)已經(jīng)逐漸從之前的定性研究轉(zhuǎn)移到了定量研究。定量蛋白質(zhì)組學(xué)已經(jīng)成為組學(xué)領(lǐng)域的研究熱點(diǎn)之一,它既包含了相同蛋白質(zhì)在不同狀態(tài)中的豐度變化研究,又包含了不同蛋白質(zhì)在同一狀態(tài)中的絕對定量研究。它的發(fā)展對蛋白質(zhì)相互作用、疾病相關(guān)的生物標(biāo)志物以及蛋白質(zhì)豐度規(guī)律變化等多方面的研究都具有重大意義。目前,定量蛋白質(zhì)組按照是否研究蛋白質(zhì)的絕對豐度,又可以分為相對定量與絕對定量兩類。在相對定量研究中,按照是否需要穩(wěn)定同位素標(biāo)記又可以分為有標(biāo)定量與無標(biāo)定量。針對不同的類別,眾多的實(shí)驗(yàn)策略應(yīng)運(yùn)而生,但是相應(yīng)的計(jì)算方法研究卻稍顯滯后。一方面,質(zhì)譜數(shù)據(jù)規(guī)模增長迅速,數(shù)據(jù)復(fù)雜度不斷增加,對定量分析方法的準(zhǔn)確性、靈敏性以及分析效率的要求越來越高;另一方面,質(zhì)譜數(shù)據(jù)的精度也在逐漸提高,如何有效結(jié)合定量實(shí)驗(yàn)策略,充分挖掘高精度質(zhì)譜數(shù)據(jù)中的定量信息,這將是一個(gè)挑戰(zhàn)。針對上述問題,本研究主要關(guān)注于定量蛋白質(zhì)組學(xué)的定量算法研究以及定量軟件和工具的研發(fā)與應(yīng)用,為后續(xù)定量蛋白質(zhì)組學(xué)的發(fā)展提供方法學(xué)支撐。本文具體研究內(nèi)容包括以下四個(gè)方面:(1)考慮了定量可靠性的蛋白質(zhì)相對定量算法研究。在譜圖層面,我們提出了動(dòng)態(tài)選峰誤差算法,提高了定量結(jié)果的靈敏性。在肽段層面,我們首次提出了定量可靠性的概念,定義了三種定量可靠性過濾指標(biāo)以及兩種定量可靠性打分。定量可靠性過濾指標(biāo)能夠減少肽段定量結(jié)果中的假陽性,保證了結(jié)果的準(zhǔn)確性。定量可靠性打分則可以為后續(xù)分析提供定量可靠性判別依據(jù)。在蛋白質(zhì)層面,我們實(shí)現(xiàn)了三種孤點(diǎn)肽段排除算法,有效提升了蛋白質(zhì)定量的準(zhǔn)確性。最后,采用上述定量算法,我們針對穩(wěn)定同位素標(biāo)記的數(shù)據(jù)設(shè)計(jì)并開發(fā)了自動(dòng)化有標(biāo)定量工具SILVER,并在一組大規(guī)模復(fù)雜數(shù)據(jù)集以及兩組不同標(biāo)記比例的標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了SILVER的準(zhǔn)確性、靈敏性和高效性。(2)基于肽段定量效率指標(biāo)的蛋白質(zhì)絕對定量算法研究。首先,我們第一次提出并定義了肽段定量效率指標(biāo),即一個(gè)肽段能被質(zhì)譜檢測并定量的效率,用以表征肽段實(shí)際豐度值與肽段質(zhì)譜信號強(qiáng)度之間的關(guān)系。然后,我們收集和整理了587種肽段各方面的性質(zhì)特征,采用半監(jiān)督式學(xué)習(xí)的計(jì)算模型,構(gòu)建了樣本特異性的肽段定量效率指標(biāo)。最后,我們將肽段定量效率指標(biāo)用于蛋白質(zhì)絕對定量中,并在三組不同復(fù)雜度的數(shù)據(jù)集上和幾種常用絕對定量方法進(jìn)行了比較,結(jié)果表明基于肽段定量效率的絕對定量算法能夠顯著降低一個(gè)蛋白質(zhì)對應(yīng)不同肽段的定量偏差以及重復(fù)實(shí)驗(yàn)中定量值的波動(dòng),在肽段和蛋白質(zhì)層面都具有更好的定量準(zhǔn)確性和定量可重復(fù)性,在高復(fù)雜度的樣本中效果更加明顯。(3)綜合性、并行化定量軟件包PANDA的設(shè)計(jì)與開發(fā)。在蛋白質(zhì)定量算法研究的基礎(chǔ)上,我們設(shè)計(jì)并開發(fā)了包含各類常用定量方法的綜合性、并行化定量軟件包PANDA。其中,我們構(gòu)建了譜圖、肽段和蛋白質(zhì)三個(gè)層面的底層定量算法庫,囊括了無標(biāo)定量、母離子標(biāo)記定量、子離子標(biāo)記定量以及絕對定量的分析流程。同時(shí),我們設(shè)計(jì)了多核多線程的并行化架構(gòu),實(shí)現(xiàn)了多種定量算法的并行化和優(yōu)化,能夠完成多個(gè)餾分之間以及單個(gè)餾分內(nèi)部的多重并行化計(jì)算,極大地提高了計(jì)算效率。除此之外,PANDA還具有結(jié)果展示與統(tǒng)計(jì)分析功能,能夠進(jìn)行定量結(jié)果的列表展示與各種圖形展示。最后,PANDA包含了差異蛋白質(zhì)篩選的基本流程,具有缺失值插補(bǔ)、統(tǒng)計(jì)檢驗(yàn)以及層次聚類、主成分分析等多種功能。(4)建立大規(guī)模蛋白質(zhì)組定量數(shù)據(jù)分析流程并在實(shí)際分析中應(yīng)用。近年來,中國人類蛋白質(zhì)組計(jì)劃以及中國人類染色體蛋白質(zhì)組計(jì)劃陸續(xù)啟動(dòng),產(chǎn)出了大量來自于不同實(shí)驗(yàn)室和不同質(zhì)譜平臺的蛋白質(zhì)組數(shù)據(jù)。為了統(tǒng)一分析、整合這些不同來源的質(zhì)譜數(shù)據(jù),我們在前期定量方法研究和工具開發(fā)的基礎(chǔ)上,建立了針對大規(guī)模蛋白質(zhì)組數(shù)據(jù)的定量分析與歸一化流程,克服了不同實(shí)驗(yàn)操作、不同質(zhì)譜儀器的差別,連續(xù)兩年完成了中國人類染色體蛋白質(zhì)組計(jì)劃中全部實(shí)驗(yàn)室產(chǎn)出的蛋白質(zhì)組數(shù)據(jù)定量分析任務(wù),提供了準(zhǔn)確的定量結(jié)果,為后續(xù)分析奠定了基礎(chǔ)。綜上所述,本研究緊密結(jié)合最新的定量蛋白質(zhì)組學(xué)實(shí)驗(yàn)技術(shù)和儀器的發(fā)展,著眼于質(zhì)譜數(shù)據(jù)中定量信息的深度解析和挖掘,重點(diǎn)研究了定量算法,并針對不同的定量實(shí)驗(yàn)策略設(shè)計(jì)、開發(fā)了相應(yīng)的定量軟件和工具。這些研究成果能夠直接應(yīng)用于蛋白質(zhì)組學(xué)的定量研究中,目前已經(jīng)在中國人類染色體蛋白質(zhì)組計(jì)劃等多批大規(guī)模數(shù)據(jù)的定量分析中得到了應(yīng)用,為定量蛋白質(zhì)組學(xué)的發(fā)展提供了有力的技術(shù)支撐。
【關(guān)鍵詞】:蛋白質(zhì)組學(xué) 生物信息學(xué) 質(zhì)譜 定量算法
【學(xué)位授予單位】:中國人民解放軍軍事醫(yī)學(xué)科學(xué)院
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:Q51;Q811.4
【目錄】:
- 縮略詞表6-7
- 摘要7-9
- Abstract9-12
- 第一章 前言12-17
- 1. 研究背景12-13
- 2. 國內(nèi)外研究現(xiàn)狀、存在問題及發(fā)展趨勢13-14
- 3. 研究目的和意義14-15
- 4. 論文的研究內(nèi)容和創(chuàng)新性15-17
- 4.1. 研究內(nèi)容和方法15-16
- 4.2. 研究創(chuàng)新性16-17
- 第二章 包含定量可靠性的蛋白質(zhì)相對定量方法研究17-33
- 1. 概述17-18
- 2. 材料和方法18-19
- 2.1. 實(shí)驗(yàn)數(shù)據(jù)集18
- 2.2. 數(shù)據(jù)搜庫與質(zhì)量控制18-19
- 2.3. Max Quant和Proteome Discoverer的定量分析19
- 3. 包含定量可靠性的蛋白質(zhì)相對定量算法流程19-26
- 3.1. 動(dòng)態(tài)選峰誤差算法20-21
- 3.2. 同位素峰簇匹配模型21-22
- 3.3. 肽段XIC構(gòu)建時(shí)的過濾指標(biāo)22-23
- 3.4. 肽段定量可靠性打分23-25
- 3.5. 肽段和蛋白質(zhì)定量時(shí)的孤點(diǎn)排除方法25
- 3.6. 蛋白質(zhì)定量算法25-26
- 4. 結(jié)果與討論26-31
- 4.1. 動(dòng)態(tài)選峰誤差算法效果評估26-27
- 4.2. 定量準(zhǔn)確性比較27-30
- 4.3. 運(yùn)行時(shí)間比較30-31
- 4.4. 結(jié)果展示與分析31
- 5. 本章小結(jié)31-33
- 第三章 基于肽段定量效率指標(biāo)的蛋白質(zhì)絕對定量方法研究33-48
- 1. 概述33-34
- 2. 材料和方法34-40
- 2.1. 實(shí)驗(yàn)設(shè)計(jì)34
- 2.2. 細(xì)胞裂解和蛋白酶解34-35
- 2.3. 質(zhì)譜分析35
- 2.4. Max Quant的定性和定量參數(shù)設(shè)置35-36
- 2.5. 肽段定量效率指標(biāo)Qscore構(gòu)建36-37
- 2.6. 肽段可檢測性指標(biāo)Dscore構(gòu)建37-39
- 2.7. 蛋白質(zhì)絕對豐度模型評估39-40
- 3. 結(jié)果與討論40-47
- 3.1. 肽段定量效率指標(biāo)Qscore的回歸效果評估40
- 3.2. 肽段可檢測性Dscore的分類效果評估40-41
- 3.3. 定量準(zhǔn)確性比較41-45
- 3.4. 定量可重復(fù)性比較45-47
- 4. 本章小結(jié)47-48
- 第四章 新型綜合性并行化定量軟件包PANDA的研發(fā)48-62
- 1. 概述48
- 2. 材料和方法48-49
- 2.1. 實(shí)驗(yàn)數(shù)據(jù)集48-49
- 2.2. 數(shù)據(jù)搜庫與質(zhì)控49
- 3. PANDA的定量算法流程與設(shè)計(jì)框架49-54
- 3.1. PANDA的無標(biāo)定量算法流程50-51
- 3.2. PANDA的母離子標(biāo)記定量算法流程51
- 3.3. PANDA的子離子標(biāo)記定量算法流程51-52
- 3.4. 并行化設(shè)計(jì)與架構(gòu)52-53
- 3.5. 交叉搜索算法的并行化53-54
- 4. PANDA的結(jié)果展示與分析模塊設(shè)計(jì)與開發(fā)54-59
- 4.1. 差異蛋白質(zhì)篩選流程55-56
- 4.2. 定量結(jié)果的列表展示56-57
- 4.3. 定量結(jié)果的可視化57-59
- 5. 結(jié)果與討論59-60
- 6. 本章小結(jié)60-62
- 第五章 蛋白質(zhì)定量方法在大規(guī)模數(shù)據(jù)分析中的應(yīng)用62-75
- 1. 概述62-63
- 2. 材料和方法63-65
- 2.1. 實(shí)驗(yàn)設(shè)計(jì)63-64
- 2.2. 實(shí)驗(yàn)數(shù)據(jù)集64
- 2.3. 蛋白質(zhì)組數(shù)據(jù)鑒定與質(zhì)量控制64
- 2.4. 大規(guī)模蛋白質(zhì)組數(shù)據(jù)定量分析流程64-65
- 3. 結(jié)果與討論65-73
- 3.1. 蛋白質(zhì)組數(shù)據(jù)定量概況65-68
- 3.2. 多組學(xué)數(shù)據(jù)整合分析68-70
- 3.3. 蛋白質(zhì)豐度與功能的關(guān)系70-72
- 3.4. 多組學(xué)定量數(shù)據(jù)的動(dòng)態(tài)范圍72-73
- 4. 本章小結(jié)73-75
- 第六章 總結(jié)與展望75-77
- 參考文獻(xiàn)77-83
- 附錄83-88
- 綜述88-109
- 參考文獻(xiàn)102-109
- 代表性論著109-110
- 致謝110-112
- 個(gè)人簡歷112-11
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馬海濱;張紀(jì)陽;劉輝;孫漢昌;謝紅衛(wèi);;蛋白質(zhì)組學(xué)中質(zhì)譜數(shù)據(jù)標(biāo)準(zhǔn)研究進(jìn)展[J];質(zhì)譜學(xué)報(bào);2011年03期
2 王昭鑫;劉毅慧;;主元余像集主成分分析在蛋白質(zhì)質(zhì)譜數(shù)據(jù)中的應(yīng)用[J];生物信息學(xué);2009年03期
3 王堯佳;祝磊;韓斌;厲力華;鄭智國;牟瀚舟;;基于遞歸零空間線性判別分析算法的蛋白質(zhì)質(zhì)譜數(shù)據(jù)特征選擇[J];航天醫(yī)學(xué)與醫(yī)學(xué)工程;2010年05期
4 鄒修明;羅楠;孫懷江;;基于T檢驗(yàn)與支持向量機(jī)的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析[J];淮陰師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年05期
5 楊兵,應(yīng)萬濤,董鴻曄,錢小紅;規(guī);鞍踪|(zhì)鑒定中的串聯(lián)質(zhì)譜數(shù)據(jù)評價(jià)方法[J];生命的化學(xué);2005年05期
6 張蓉;馮斌;孫俊;;基于QPSO-SVM算法的SELDI-TOF質(zhì)譜數(shù)據(jù)分析[J];計(jì)算機(jī)應(yīng)用與軟件;2011年01期
7 盛泉虎,解濤,丁達(dá)夫;串聯(lián)質(zhì)譜數(shù)據(jù)的從頭解析與蛋白質(zhì)的數(shù)據(jù)庫搜索鑒定[J];生物化學(xué)與生物物理學(xué)報(bào);2000年06期
8 厲欣;徐松云;張宇;鄒漢法;;基于保留時(shí)間和質(zhì)荷比匹配的液相色譜-質(zhì)譜聯(lián)用技術(shù)用于非標(biāo)記肽段的差異分析[J];分析化學(xué);2008年07期
9 劉海軍;陳克平;;利用EST序列構(gòu)建Mascot本地?cái)?shù)據(jù)庫[J];生命的化學(xué);2012年03期
10 陳益強(qiáng),高文,付巖,李德泉,陳翔;基于信息技術(shù)的蛋白質(zhì)識別研究[J];生命科學(xué);2003年02期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 孫瑞祥;付巖;張京芬;李德泉;王海鵬;蔡津津;王曉彪;曾嶸;賀思敏;高文;;蛋白質(zhì)組質(zhì)譜信息處理的關(guān)鍵算法研究[A];中國蛋白質(zhì)組學(xué)第三屆學(xué)術(shù)大會(huì)論文摘要[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 牛明;海量質(zhì)譜數(shù)據(jù)深度解析新方法及其應(yīng)用[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2012年
2 徐承建;質(zhì)譜數(shù)據(jù)發(fā)掘與聯(lián)用色譜分析方法及其在中藥分析中的應(yīng)用研究[D];中南大學(xué);2003年
3 馬潔;蛋白質(zhì)組肽段鑒定質(zhì)量控制方法的研究與應(yīng)用[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2010年
4 常乘;定量蛋白質(zhì)組算法研究與應(yīng)用[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 馬海濱;質(zhì)譜數(shù)據(jù)結(jié)構(gòu)化存儲及壓縮問題研究[D];國防科學(xué)技術(shù)大學(xué);2010年
2 楊錦瑜;質(zhì)譜數(shù)據(jù)挖掘及中藥色譜指紋圖譜評價(jià)新方法[D];中南大學(xué);2005年
3 楊沖;面向質(zhì)譜數(shù)據(jù)的蛋白質(zhì)直接鑒定系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2013年
4 賀權(quán)澤;動(dòng)物毒素?cái)?shù)據(jù)庫的建立與質(zhì)譜數(shù)據(jù)提取方法研究[D];湖南師范大學(xué);2011年
5 柯激情;基于稀疏表示的蛋白質(zhì)質(zhì)譜數(shù)據(jù)分析[D];杭州電子科技大學(xué);2012年
6 張輝;離子阱串聯(lián)質(zhì)譜數(shù)據(jù)de novo分析方法與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年
7 馬婷婷;某些腫瘤蛋白組質(zhì)譜數(shù)據(jù)的分析模型及其應(yīng)用[D];浙江理工大學(xué);2015年
8 繆佳錚;基于質(zhì)譜數(shù)據(jù)分析的蛋白質(zhì)鑒定—斷裂模型、磷酸化肽段以及譜庫搜索方法的研究[D];浙江工商大學(xué);2010年
9 鄒翠;串聯(lián)質(zhì)譜數(shù)據(jù)的預(yù)處理方法研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
10 時(shí)沖;蛋白質(zhì)質(zhì)譜數(shù)據(jù)挖掘方法研究[D];南京理工大學(xué);2011年
本文關(guān)鍵詞:定量蛋白質(zhì)組算法研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號:309199
本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/309199.html