蛋白質(zhì)組一站式數(shù)據(jù)分析及可視化平臺(tái)的研發(fā)及應(yīng)用
發(fā)布時(shí)間:2021-01-13 05:52
蛋白質(zhì)組學(xué)是后基因組時(shí)代的熱點(diǎn)研究領(lǐng)域。隨著儀器精度的提升及鑒定算法的完善,蛋白質(zhì)組學(xué)的研究重點(diǎn)已經(jīng)逐漸從定性研究轉(zhuǎn)移到了定量研究。確定生物體不同狀態(tài)下的差異表達(dá)蛋白質(zhì)是定量蛋白質(zhì)組研究的重要方向之一,對(duì)理解蛋白質(zhì)功能以及整個(gè)生命活動(dòng)起到了重要作用。目前已陸續(xù)發(fā)表了多種差異表達(dá)蛋白質(zhì)計(jì)算工具,但它們普遍存在安裝更新復(fù)雜、上游工具兼容性不佳、功能有限、使用門檻高、分析結(jié)果展示效果差等問題。這給蛋白質(zhì)組技術(shù)的推廣及應(yīng)用造成了一定的困難,此時(shí)亟待推出一個(gè)功能全面、簡單易用的組學(xué)數(shù)據(jù)分析工具。針對(duì)上面提出的問題,本工作主要關(guān)注于蛋白質(zhì)組一站式分析及可視化平臺(tái)MyOmics的研發(fā)及應(yīng)用。本文的主要內(nèi)容包括如下三方面:(1)我們首先調(diào)研了差異表達(dá)蛋白質(zhì)篩選分析流程中缺失值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、統(tǒng)計(jì)學(xué)分析及功能富集等各個(gè)階段的常用分析方法及適用條件,引入機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)高維數(shù)據(jù)的直觀展示。之后我們使用Python及R語言,以多級(jí)索引數(shù)據(jù)框?yàn)楹诵臄?shù)據(jù)結(jié)構(gòu),完成了主要方法的編程實(shí)現(xiàn)與功能對(duì)接,并針對(duì)組內(nèi)全樣本定量缺失、統(tǒng)計(jì)學(xué)檢驗(yàn)方法擇優(yōu)選擇等具體問題進(jìn)行算法優(yōu)化。(2)依托于Galaxy計(jì)算生物學(xué)平臺(tái)系統(tǒng),...
【文章來源】:軍事科學(xué)院北京市
【文章頁數(shù)】:104 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于質(zhì)譜的蛋白質(zhì)組實(shí)驗(yàn)及分析流程示意圖
圖 1-2 蛋白質(zhì)生物標(biāo)志物發(fā)現(xiàn)的經(jīng)典“三角”策略1.3 蛋白質(zhì)組統(tǒng)計(jì)學(xué)分析中需解決的問題蛋白質(zhì)組定量結(jié)果有著區(qū)別于常規(guī)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的特征,這導(dǎo)致在通過統(tǒng)計(jì)推斷確定差異表達(dá)蛋白質(zhì)時(shí)面臨特殊的問題:1. 定量結(jié)果中缺失值較多:不同于蛋白質(zhì)芯片等相對(duì)傳統(tǒng)的實(shí)驗(yàn)方法,質(zhì)譜的定量結(jié)果中容易出現(xiàn)缺失值,即相同的肽段或蛋白質(zhì)可能僅在少部分樣本中獲得定量結(jié)果,一些 Label-free 的實(shí)驗(yàn)中部分蛋白質(zhì)的缺失值比例可超過 90 %。解決此問題的方法主要是對(duì)缺失值進(jìn)行插補(bǔ)(Missing Values Imputation),將缺失值及無效值替換為可進(jìn)行比較的形式。2. 定量結(jié)果可靠性參差不齊:由于標(biāo)記方法、儀器型號(hào)及分析工具的不同,相同的實(shí)驗(yàn)材料產(chǎn)生的定量結(jié)果可能會(huì)千差萬別。為了解決此問題,可以通過實(shí)驗(yàn)過程中添加內(nèi)參的方法保證定量結(jié)果的可靠性;此外在統(tǒng)計(jì)推斷時(shí)可使用標(biāo)準(zhǔn)化(Normalization)及多重假設(shè)檢驗(yàn)校正(Multiple Testing Correction)等方法控制假陽性率。
軍事科學(xué)院碩士學(xué)位論文蛋白質(zhì)組學(xué)定量數(shù)據(jù),往往存在一定比例的缺失值。由于部分統(tǒng)計(jì)學(xué)方法對(duì)于缺失值缺乏容忍度[37],需要一個(gè)完整的數(shù)值矩陣作為輸入,在進(jìn)行統(tǒng)計(jì)學(xué)分析之前需要對(duì)定量結(jié)果中的缺失值進(jìn)行處理。缺失值可由技術(shù)因素或生物學(xué)因素引起: 樣本中的肽段可能存在,但其響應(yīng)信號(hào)基于儀器的檢測下限,無法實(shí)現(xiàn)肽段的鑒定與定量(圖 2-1); 某些肽段僅存在于部分生物樣本中,并非在全部樣本中都存在表達(dá);
【參考文獻(xiàn)】:
期刊論文
[1]基于質(zhì)譜技術(shù)篩選差異表達(dá)蛋白的統(tǒng)計(jì)學(xué)策略研究進(jìn)展[J]. 王錦霞,常乘,馬潔,吳松鋒,莊舉娟,朱云平. 中國科學(xué):生命科學(xué). 2015(04)
碩士論文
[1]基于Galaxy的高通量生物數(shù)據(jù)分析平臺(tái)[D]. 盧冰心.華東師范大學(xué) 2013
本文編號(hào):2974341
【文章來源】:軍事科學(xué)院北京市
【文章頁數(shù)】:104 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于質(zhì)譜的蛋白質(zhì)組實(shí)驗(yàn)及分析流程示意圖
圖 1-2 蛋白質(zhì)生物標(biāo)志物發(fā)現(xiàn)的經(jīng)典“三角”策略1.3 蛋白質(zhì)組統(tǒng)計(jì)學(xué)分析中需解決的問題蛋白質(zhì)組定量結(jié)果有著區(qū)別于常規(guī)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的特征,這導(dǎo)致在通過統(tǒng)計(jì)推斷確定差異表達(dá)蛋白質(zhì)時(shí)面臨特殊的問題:1. 定量結(jié)果中缺失值較多:不同于蛋白質(zhì)芯片等相對(duì)傳統(tǒng)的實(shí)驗(yàn)方法,質(zhì)譜的定量結(jié)果中容易出現(xiàn)缺失值,即相同的肽段或蛋白質(zhì)可能僅在少部分樣本中獲得定量結(jié)果,一些 Label-free 的實(shí)驗(yàn)中部分蛋白質(zhì)的缺失值比例可超過 90 %。解決此問題的方法主要是對(duì)缺失值進(jìn)行插補(bǔ)(Missing Values Imputation),將缺失值及無效值替換為可進(jìn)行比較的形式。2. 定量結(jié)果可靠性參差不齊:由于標(biāo)記方法、儀器型號(hào)及分析工具的不同,相同的實(shí)驗(yàn)材料產(chǎn)生的定量結(jié)果可能會(huì)千差萬別。為了解決此問題,可以通過實(shí)驗(yàn)過程中添加內(nèi)參的方法保證定量結(jié)果的可靠性;此外在統(tǒng)計(jì)推斷時(shí)可使用標(biāo)準(zhǔn)化(Normalization)及多重假設(shè)檢驗(yàn)校正(Multiple Testing Correction)等方法控制假陽性率。
軍事科學(xué)院碩士學(xué)位論文蛋白質(zhì)組學(xué)定量數(shù)據(jù),往往存在一定比例的缺失值。由于部分統(tǒng)計(jì)學(xué)方法對(duì)于缺失值缺乏容忍度[37],需要一個(gè)完整的數(shù)值矩陣作為輸入,在進(jìn)行統(tǒng)計(jì)學(xué)分析之前需要對(duì)定量結(jié)果中的缺失值進(jìn)行處理。缺失值可由技術(shù)因素或生物學(xué)因素引起: 樣本中的肽段可能存在,但其響應(yīng)信號(hào)基于儀器的檢測下限,無法實(shí)現(xiàn)肽段的鑒定與定量(圖 2-1); 某些肽段僅存在于部分生物樣本中,并非在全部樣本中都存在表達(dá);
【參考文獻(xiàn)】:
期刊論文
[1]基于質(zhì)譜技術(shù)篩選差異表達(dá)蛋白的統(tǒng)計(jì)學(xué)策略研究進(jìn)展[J]. 王錦霞,常乘,馬潔,吳松鋒,莊舉娟,朱云平. 中國科學(xué):生命科學(xué). 2015(04)
碩士論文
[1]基于Galaxy的高通量生物數(shù)據(jù)分析平臺(tái)[D]. 盧冰心.華東師范大學(xué) 2013
本文編號(hào):2974341
本文鏈接:http://sikaile.net/projectlw/swxlw/2974341.html
最近更新
教材專著