單樣本基因集分析方法的基準(zhǔn)研究及其在呼吸疾病上的應(yīng)用
發(fā)布時間:2021-11-19 05:04
目的:使用常用的基因集富集分析方法處理分析存在異質(zhì)性和樣本/病患特異性的數(shù)據(jù)集時會給分析結(jié)果引入系統(tǒng)誤差,因此近幾年有許多研究人員設(shè)計開發(fā)了一系列用于識別單個或異質(zhì)樣本中通路活動等的單樣本基因集分析方法。那么對于不熟悉單樣本基因集分析方法的生物學(xué)家來說,如何從這些已有的備選方法中選擇最合適的分析方法是一個重要問題。目前的各類研究中,缺乏對已有單樣本基因集分析方法工具的評估和比較。因此本研究旨在基于基因集分析方法理論,對所選6種單樣本基因集分析方法在靈敏度,特異度和精確度方面進行比較研究,為數(shù)據(jù)分析方法的選擇提供新的思路。方法:在GEO數(shù)據(jù)庫中檢索篩選8個與呼吸疾病相關(guān)的數(shù)據(jù)集,作為基準(zhǔn)評估研究中的“金標(biāo)準(zhǔn)”測試數(shù)據(jù)集,并且選定的疾病相關(guān)數(shù)據(jù)必須具有已知的生物學(xué)功能注釋的基因集(信號通路),能夠作為參考靶向通路(Target Pathway)。結(jié)合生物學(xué)研究結(jié)果,比較6種單樣本基因集分析方法結(jié)果中的有統(tǒng)計學(xué)意義的基因集與已知的生物學(xué)研究證據(jù)(靶向通路)的符合程度,然后計算靈敏度,特異度和精確度,最后進行客觀評價。為了使基準(zhǔn)研究便于記錄、利用和傳閱,使用Jupyter Notebook記錄...
【文章來源】:廣州醫(yī)科大學(xué)廣東省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
GSA基本流程
員開發(fā)了一系列特定的GSA軟件或者工具,用于直接計算每個獨立樣本的通路統(tǒng)計量,用于比較那些處于不同狀態(tài)的個體。這類方法統(tǒng)稱為單樣本基因集分析(ss-GSA)方法。常用的GSA方法側(cè)重于識別正常人群和疾病人群之間的特定通路,而ss-GSA方法能夠聚焦于個體樣本,給出所有在給定通路上的統(tǒng)計量以便后續(xù)比較。ss-GSA方法包括PLAGE[21]、ZSCORE[22]、GSVA[23]、GRAPE[24]、Pathifier[25]和individPath[26]等,它們能夠處理含有樣本特異性的復(fù)雜數(shù)據(jù)集、組間或組內(nèi)差異較大的小樣本量數(shù)據(jù)集以及在異質(zhì)樣本中找到顯著差異的問題。圖2為常用GSA方法與ss-GSA方法和的比較。常用GSA習(xí)慣給統(tǒng)計結(jié)果劃定一個閾值范圍,所設(shè)定的閾值范圍不同,結(jié)果也會不同。并且常用GSA獲得的結(jié)果中不包含樣本信息。而ss-GSA方法能夠提供個性化或樣本特異性分析,并且能夠分別得到樣本和通路的聚類結(jié)果。圖2常用GSA方法(左)與ss-GSA方法(右)的比較綜上所述,如何選擇合適有效的ss-GSA方法是我們需要研究的問題。通常解決這種選擇問題的方法是進行基準(zhǔn)評估研究,用于比較不同的方法或者工具;鶞(zhǔn)是一項已知其質(zhì)量或數(shù)量,能與其他事物進行比較的標(biāo)準(zhǔn)。換句話說,基準(zhǔn)研究是衡量軟件或方法性能的測試研究。這些測試結(jié)果用以比較某軟件工具與其他軟件工具的性能。比較基準(zhǔn)時,結(jié)果統(tǒng)計值越高,或者計算速度越快,那么結(jié)果越顯著。在一項基準(zhǔn)研究中,標(biāo)準(zhǔn)數(shù)據(jù)集和靶向通路是最重要的組成部分。標(biāo)準(zhǔn)數(shù)據(jù)集必須具有已知的靶向通路,我們需要在這些標(biāo)準(zhǔn)數(shù)據(jù)集上測試所有ss-GSA方法,然后查看哪些方法可以匹配到更多的靶向通路。每種方法都應(yīng)有
廣州醫(yī)科大學(xué)碩士學(xué)位論文10每個數(shù)據(jù)集的處理,都使用了RMA[41]算法進行背景校正和歸一化。然后通過芯片平臺數(shù)據(jù)文件(GPL文件)將每個探針I(yè)D轉(zhuǎn)化為相應(yīng)的基因名。如果有多個探針同時定位到同一基因,采用此組探針的算術(shù)平均值作為該基因的表達值。在ss-GSA分析中需要用到的表達數(shù)據(jù)集矩陣(通常具有N個基因和n個樣本)格式如圖3所示。表2表達數(shù)據(jù)矩陣形式我們引入以下格式來存儲準(zhǔn)備好的8個數(shù)據(jù)集以便其他人獲齲在R軟件中,使用“列表”對象存儲實驗結(jié)果矩陣,其中行通常代表感興趣的基因,列代表樣本,這些數(shù)據(jù)是通過測序和微陣列實驗產(chǎn)生的,值得注意的是,需要在第一行添加每個樣本所處的疾病狀態(tài)。該列表的格式如圖3所示。圖3數(shù)據(jù)集在R中的存儲形式GeneNameSample1Sample2Sample3SamplenNormal010…Gene11.251.321.85…Gene24.560.523.68…Gene33.212.352.13…GeneN…………
本文編號:3504346
【文章來源】:廣州醫(yī)科大學(xué)廣東省
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
GSA基本流程
員開發(fā)了一系列特定的GSA軟件或者工具,用于直接計算每個獨立樣本的通路統(tǒng)計量,用于比較那些處于不同狀態(tài)的個體。這類方法統(tǒng)稱為單樣本基因集分析(ss-GSA)方法。常用的GSA方法側(cè)重于識別正常人群和疾病人群之間的特定通路,而ss-GSA方法能夠聚焦于個體樣本,給出所有在給定通路上的統(tǒng)計量以便后續(xù)比較。ss-GSA方法包括PLAGE[21]、ZSCORE[22]、GSVA[23]、GRAPE[24]、Pathifier[25]和individPath[26]等,它們能夠處理含有樣本特異性的復(fù)雜數(shù)據(jù)集、組間或組內(nèi)差異較大的小樣本量數(shù)據(jù)集以及在異質(zhì)樣本中找到顯著差異的問題。圖2為常用GSA方法與ss-GSA方法和的比較。常用GSA習(xí)慣給統(tǒng)計結(jié)果劃定一個閾值范圍,所設(shè)定的閾值范圍不同,結(jié)果也會不同。并且常用GSA獲得的結(jié)果中不包含樣本信息。而ss-GSA方法能夠提供個性化或樣本特異性分析,并且能夠分別得到樣本和通路的聚類結(jié)果。圖2常用GSA方法(左)與ss-GSA方法(右)的比較綜上所述,如何選擇合適有效的ss-GSA方法是我們需要研究的問題。通常解決這種選擇問題的方法是進行基準(zhǔn)評估研究,用于比較不同的方法或者工具;鶞(zhǔn)是一項已知其質(zhì)量或數(shù)量,能與其他事物進行比較的標(biāo)準(zhǔn)。換句話說,基準(zhǔn)研究是衡量軟件或方法性能的測試研究。這些測試結(jié)果用以比較某軟件工具與其他軟件工具的性能。比較基準(zhǔn)時,結(jié)果統(tǒng)計值越高,或者計算速度越快,那么結(jié)果越顯著。在一項基準(zhǔn)研究中,標(biāo)準(zhǔn)數(shù)據(jù)集和靶向通路是最重要的組成部分。標(biāo)準(zhǔn)數(shù)據(jù)集必須具有已知的靶向通路,我們需要在這些標(biāo)準(zhǔn)數(shù)據(jù)集上測試所有ss-GSA方法,然后查看哪些方法可以匹配到更多的靶向通路。每種方法都應(yīng)有
廣州醫(yī)科大學(xué)碩士學(xué)位論文10每個數(shù)據(jù)集的處理,都使用了RMA[41]算法進行背景校正和歸一化。然后通過芯片平臺數(shù)據(jù)文件(GPL文件)將每個探針I(yè)D轉(zhuǎn)化為相應(yīng)的基因名。如果有多個探針同時定位到同一基因,采用此組探針的算術(shù)平均值作為該基因的表達值。在ss-GSA分析中需要用到的表達數(shù)據(jù)集矩陣(通常具有N個基因和n個樣本)格式如圖3所示。表2表達數(shù)據(jù)矩陣形式我們引入以下格式來存儲準(zhǔn)備好的8個數(shù)據(jù)集以便其他人獲齲在R軟件中,使用“列表”對象存儲實驗結(jié)果矩陣,其中行通常代表感興趣的基因,列代表樣本,這些數(shù)據(jù)是通過測序和微陣列實驗產(chǎn)生的,值得注意的是,需要在第一行添加每個樣本所處的疾病狀態(tài)。該列表的格式如圖3所示。圖3數(shù)據(jù)集在R中的存儲形式GeneNameSample1Sample2Sample3SamplenNormal010…Gene11.251.321.85…Gene24.560.523.68…Gene33.212.352.13…GeneN…………
本文編號:3504346
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3504346.html
最近更新
教材專著