當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

單樣本基因集分析方法的基準(zhǔn)研究及其在呼吸疾病上的應(yīng)用

發(fā)布時(shí)間：2021-11-19 05:04

　　目的:使用常用的基因集富集分析方法處理分析存在異質(zhì)性和樣本/病患特異性的數(shù)據(jù)集時(shí)會給分析結(jié)果引入系統(tǒng)誤差,因此近幾年有許多研究人員設(shè)計(jì)開發(fā)了一系列用于識別單個(gè)或異質(zhì)樣本中通路活動等的單樣本基因集分析方法。那么對于不熟悉單樣本基因集分析方法的生物學(xué)家來說,如何從這些已有的備選方法中選擇最合適的分析方法是一個(gè)重要問題。目前的各類研究中,缺乏對已有單樣本基因集分析方法工具的評估和比較。因此本研究旨在基于基因集分析方法理論,對所選6種單樣本基因集分析方法在靈敏度,特異度和精確度方面進(jìn)行比較研究,為數(shù)據(jù)分析方法的選擇提供新的思路。方法:在GEO數(shù)據(jù)庫中檢索篩選8個(gè)與呼吸疾病相關(guān)的數(shù)據(jù)集,作為基準(zhǔn)評估研究中的“金標(biāo)準(zhǔn)”測試數(shù)據(jù)集,并且選定的疾病相關(guān)數(shù)據(jù)必須具有已知的生物學(xué)功能注釋的基因集（信號通路）,能夠作為參考靶向通路（Target Pathway）。結(jié)合生物學(xué)研究結(jié)果,比較6種單樣本基因集分析方法結(jié)果中的有統(tǒng)計(jì)學(xué)意義的基因集與已知的生物學(xué)研究證據(jù)（靶向通路）的符合程度,然后計(jì)算靈敏度,特異度和精確度,最后進(jìn)行客觀評價(jià)。為了使基準(zhǔn)研究便于記錄、利用和傳閱,使用Jupyter Notebook記錄...

【文章來源】：廣州醫(yī)科大學(xué)廣東省

【文章頁數(shù)】：59 頁

【學(xué)位級別】：碩士

【部分圖文】：

GSA基本流程

方法,樣本,標(biāo)準(zhǔn)數(shù)據(jù)

員開發(fā)了一系列特定的GSA軟件或者工具，用于直接計(jì)算每個(gè)獨(dú)立樣本的通路統(tǒng)計(jì)量，用于比較那些處于不同狀態(tài)的個(gè)體。這類方法統(tǒng)稱為單樣本基因集分析(ss-GSA)方法。常用的GSA方法側(cè)重于識別正常人群和疾病人群之間的特定通路，而ss-GSA方法能夠聚焦于個(gè)體樣本，給出所有在給定通路上的統(tǒng)計(jì)量以便后續(xù)比較。ss-GSA方法包括PLAGE[21]、ZSCORE[22]、GSVA[23]、GRAPE[24]、Pathifier[25]和individPath[26]等，它們能夠處理含有樣本特異性的復(fù)雜數(shù)據(jù)集、組間或組內(nèi)差異較大的小樣本量數(shù)據(jù)集以及在異質(zhì)樣本中找到顯著差異的問題。圖2為常用GSA方法與ss-GSA方法和的比較。常用GSA習(xí)慣給統(tǒng)計(jì)結(jié)果劃定一個(gè)閾值范圍，所設(shè)定的閾值范圍不同，結(jié)果也會不同。并且常用GSA獲得的結(jié)果中不包含樣本信息。而ss-GSA方法能夠提供個(gè)性化或樣本特異性分析，并且能夠分別得到樣本和通路的聚類結(jié)果。圖2常用GSA方法（左）與ss-GSA方法（右）的比較綜上所述，如何選擇合適有效的ss-GSA方法是我們需要研究的問題。通常解決這種選擇問題的方法是進(jìn)行基準(zhǔn)評估研究，用于比較不同的方法或者工具。基準(zhǔn)是一項(xiàng)已知其質(zhì)量或數(shù)量，能與其他事物進(jìn)行比較的標(biāo)準(zhǔn)。換句話說，基準(zhǔn)研究是衡量軟件或方法性能的測試研究。這些測試結(jié)果用以比較某軟件工具與其他軟件工具的性能。比較基準(zhǔn)時(shí)，結(jié)果統(tǒng)計(jì)值越高，或者計(jì)算速度越快，那么結(jié)果越顯著。在一項(xiàng)基準(zhǔn)研究中，標(biāo)準(zhǔn)數(shù)據(jù)集和靶向通路是最重要的組成部分。標(biāo)準(zhǔn)數(shù)據(jù)集必須具有已知的靶向通路，我們需要在這些標(biāo)準(zhǔn)數(shù)據(jù)集上測試所有ss-GSA方法，然后查看哪些方法可以匹配到更多的靶向通路。每種方法都應(yīng)有

數(shù)據(jù)集,基因,探針,矩陣

廣州醫(yī)科大學(xué)碩士學(xué)位論文10每個(gè)數(shù)據(jù)集的處理，都使用了RMA[41]算法進(jìn)行背景校正和歸一化。然后通過芯片平臺數(shù)據(jù)文件（GPL文件）將每個(gè)探針I(yè)D轉(zhuǎn)化為相應(yīng)的基因名。如果有多個(gè)探針同時(shí)定位到同一基因，采用此組探針的算術(shù)平均值作為該基因的表達(dá)值。在ss-GSA分析中需要用到的表達(dá)數(shù)據(jù)集矩陣（通常具有N個(gè)基因和n個(gè)樣本）格式如圖3所示。表2表達(dá)數(shù)據(jù)矩陣形式我們引入以下格式來存儲準(zhǔn)備好的8個(gè)數(shù)據(jù)集以便其他人獲齲在R軟件中，使用“列表”對象存儲實(shí)驗(yàn)結(jié)果矩陣，其中行通常代表感興趣的基因，列代表樣本，這些數(shù)據(jù)是通過測序和微陣列實(shí)驗(yàn)產(chǎn)生的，值得注意的是，需要在第一行添加每個(gè)樣本所處的疾病狀態(tài)。該列表的格式如圖3所示。圖3數(shù)據(jù)集在R中的存儲形式GeneNameSample1Sample2Sample3SamplenNormal010…Gene11.251.321.85…Gene24.560.523.68…Gene33.212.352.13…GeneN…………

本文編號：3504346

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3504346.html

上一篇：基于二叉樹的圖像拼接和扭曲誤差消除算法研究
下一篇：圖書發(fā)行領(lǐng)域標(biāo)準(zhǔn)化知識圖譜的構(gòu)建研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

單樣本基因集分析方法的基準(zhǔn)研究及其在呼吸疾病上的應(yīng)用