基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究
發(fā)布時間:2017-12-01 15:37
本文關(guān)鍵詞:基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究
更多相關(guān)文章: RNA-Seq 基因異構(gòu)體表達(dá)水平 平滑LDA 結(jié)合區(qū) 多源映射 非均勻性 KL散度 差異異構(gòu)體比例
【摘要】:隨著下一代高通量DNA測序技術(shù)的快速發(fā)展,RNA-seq技術(shù)逐漸成為了轉(zhuǎn)錄組學(xué)研究的基本實(shí)驗手段。相比傳統(tǒng)的基因芯片技術(shù),RNA-seq技術(shù)具有高信噪比,高靈敏度,所需樣本少等特點(diǎn)。但是利用RNA-seq技術(shù)進(jìn)行表達(dá)水平估計時仍然存在很多挑戰(zhàn),比如讀段的多源映射和非均勻分布等問題。本文針對上述問題,提出了一個轉(zhuǎn)錄組表達(dá)水平估計方法sLDASeq。該模型根據(jù)基因中轉(zhuǎn)錄本注釋信息對模型參數(shù)進(jìn)行約束,對跨結(jié)合區(qū)的讀段按長度分配處理,解決了讀段跨結(jié)合區(qū)問題,并在模型中考慮了外顯子的稀疏問題。另外sLDASeq模型引入代表異構(gòu)體表達(dá)水平的隱含變量,對讀段在異構(gòu)體和外顯子上分布進(jìn)行建模,從而解決讀段在參考序列分布非均勻問題。通過模擬數(shù)據(jù)集和多個真實(shí)數(shù)據(jù)集的驗證,相比與其它主流方法,s LDASeq方法能獲得較為準(zhǔn)確的基因和異構(gòu)體表達(dá)水平。在RNA-seq數(shù)據(jù)分析中,最基本的研究目的是尋找樣本中差異表達(dá)的基因和異構(gòu)體。但目前大多數(shù)方法都是識別單個異構(gòu)體的差異表達(dá),無法同時檢測同一個基因中所包含異構(gòu)體表達(dá)比例的差異。因此本文提出了一個差異異構(gòu)體比例檢測方法。該方法基于我們設(shè)計的sLDASeq模型,運(yùn)用該模型中隱含變量的概率分布,采用KL散度進(jìn)行差異異構(gòu)體比例的分析。通過模擬和真實(shí)數(shù)據(jù)集的驗證,sLDASeq方法能準(zhǔn)確的估計基因中異構(gòu)體的比例。此外在模擬數(shù)據(jù)集上,sLDASeq方法通過KL散度能準(zhǔn)確檢測出差異異構(gòu)體比例。
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:Q811.4;TP311.13
,
本文編號:1241623
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1241623.html
最近更新
教材專著