基于廣義線性模型的基因表達(dá)水平預(yù)測(cè)
發(fā)布時(shí)間:2022-01-06 20:33
組蛋白修飾是生物體中普遍存在的一種現(xiàn)象,能夠以不同的調(diào)控方式影響基因表達(dá),且隨著高通量測(cè)序技術(shù)的飛速發(fā)展,大量的測(cè)序數(shù)據(jù)使得探究組蛋白修飾信號(hào)與基因表達(dá)水平之間的內(nèi)在聯(lián)系成為可能.由于基因表達(dá)數(shù)據(jù)存在零膨脹現(xiàn)象,提出了一種基于廣義線性模型框架的主從模型,能夠以較高精度從組蛋白修飾信號(hào)預(yù)測(cè)基因表達(dá)水平.首先通過人類全基因組注釋文件中的基因位點(diǎn)信息,篩選出包含完整基因位點(diǎn)信息的表達(dá)數(shù)據(jù);其次,根據(jù)基因位點(diǎn)信息,定位并提取出組蛋白修飾數(shù)據(jù)中基因特定位點(diǎn)的特征信息,構(gòu)建設(shè)計(jì)矩陣;最后結(jié)合響應(yīng)變量數(shù)據(jù)零膨脹的特點(diǎn),構(gòu)建主從模型,以GM12878細(xì)胞系為例,與現(xiàn)有的多種回歸算法進(jìn)行對(duì)比,驗(yàn)證了所提模型的有效性.
【文章來源】:大連理工大學(xué)學(xué)報(bào). 2020,60(01)北大核心CSCD
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
組蛋白修飾特征提取示意圖
第一過程:通過響應(yīng)變量值給每個(gè)樣本添加標(biāo)簽(0或1),將響應(yīng)變量值yi不為零的樣本標(biāo)記為正類,用1表示,響應(yīng)變量值yi為零的樣本標(biāo)記為負(fù)類,用0表示.通過GLM對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)分類模型.根據(jù)之前給定的標(biāo)簽值,響應(yīng)變量值yi服從二值分布,對(duì)于任意一個(gè)樣本xi,其對(duì)應(yīng)的標(biāo)簽值為yi,則每個(gè)基因樣本是否表達(dá)的分布函數(shù)如下:
TPM值分布直方圖
本文編號(hào):3573123
【文章來源】:大連理工大學(xué)學(xué)報(bào). 2020,60(01)北大核心CSCD
【文章頁(yè)數(shù)】:6 頁(yè)
【部分圖文】:
組蛋白修飾特征提取示意圖
第一過程:通過響應(yīng)變量值給每個(gè)樣本添加標(biāo)簽(0或1),將響應(yīng)變量值yi不為零的樣本標(biāo)記為正類,用1表示,響應(yīng)變量值yi為零的樣本標(biāo)記為負(fù)類,用0表示.通過GLM對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)分類模型.根據(jù)之前給定的標(biāo)簽值,響應(yīng)變量值yi服從二值分布,對(duì)于任意一個(gè)樣本xi,其對(duì)應(yīng)的標(biāo)簽值為yi,則每個(gè)基因樣本是否表達(dá)的分布函數(shù)如下:
TPM值分布直方圖
本文編號(hào):3573123
本文鏈接:http://sikaile.net/projectlw/swxlw/3573123.html
最近更新
教材專著