基于廣義線性模型的基因表達(dá)水平預(yù)測(cè)

發(fā)布時(shí)間：2022-01-06 20:33

　　組蛋白修飾是生物體中普遍存在的一種現(xiàn)象,能夠以不同的調(diào)控方式影響基因表達(dá),且隨著高通量測(cè)序技術(shù)的飛速發(fā)展,大量的測(cè)序數(shù)據(jù)使得探究組蛋白修飾信號(hào)與基因表達(dá)水平之間的內(nèi)在聯(lián)系成為可能.由于基因表達(dá)數(shù)據(jù)存在零膨脹現(xiàn)象,提出了一種基于廣義線性模型框架的主從模型,能夠以較高精度從組蛋白修飾信號(hào)預(yù)測(cè)基因表達(dá)水平.首先通過人類全基因組注釋文件中的基因位點(diǎn)信息,篩選出包含完整基因位點(diǎn)信息的表達(dá)數(shù)據(jù);其次,根據(jù)基因位點(diǎn)信息,定位并提取出組蛋白修飾數(shù)據(jù)中基因特定位點(diǎn)的特征信息,構(gòu)建設(shè)計(jì)矩陣;最后結(jié)合響應(yīng)變量數(shù)據(jù)零膨脹的特點(diǎn),構(gòu)建主從模型,以GM12878細(xì)胞系為例,與現(xiàn)有的多種回歸算法進(jìn)行對(duì)比,驗(yàn)證了所提模型的有效性.

【文章來源】：大連理工大學(xué)學(xué)報(bào). 2020,60(01)北大核心CSCD

【文章頁(yè)數(shù)】：6 頁(yè)

【部分圖文】：

組蛋白修飾特征提取示意圖

特征值分布,特征值分布,響應(yīng)變量,蛋白

第一過程:通過響應(yīng)變量值給每個(gè)樣本添加標(biāo)簽(0或1),將響應(yīng)變量值yi不為零的樣本標(biāo)記為正類,用1表示,響應(yīng)變量值yi為零的樣本標(biāo)記為負(fù)類,用0表示.通過GLM對(duì)該數(shù)據(jù)集構(gòu)建一個(gè)分類模型.根據(jù)之前給定的標(biāo)簽值,響應(yīng)變量值yi服從二值分布,對(duì)于任意一個(gè)樣本xi,其對(duì)應(yīng)的標(biāo)簽值為yi,則每個(gè)基因樣本是否表達(dá)的分布函數(shù)如下:

直方圖,直方圖

TPM值分布直方圖

本文編號(hào)：3573123

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/projectlw/swxlw/3573123.html

上一篇：霍山石斛內(nèi)生真菌的多樣性、差異性及抑菌活性
下一篇：谷氨酸棒桿菌基因編輯的研究進(jìn)展

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于廣義線性模型的基因表達(dá)水平預(yù)測(cè)