基因轉(zhuǎn)錄調(diào)控相關(guān)的生物信息學(xué)研究
發(fā)布時(shí)間:2022-01-20 08:37
轉(zhuǎn)錄調(diào)控是基因表達(dá)的關(guān)鍵步驟,是生物體正常生命活動(dòng)必需的環(huán)節(jié)。轉(zhuǎn)錄調(diào)控機(jī)制受啟動(dòng)子、組蛋白翻譯后修飾等多種因素的影響,一旦這些因素缺失或發(fā)生突變,會(huì)導(dǎo)致嚴(yán)重的人類疾病。高分辨率質(zhì)譜分析等實(shí)驗(yàn)方法耗時(shí)、費(fèi)力,為此,本文從數(shù)據(jù)不平衡處理的角度,圍繞啟動(dòng)子和組蛋白翻譯后修飾位點(diǎn),基于機(jī)器學(xué)習(xí)分類算法開發(fā)出高效率、高精度的預(yù)測模型,從而縮短實(shí)驗(yàn)工作量。主要成果如下:(1)針對已有模型識別具體類型啟動(dòng)子精確性較低的問題,本文提出了多層預(yù)測模型MULTiPly。本模型利用K-tuple核苷酸組成,基于二核苷酸的自相關(guān)組成提取樣本序列的局部信息,采用雙邊貝葉斯和K近鄰特征編碼方法提取全局信息,并應(yīng)用F-score和增量特征選擇方法構(gòu)建最優(yōu)特征組合以進(jìn)一步提升模型的分類準(zhǔn)確率。此外,為了處理不同類型的啟動(dòng)子樣本數(shù)極度不平衡的問題,本文在第二層預(yù)測模型中開發(fā)了五個(gè)子分類器來逐一確定啟動(dòng)子的類型。五折交叉驗(yàn)證和獨(dú)立測試的結(jié)果表明,本文構(gòu)建的預(yù)測模型MULTiPly對啟動(dòng)子及其具體類型的識別效果顯著。(2)賴氨酸甲酰化是一種可逆的蛋白質(zhì)翻譯后修飾,涉及很多重要的生物學(xué)過程。本文首次將最遠(yuǎn)距離欠采樣(Most...
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1?MULTiPly的總體框架圖??Fig.?2,1?The?o?
?基因轉(zhuǎn)錄調(diào)控相關(guān)的生物信息學(xué)研究???非C724啟動(dòng)子類。這個(gè)過程一直進(jìn)行到第五個(gè)子分類器,子集^(CT28;)被視為正樣本集和??子集被視為負(fù)樣本集。后續(xù)的實(shí)驗(yàn)結(jié)果表明,上述基于五個(gè)子分類器的方法不??僅可以解決數(shù)據(jù)不平衡問題,而且可以準(zhǔn)確地預(yù)測所識別的啟動(dòng)子屬于六種類型中的哪??一種。該多層預(yù)測器的流程圖如圖2.2所示。??The?first?layer??I??S?qu?no??o〇(fln〇???面??|?關(guān)?圔?Non一^?‘????I?BPB?i?^?Output?Norvpromotf?1???g^i-ttUMcgconto?—?DNC?1?■■丨■丨??I??匕?-??丨??;^?H?i??I?The?seconder?一一—一??*??Output:?pronwlar?I??t?|??胃?SubdaMifler-S?s?qu?oai?coding?春?I??■?BPe?Sequence?coding?SubdMsift?r?2??I?^?fWH?^?I??Oitput?o^promol^f?ONC?;?I??oro-promofr?DAC?KNN?Output?I??I?f?〇NC??I?I?1??■?▼?Subda??ifi*f*3??I?Sequence?cod丨n〇?Sequence?codinfl??_?^?KNN?▲?8,98?.齡??I?BPR?KNN?吟?■??Output:?o3"?promoter?Output?aa?promoter?.??I?I??圖2.2
amples? ̄ ̄h??_?_?4??Webserver?develoDment?Model?construction?and?Safe-Level-SMOTE??weoserver?aeveiopment?evaluation?oversampling?algorithm??,?Model?1?bPB??_?Pardmetor*"?〇?〇??▼_?M〇del2?opumoabon?.?KNN??//?iS?^?V??[u71?-?XH|??圖3.1?Formator的總體框架圖??Fig.?3.1?The?overall?framework?of?the?Fonnator??3.2.?2特征提取方法??BPB特征提取算法己被廣泛應(yīng)用于預(yù)測蛋白質(zhì)S-亞硝基化位點(diǎn)[51]、甲基化位??點(diǎn)[26]等。如前面2.2.2節(jié)所述的那樣,本章也采用了?BPB來構(gòu)建預(yù)測模型。由于??每條序列中心氨基酸總是賴氨酸(K),研究時(shí)不需要考慮這個(gè)中心位置,且序列??長度為21,故BPB特征向量的總維數(shù)為40。??K近鄰(KNN)?KNN打分策略通過從正、負(fù)訓(xùn)練數(shù)據(jù)集的相似序列中提取??特征,從而捕獲甲;稽c(diǎn)周圍的局部序列相似性[28]?‘。對于兩條局部序列Ag,??它們之間的距離定義為:??-22?-??
【參考文獻(xiàn)】:
期刊論文
[1]生物信息學(xué)在基因轉(zhuǎn)錄調(diào)控研究中的應(yīng)用[J]. 劉天嬋,余應(yīng)年. 中國病理生理雜志. 2004(04)
博士論文
[1]組蛋白修飾和組蛋白變異體在轉(zhuǎn)錄調(diào)控中的作用機(jī)制研究[D]. 李霞.中國科學(xué)院北京基因組研究所 2014
本文編號:3598512
【文章來源】:大連海事大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1?MULTiPly的總體框架圖??Fig.?2,1?The?o?
?基因轉(zhuǎn)錄調(diào)控相關(guān)的生物信息學(xué)研究???非C724啟動(dòng)子類。這個(gè)過程一直進(jìn)行到第五個(gè)子分類器,子集^(CT28;)被視為正樣本集和??子集被視為負(fù)樣本集。后續(xù)的實(shí)驗(yàn)結(jié)果表明,上述基于五個(gè)子分類器的方法不??僅可以解決數(shù)據(jù)不平衡問題,而且可以準(zhǔn)確地預(yù)測所識別的啟動(dòng)子屬于六種類型中的哪??一種。該多層預(yù)測器的流程圖如圖2.2所示。??The?first?layer??I??S?qu?no??o〇(fln〇???面??|?關(guān)?圔?Non一^?‘????I?BPB?i?^?Output?Norvpromotf?1???g^i-ttUMcgconto?—?DNC?1?■■丨■丨??I??匕?-??丨??;^?H?i??I?The?seconder?一一—一??*??Output:?pronwlar?I??t?|??胃?SubdaMifler-S?s?qu?oai?coding?春?I??■?BPe?Sequence?coding?SubdMsift?r?2??I?^?fWH?^?I??Oitput?o^promol^f?ONC?;?I??oro-promofr?DAC?KNN?Output?I??I?f?〇NC??I?I?1??■?▼?Subda??ifi*f*3??I?Sequence?cod丨n〇?Sequence?codinfl??_?^?KNN?▲?8,98?.齡??I?BPR?KNN?吟?■??Output:?o3"?promoter?Output?aa?promoter?.??I?I??圖2.2
amples? ̄ ̄h??_?_?4??Webserver?develoDment?Model?construction?and?Safe-Level-SMOTE??weoserver?aeveiopment?evaluation?oversampling?algorithm??,?Model?1?bPB??_?Pardmetor*"?〇?〇??▼_?M〇del2?opumoabon?.?KNN??//?iS?^?V??[u71?-?XH|??圖3.1?Formator的總體框架圖??Fig.?3.1?The?overall?framework?of?the?Fonnator??3.2.?2特征提取方法??BPB特征提取算法己被廣泛應(yīng)用于預(yù)測蛋白質(zhì)S-亞硝基化位點(diǎn)[51]、甲基化位??點(diǎn)[26]等。如前面2.2.2節(jié)所述的那樣,本章也采用了?BPB來構(gòu)建預(yù)測模型。由于??每條序列中心氨基酸總是賴氨酸(K),研究時(shí)不需要考慮這個(gè)中心位置,且序列??長度為21,故BPB特征向量的總維數(shù)為40。??K近鄰(KNN)?KNN打分策略通過從正、負(fù)訓(xùn)練數(shù)據(jù)集的相似序列中提取??特征,從而捕獲甲;稽c(diǎn)周圍的局部序列相似性[28]?‘。對于兩條局部序列Ag,??它們之間的距離定義為:??-22?-??
【參考文獻(xiàn)】:
期刊論文
[1]生物信息學(xué)在基因轉(zhuǎn)錄調(diào)控研究中的應(yīng)用[J]. 劉天嬋,余應(yīng)年. 中國病理生理雜志. 2004(04)
博士論文
[1]組蛋白修飾和組蛋白變異體在轉(zhuǎn)錄調(diào)控中的作用機(jī)制研究[D]. 李霞.中國科學(xué)院北京基因組研究所 2014
本文編號:3598512
本文鏈接:http://sikaile.net/kejilunwen/jiyingongcheng/3598512.html
最近更新
教材專著