基于模體識(shí)別和機(jī)器學(xué)習(xí)的細(xì)菌基因組中sigma-54啟動(dòng)子預(yù)測(cè)
發(fā)布時(shí)間:2020-09-04 22:08
RNA聚合酶的主要功能是利用DNA來(lái)制造RNA。在轉(zhuǎn)錄過(guò)程中,RNA聚合酶使用DNA作為模板并使用腺嘌呤脫氧核苷酸(A)和胸腺嘧啶脫氧核苷酸(T),胞嘧啶脫氧核苷酸(C)、尿嘧啶脫氧核苷酸(U)四種堿基來(lái)作為產(chǎn)生RNA的原料。細(xì)胞為了適應(yīng)不同的環(huán)境、執(zhí)行生物體內(nèi)獨(dú)特的角色以及維持生存所需的代謝過(guò)程,需要通過(guò)轉(zhuǎn)錄過(guò)程來(lái)控制RNA的形成,從而控制蛋白質(zhì)的合成,進(jìn)而來(lái)控制生物的各種性狀。并且RNA聚合酶存在于所有的生物、細(xì)胞及病毒中,因此,RNA聚合酶是一種非常重要的酶。RNA聚合酶的核心酶包含5個(gè)亞單位(β,β',αⅠ和αⅡ和ω)。sigma因子識(shí)別特定的DNA序列與RNA核心酶構(gòu)成RNA聚合酶全酶,sigma因子作為RNA聚合酶全酶的一個(gè)單位,是基因轉(zhuǎn)錄調(diào)控過(guò)程中的關(guān)鍵因素。它識(shí)別特定的DNA位點(diǎn)并將RNA聚合酶的核心酶帶到靶基因的上游區(qū)域。所以,原核生物中啟動(dòng)子的類(lèi)型是根據(jù)sigma因子的類(lèi)型來(lái)定義的。目前,已知的sigma因子主要屬于兩類(lèi):一個(gè)是sigma-70,它調(diào)控了正常情況下大多數(shù)管家基因的轉(zhuǎn)錄;另一個(gè)是sigma-54,它負(fù)責(zé)調(diào)控與環(huán)境相關(guān)的特定基因的轉(zhuǎn)錄。正因?yàn)檗D(zhuǎn)錄是基因表達(dá)的第一步,而sigma因子又在轉(zhuǎn)錄起始中起著關(guān)鍵作用,所以近年來(lái)對(duì)sigma因子的研究已經(jīng)成為研究基因表達(dá)調(diào)控的關(guān)鍵點(diǎn)之一,也受到了各國(guó)生物學(xué)家的密切關(guān)注。sigma-54家族中的許多成員在細(xì)胞的多個(gè)代謝過(guò)程中(例如:固氮調(diào)控過(guò)程,精氨酸的分解過(guò)程等)都起著重要的作用。因此,了解基因表達(dá)的后續(xù)步驟,建立基因轉(zhuǎn)錄網(wǎng)絡(luò)來(lái)揭示sigma-54啟動(dòng)子轉(zhuǎn)錄的機(jī)制是至關(guān)重要的。本文介紹了一種預(yù)測(cè)細(xì)菌基因組sigma-54啟動(dòng)子的新方法。新方法有機(jī)地結(jié)合了模體識(shí)別和機(jī)器學(xué)習(xí)策略,來(lái)獲得sigma-54啟動(dòng)子的內(nèi)在特征。我們通過(guò)三種數(shù)據(jù)集來(lái)驗(yàn)證了我們的新方法。首先在大腸桿菌基因組中的基準(zhǔn)數(shù)據(jù)集上進(jìn)行模型訓(xùn)練。在大腸桿菌數(shù)據(jù)集上的基準(zhǔn)測(cè)試表明,本文的新方法可以很好的區(qū)分sigma-54啟動(dòng)子與周?chē)姆枪δ蹹NA序列或隨機(jī)選擇的DNA序列。其次,我們將訓(xùn)練好的模型運(yùn)用到三個(gè)不同基因組的計(jì)算預(yù)測(cè)數(shù)據(jù)上進(jìn)行進(jìn)一步的測(cè)試,包括:枯草芽孢桿菌(NC_000964),丙酮丁醇梭菌(NC_003030)和短乳桿菌(NC_008497)三個(gè)樣本集。在其他三種細(xì)菌基因組的應(yīng)用表明了我們的方法在大量細(xì)菌基因組上具有潛在的穩(wěn)健性和應(yīng)用能力。最后,將本文中的方法運(yùn)用到了其他啟動(dòng)子的識(shí)別中,同樣取得了不錯(cuò)的效果。同時(shí),我們構(gòu)建了啟動(dòng)子預(yù)測(cè)網(wǎng)絡(luò)服務(wù)器,針對(duì)原核生物的5個(gè)不同的sigma因子提供預(yù)測(cè)服務(wù)。
【學(xué)位單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類(lèi)】:Q811.4;TP391.4;TP181
【部分圖文】:
山東大學(xué)碩士學(xué)位論文,我們把短序列(長(zhǎng)度小于12邋bps)忽略掉,并且短的序列可能會(huì)帶來(lái),從而影響實(shí)驗(yàn)結(jié)果。我們同時(shí)將負(fù)樣本集中的模體也考慮在內(nèi),因區(qū)域或沒(méi)有sigma因子結(jié)合的基因間區(qū)域中可能存在一些保守的模體,sigma結(jié)合區(qū)域排除。將每個(gè)預(yù)測(cè)得到的預(yù)測(cè)模體轉(zhuǎn)換成位置頻率矩其中人是在每個(gè)位置_/處(從1到1,并且1是模體的長(zhǎng)度)核苷{A,邋G,邋C,T})的頻率。我們?cè)冢模停桑危模辆W(wǎng)絡(luò)服務(wù)器上通過(guò)BOBR菌基準(zhǔn)數(shù)據(jù)進(jìn)行了模體識(shí)別,輸入的模體長(zhǎng)度范圍為]2到16。我們中獲得了邋99個(gè)模體剖面,并從負(fù)樣本集中獲得了邋105個(gè)模體剖面。如圖3.2.1所示,其中x軸是預(yù)測(cè)模體的長(zhǎng)度,并且y軸是具有相應(yīng)的數(shù)量,左邊是大腸桿菌中的正樣本長(zhǎng)度分布圖,右邊是大腸桿菌中度分布圖:逡逑100100-逡逑
圖4.2.1:本文的方法和iPro54-PseKNC之間的性能比較逡逑看到,基于本文策略的分類(lèi)的平均性能具有較高的靈敏度,但C相比具有較低的特異性,這兩種方法的準(zhǔn)確率(Acc)和馬CC)并沒(méi)有顯著差異。逡逑上述分類(lèi)進(jìn)行了降維。在這里,我們選擇了三種流行的分類(lèi)學(xué),隨機(jī)森林和支持向量機(jī)來(lái)做進(jìn)一步的分析。libSVM應(yīng)用中最(-c)和gamma邋(-g),我們使用默認(rèn)值1作為成本,并將ga其中k是輸入數(shù)據(jù)的記錄數(shù)。隨機(jī)森林的參數(shù)設(shè)置如下:每個(gè))考虎的屬性集的大小的缺省值被用作log2(m)+l,其中m是輸練學(xué)習(xí)器的樣本量(batchSizes)被設(shè)置為100;并且迭代次數(shù)
Bobro來(lái)獲取模體,其中sigma-70啟動(dòng)子中獲得了邋262個(gè)特征,sigma-32啟動(dòng)子逡逑中獲得了邋251個(gè)特征,sigma-28啟動(dòng)子中獲得了邋249個(gè)特征,sigma-24啟動(dòng)子中逡逑獲得了邋258?jìng)(gè)特征,其特征分布如下圖4.5.1所示。逡逑-25-逡逑
本文編號(hào):2812650
【學(xué)位單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類(lèi)】:Q811.4;TP391.4;TP181
【部分圖文】:
山東大學(xué)碩士學(xué)位論文,我們把短序列(長(zhǎng)度小于12邋bps)忽略掉,并且短的序列可能會(huì)帶來(lái),從而影響實(shí)驗(yàn)結(jié)果。我們同時(shí)將負(fù)樣本集中的模體也考慮在內(nèi),因區(qū)域或沒(méi)有sigma因子結(jié)合的基因間區(qū)域中可能存在一些保守的模體,sigma結(jié)合區(qū)域排除。將每個(gè)預(yù)測(cè)得到的預(yù)測(cè)模體轉(zhuǎn)換成位置頻率矩其中人是在每個(gè)位置_/處(從1到1,并且1是模體的長(zhǎng)度)核苷{A,邋G,邋C,T})的頻率。我們?cè)冢模停桑危模辆W(wǎng)絡(luò)服務(wù)器上通過(guò)BOBR菌基準(zhǔn)數(shù)據(jù)進(jìn)行了模體識(shí)別,輸入的模體長(zhǎng)度范圍為]2到16。我們中獲得了邋99個(gè)模體剖面,并從負(fù)樣本集中獲得了邋105個(gè)模體剖面。如圖3.2.1所示,其中x軸是預(yù)測(cè)模體的長(zhǎng)度,并且y軸是具有相應(yīng)的數(shù)量,左邊是大腸桿菌中的正樣本長(zhǎng)度分布圖,右邊是大腸桿菌中度分布圖:逡逑100100-逡逑
圖4.2.1:本文的方法和iPro54-PseKNC之間的性能比較逡逑看到,基于本文策略的分類(lèi)的平均性能具有較高的靈敏度,但C相比具有較低的特異性,這兩種方法的準(zhǔn)確率(Acc)和馬CC)并沒(méi)有顯著差異。逡逑上述分類(lèi)進(jìn)行了降維。在這里,我們選擇了三種流行的分類(lèi)學(xué),隨機(jī)森林和支持向量機(jī)來(lái)做進(jìn)一步的分析。libSVM應(yīng)用中最(-c)和gamma邋(-g),我們使用默認(rèn)值1作為成本,并將ga其中k是輸入數(shù)據(jù)的記錄數(shù)。隨機(jī)森林的參數(shù)設(shè)置如下:每個(gè))考虎的屬性集的大小的缺省值被用作log2(m)+l,其中m是輸練學(xué)習(xí)器的樣本量(batchSizes)被設(shè)置為100;并且迭代次數(shù)
Bobro來(lái)獲取模體,其中sigma-70啟動(dòng)子中獲得了邋262個(gè)特征,sigma-32啟動(dòng)子逡逑中獲得了邋251個(gè)特征,sigma-28啟動(dòng)子中獲得了邋249個(gè)特征,sigma-24啟動(dòng)子中逡逑獲得了邋258?jìng)(gè)特征,其特征分布如下圖4.5.1所示。逡逑-25-逡逑
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 劉丙強(qiáng);原核生物中的轉(zhuǎn)錄調(diào)控模體預(yù)測(cè)研究[D];山東大學(xué);2010年
本文編號(hào):2812650
本文鏈接:http://sikaile.net/yixuelunwen/swyx/2812650.html
最近更新
教材專(zhuān)著