Acr基因的保守特征分析與自動(dòng)化識(shí)別方法的研究
發(fā)布時(shí)間:2021-01-29 13:14
基因編輯在生命科學(xué)領(lǐng)域的科學(xué)研究和應(yīng)用中扮演了越來(lái)越重要的角色,近年來(lái),一種抑制CRISPR-Cas系統(tǒng)功能的蛋白——Acr,開(kāi)始進(jìn)入我們的視野,并且成為了當(dāng)前研究的熱點(diǎn)。Acr可以保護(hù)MGE片段,也可以作為調(diào)節(jié)基因編輯系統(tǒng)的工具。一些噬菌體通過(guò)Acr對(duì)CRISPR-Cas系統(tǒng)的抑制功能,成功地感染細(xì)菌并將其遺傳材料整合到宿主的基因組中。由于目前我們對(duì)Acr的認(rèn)識(shí)還十分有限,科學(xué)家們只能使用比較單一的方法在細(xì)菌中的基因組中定位大致的Acr,然后通過(guò)實(shí)驗(yàn)進(jìn)行驗(yàn)證,費(fèi)時(shí)費(fèi)力。因此對(duì)Acr相關(guān)的特征進(jìn)行系統(tǒng)的分析,設(shè)計(jì)一套完整的Acr識(shí)別系統(tǒng),將極大地促進(jìn)我們對(duì)Acr的了解和鑒定。為此,我們系統(tǒng)地調(diào)查了Acr的特征,結(jié)合機(jī)器學(xué)習(xí)的方法,利用決策樹(shù)構(gòu)建了一個(gè)比較準(zhǔn)確的Acr識(shí)別系統(tǒng)。在本工作中,我們從五個(gè)角度分析了Acr的特征:1)與非Acr蛋白相比,Acr蛋白擁有較短的序列長(zhǎng)度,分布在81234aa的范圍內(nèi);2)在Genbank中,Acr通常被注釋為假定蛋白,而非Acr蛋白則有具體的功能;3)大部分的Acr的編碼基因(66.7%)都位于基因組島上,其中81.8%屬于pr...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:51 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Acr與非Acr蛋白序列長(zhǎng)度差異分析
詵⑾值乃?蠥cr的蛋白質(zhì)序列的長(zhǎng)度的平均值,然后分析了其分布(圖2-1.c)。從圖中可以看出,在不同屬中Acr蛋白的長(zhǎng)度與所有Acr蛋白的長(zhǎng)度分布較為相似,說(shuō)明物種對(duì)Acr蛋白的長(zhǎng)度影響不大?紤]到細(xì)菌自身的蛋白和外來(lái)的可移動(dòng)遺傳元件MGEs上的蛋白之間在序列長(zhǎng)度上可能存在差異,我們從Genbank獲得了69個(gè)Acr所在的53個(gè)基因組的所有蛋白序列,并將這些蛋白分為細(xì)菌自身和外來(lái)MGEs兩大類(lèi),然后分析了這兩類(lèi)蛋白之間的長(zhǎng)度差異。總體來(lái)說(shuō),MGEs上的蛋白的長(zhǎng)度小于基因組自身蛋白的長(zhǎng)度(平均長(zhǎng)度分別為267aa、317aa),但是從圖2-2.a可以看出,這兩類(lèi)蛋白的長(zhǎng)度分布有很高的重疊度。Studentt檢驗(yàn)顯示,這兩類(lèi)蛋白質(zhì)的序列長(zhǎng)度之間存在顯著差異(p=6.29e-47)。說(shuō)明在大多數(shù)情況下,MGEs上的蛋白的長(zhǎng)度確實(shí)小于細(xì)菌自身的蛋白長(zhǎng)度。值得注意的是,當(dāng)我們將蛋白的范圍縮小到MGEs上的所有蛋白,將MGEs上的所有的蛋白分為Acr和非Acr(同時(shí)排除Acr的同源蛋白),然后分析它們之間的蛋白質(zhì)序列長(zhǎng)度差異,結(jié)論依然與之前一致(圖2-2.b)。Acr蛋白的序列長(zhǎng)度明顯小于非Acr(平均長(zhǎng)度分別為137aa、270aa),Studentt檢驗(yàn)為極顯著差異(p=2.68e-5)。圖2-2不同類(lèi)型蛋白的長(zhǎng)度分布。(a)MGEs內(nèi)外蛋白的長(zhǎng)度分布;(b)Acr與MGEs上的非Acr蛋白之間的長(zhǎng)度比較
電子科技大學(xué)碩士學(xué)位論文142.2.2Acr蛋白的功能分析在Genbank中,基因組內(nèi)所有基因都注釋了其產(chǎn)物及其功能,但是有的基因因?yàn)闇y(cè)序或者對(duì)基因組的分析還不夠完整,有的蛋白被注釋為假定蛋白(hypotheticalprotein)或者是與其他基因組有保守性,但是沒(méi)有明確功能的蛋白(conservedhypotheticalprotein)。通過(guò)對(duì)Acr蛋白的功能進(jìn)行調(diào)查,我們可以快速排除一些不可能是Acr的蛋白質(zhì),如Genbank中明確注釋了功能與CRISPR-Cas系統(tǒng)無(wú)關(guān)的蛋白,那么這個(gè)蛋白是Acr的可能性則幾乎可以忽略。圖2-3蛋白的功能分布。(a)Genbank對(duì)69個(gè)Acr蛋白的功能注釋分布;(b)MGEs范圍內(nèi)非Acr蛋白的功能分布我們從Genbank數(shù)據(jù)庫(kù)中獲取了我們收集到的所有69個(gè)Acr的蛋白質(zhì)功能,隨后我們對(duì)其進(jìn)行了分類(lèi)和統(tǒng)計(jì)調(diào)查(圖2-3.a)。通過(guò)分析,我們可以看出絕大多數(shù)的Acr蛋白(72.5%)都被注釋為假定蛋白,沒(méi)有明確的功能。在其余的19個(gè)注釋了功能的Acr蛋白中,有17個(gè)已經(jīng)被明確注釋為Acr,僅有2個(gè)的功能被注釋為其他(表2-2)。粗略來(lái)看,在69個(gè)Acr中還是有相當(dāng)一部分具有明確的注釋?zhuān)欢@可能是由于在近年的研究中,部分蛋白已經(jīng)被注釋為Acr,如果刨除這部分蛋白,那將只有極少部分的Acr具有明確的功能注釋。表2-2兩個(gè)有明確功能注釋的Acr蛋白編號(hào)Acr名稱(chēng)Accession來(lái)源物種Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我們還調(diào)查了細(xì)菌基因組內(nèi)其他蛋白(排除Acr及Acr的同源蛋白)的功能注釋情況。在細(xì)菌的基因組內(nèi),大部分蛋白(76.6%)均有明確的功能注釋?zhuān)?
本文編號(hào):3006947
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:51 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Acr與非Acr蛋白序列長(zhǎng)度差異分析
詵⑾值乃?蠥cr的蛋白質(zhì)序列的長(zhǎng)度的平均值,然后分析了其分布(圖2-1.c)。從圖中可以看出,在不同屬中Acr蛋白的長(zhǎng)度與所有Acr蛋白的長(zhǎng)度分布較為相似,說(shuō)明物種對(duì)Acr蛋白的長(zhǎng)度影響不大?紤]到細(xì)菌自身的蛋白和外來(lái)的可移動(dòng)遺傳元件MGEs上的蛋白之間在序列長(zhǎng)度上可能存在差異,我們從Genbank獲得了69個(gè)Acr所在的53個(gè)基因組的所有蛋白序列,并將這些蛋白分為細(xì)菌自身和外來(lái)MGEs兩大類(lèi),然后分析了這兩類(lèi)蛋白之間的長(zhǎng)度差異。總體來(lái)說(shuō),MGEs上的蛋白的長(zhǎng)度小于基因組自身蛋白的長(zhǎng)度(平均長(zhǎng)度分別為267aa、317aa),但是從圖2-2.a可以看出,這兩類(lèi)蛋白的長(zhǎng)度分布有很高的重疊度。Studentt檢驗(yàn)顯示,這兩類(lèi)蛋白質(zhì)的序列長(zhǎng)度之間存在顯著差異(p=6.29e-47)。說(shuō)明在大多數(shù)情況下,MGEs上的蛋白的長(zhǎng)度確實(shí)小于細(xì)菌自身的蛋白長(zhǎng)度。值得注意的是,當(dāng)我們將蛋白的范圍縮小到MGEs上的所有蛋白,將MGEs上的所有的蛋白分為Acr和非Acr(同時(shí)排除Acr的同源蛋白),然后分析它們之間的蛋白質(zhì)序列長(zhǎng)度差異,結(jié)論依然與之前一致(圖2-2.b)。Acr蛋白的序列長(zhǎng)度明顯小于非Acr(平均長(zhǎng)度分別為137aa、270aa),Studentt檢驗(yàn)為極顯著差異(p=2.68e-5)。圖2-2不同類(lèi)型蛋白的長(zhǎng)度分布。(a)MGEs內(nèi)外蛋白的長(zhǎng)度分布;(b)Acr與MGEs上的非Acr蛋白之間的長(zhǎng)度比較
電子科技大學(xué)碩士學(xué)位論文142.2.2Acr蛋白的功能分析在Genbank中,基因組內(nèi)所有基因都注釋了其產(chǎn)物及其功能,但是有的基因因?yàn)闇y(cè)序或者對(duì)基因組的分析還不夠完整,有的蛋白被注釋為假定蛋白(hypotheticalprotein)或者是與其他基因組有保守性,但是沒(méi)有明確功能的蛋白(conservedhypotheticalprotein)。通過(guò)對(duì)Acr蛋白的功能進(jìn)行調(diào)查,我們可以快速排除一些不可能是Acr的蛋白質(zhì),如Genbank中明確注釋了功能與CRISPR-Cas系統(tǒng)無(wú)關(guān)的蛋白,那么這個(gè)蛋白是Acr的可能性則幾乎可以忽略。圖2-3蛋白的功能分布。(a)Genbank對(duì)69個(gè)Acr蛋白的功能注釋分布;(b)MGEs范圍內(nèi)非Acr蛋白的功能分布我們從Genbank數(shù)據(jù)庫(kù)中獲取了我們收集到的所有69個(gè)Acr的蛋白質(zhì)功能,隨后我們對(duì)其進(jìn)行了分類(lèi)和統(tǒng)計(jì)調(diào)查(圖2-3.a)。通過(guò)分析,我們可以看出絕大多數(shù)的Acr蛋白(72.5%)都被注釋為假定蛋白,沒(méi)有明確的功能。在其余的19個(gè)注釋了功能的Acr蛋白中,有17個(gè)已經(jīng)被明確注釋為Acr,僅有2個(gè)的功能被注釋為其他(表2-2)。粗略來(lái)看,在69個(gè)Acr中還是有相當(dāng)一部分具有明確的注釋?zhuān)欢@可能是由于在近年的研究中,部分蛋白已經(jīng)被注釋為Acr,如果刨除這部分蛋白,那將只有極少部分的Acr具有明確的功能注釋。表2-2兩個(gè)有明確功能注釋的Acr蛋白編號(hào)Acr名稱(chēng)Accession來(lái)源物種Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我們還調(diào)查了細(xì)菌基因組內(nèi)其他蛋白(排除Acr及Acr的同源蛋白)的功能注釋情況。在細(xì)菌的基因組內(nèi),大部分蛋白(76.6%)均有明確的功能注釋?zhuān)?
本文編號(hào):3006947
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3006947.html
最近更新
教材專(zhuān)著