Acr基因的保守特征分析與自動化識別方法的研究
發(fā)布時間:2021-01-29 13:14
基因編輯在生命科學領域的科學研究和應用中扮演了越來越重要的角色,近年來,一種抑制CRISPR-Cas系統(tǒng)功能的蛋白——Acr,開始進入我們的視野,并且成為了當前研究的熱點。Acr可以保護MGE片段,也可以作為調(diào)節(jié)基因編輯系統(tǒng)的工具。一些噬菌體通過Acr對CRISPR-Cas系統(tǒng)的抑制功能,成功地感染細菌并將其遺傳材料整合到宿主的基因組中。由于目前我們對Acr的認識還十分有限,科學家們只能使用比較單一的方法在細菌中的基因組中定位大致的Acr,然后通過實驗進行驗證,費時費力。因此對Acr相關的特征進行系統(tǒng)的分析,設計一套完整的Acr識別系統(tǒng),將極大地促進我們對Acr的了解和鑒定。為此,我們系統(tǒng)地調(diào)查了Acr的特征,結(jié)合機器學習的方法,利用決策樹構(gòu)建了一個比較準確的Acr識別系統(tǒng)。在本工作中,我們從五個角度分析了Acr的特征:1)與非Acr蛋白相比,Acr蛋白擁有較短的序列長度,分布在81234aa的范圍內(nèi);2)在Genbank中,Acr通常被注釋為假定蛋白,而非Acr蛋白則有具體的功能;3)大部分的Acr的編碼基因(66.7%)都位于基因組島上,其中81.8%屬于pr...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【部分圖文】:
Acr與非Acr蛋白序列長度差異分析
詵⑾值乃?蠥cr的蛋白質(zhì)序列的長度的平均值,然后分析了其分布(圖2-1.c)。從圖中可以看出,在不同屬中Acr蛋白的長度與所有Acr蛋白的長度分布較為相似,說明物種對Acr蛋白的長度影響不大?紤]到細菌自身的蛋白和外來的可移動遺傳元件MGEs上的蛋白之間在序列長度上可能存在差異,我們從Genbank獲得了69個Acr所在的53個基因組的所有蛋白序列,并將這些蛋白分為細菌自身和外來MGEs兩大類,然后分析了這兩類蛋白之間的長度差異。總體來說,MGEs上的蛋白的長度小于基因組自身蛋白的長度(平均長度分別為267aa、317aa),但是從圖2-2.a可以看出,這兩類蛋白的長度分布有很高的重疊度。Studentt檢驗顯示,這兩類蛋白質(zhì)的序列長度之間存在顯著差異(p=6.29e-47)。說明在大多數(shù)情況下,MGEs上的蛋白的長度確實小于細菌自身的蛋白長度。值得注意的是,當我們將蛋白的范圍縮小到MGEs上的所有蛋白,將MGEs上的所有的蛋白分為Acr和非Acr(同時排除Acr的同源蛋白),然后分析它們之間的蛋白質(zhì)序列長度差異,結(jié)論依然與之前一致(圖2-2.b)。Acr蛋白的序列長度明顯小于非Acr(平均長度分別為137aa、270aa),Studentt檢驗為極顯著差異(p=2.68e-5)。圖2-2不同類型蛋白的長度分布。(a)MGEs內(nèi)外蛋白的長度分布;(b)Acr與MGEs上的非Acr蛋白之間的長度比較
電子科技大學碩士學位論文142.2.2Acr蛋白的功能分析在Genbank中,基因組內(nèi)所有基因都注釋了其產(chǎn)物及其功能,但是有的基因因為測序或者對基因組的分析還不夠完整,有的蛋白被注釋為假定蛋白(hypotheticalprotein)或者是與其他基因組有保守性,但是沒有明確功能的蛋白(conservedhypotheticalprotein)。通過對Acr蛋白的功能進行調(diào)查,我們可以快速排除一些不可能是Acr的蛋白質(zhì),如Genbank中明確注釋了功能與CRISPR-Cas系統(tǒng)無關的蛋白,那么這個蛋白是Acr的可能性則幾乎可以忽略。圖2-3蛋白的功能分布。(a)Genbank對69個Acr蛋白的功能注釋分布;(b)MGEs范圍內(nèi)非Acr蛋白的功能分布我們從Genbank數(shù)據(jù)庫中獲取了我們收集到的所有69個Acr的蛋白質(zhì)功能,隨后我們對其進行了分類和統(tǒng)計調(diào)查(圖2-3.a)。通過分析,我們可以看出絕大多數(shù)的Acr蛋白(72.5%)都被注釋為假定蛋白,沒有明確的功能。在其余的19個注釋了功能的Acr蛋白中,有17個已經(jīng)被明確注釋為Acr,僅有2個的功能被注釋為其他(表2-2)。粗略來看,在69個Acr中還是有相當一部分具有明確的注釋,然而這可能是由于在近年的研究中,部分蛋白已經(jīng)被注釋為Acr,如果刨除這部分蛋白,那將只有極少部分的Acr具有明確的功能注釋。表2-2兩個有明確功能注釋的Acr蛋白編號Acr名稱Accession來源物種Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我們還調(diào)查了細菌基因組內(nèi)其他蛋白(排除Acr及Acr的同源蛋白)的功能注釋情況。在細菌的基因組內(nèi),大部分蛋白(76.6%)均有明確的功能注釋,
本文編號:3006947
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:51 頁
【學位級別】:碩士
【部分圖文】:
Acr與非Acr蛋白序列長度差異分析
詵⑾值乃?蠥cr的蛋白質(zhì)序列的長度的平均值,然后分析了其分布(圖2-1.c)。從圖中可以看出,在不同屬中Acr蛋白的長度與所有Acr蛋白的長度分布較為相似,說明物種對Acr蛋白的長度影響不大?紤]到細菌自身的蛋白和外來的可移動遺傳元件MGEs上的蛋白之間在序列長度上可能存在差異,我們從Genbank獲得了69個Acr所在的53個基因組的所有蛋白序列,并將這些蛋白分為細菌自身和外來MGEs兩大類,然后分析了這兩類蛋白之間的長度差異。總體來說,MGEs上的蛋白的長度小于基因組自身蛋白的長度(平均長度分別為267aa、317aa),但是從圖2-2.a可以看出,這兩類蛋白的長度分布有很高的重疊度。Studentt檢驗顯示,這兩類蛋白質(zhì)的序列長度之間存在顯著差異(p=6.29e-47)。說明在大多數(shù)情況下,MGEs上的蛋白的長度確實小于細菌自身的蛋白長度。值得注意的是,當我們將蛋白的范圍縮小到MGEs上的所有蛋白,將MGEs上的所有的蛋白分為Acr和非Acr(同時排除Acr的同源蛋白),然后分析它們之間的蛋白質(zhì)序列長度差異,結(jié)論依然與之前一致(圖2-2.b)。Acr蛋白的序列長度明顯小于非Acr(平均長度分別為137aa、270aa),Studentt檢驗為極顯著差異(p=2.68e-5)。圖2-2不同類型蛋白的長度分布。(a)MGEs內(nèi)外蛋白的長度分布;(b)Acr與MGEs上的非Acr蛋白之間的長度比較
電子科技大學碩士學位論文142.2.2Acr蛋白的功能分析在Genbank中,基因組內(nèi)所有基因都注釋了其產(chǎn)物及其功能,但是有的基因因為測序或者對基因組的分析還不夠完整,有的蛋白被注釋為假定蛋白(hypotheticalprotein)或者是與其他基因組有保守性,但是沒有明確功能的蛋白(conservedhypotheticalprotein)。通過對Acr蛋白的功能進行調(diào)查,我們可以快速排除一些不可能是Acr的蛋白質(zhì),如Genbank中明確注釋了功能與CRISPR-Cas系統(tǒng)無關的蛋白,那么這個蛋白是Acr的可能性則幾乎可以忽略。圖2-3蛋白的功能分布。(a)Genbank對69個Acr蛋白的功能注釋分布;(b)MGEs范圍內(nèi)非Acr蛋白的功能分布我們從Genbank數(shù)據(jù)庫中獲取了我們收集到的所有69個Acr的蛋白質(zhì)功能,隨后我們對其進行了分類和統(tǒng)計調(diào)查(圖2-3.a)。通過分析,我們可以看出絕大多數(shù)的Acr蛋白(72.5%)都被注釋為假定蛋白,沒有明確的功能。在其余的19個注釋了功能的Acr蛋白中,有17個已經(jīng)被明確注釋為Acr,僅有2個的功能被注釋為其他(表2-2)。粗略來看,在69個Acr中還是有相當一部分具有明確的注釋,然而這可能是由于在近年的研究中,部分蛋白已經(jīng)被注釋為Acr,如果刨除這部分蛋白,那將只有極少部分的Acr具有明確的功能注釋。表2-2兩個有明確功能注釋的Acr蛋白編號Acr名稱Accession來源物種Acr蛋白功能1AcrIIA1AEO04364.1ListeriamonocytogenesJ0161gp282AcrIIA2AEO04363.1ListeriamonocytogenesJ0161gp29另外,我們還調(diào)查了細菌基因組內(nèi)其他蛋白(排除Acr及Acr的同源蛋白)的功能注釋情況。在細菌的基因組內(nèi),大部分蛋白(76.6%)均有明確的功能注釋,
本文編號:3006947
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3006947.html
教材專著