SARS冠狀病毒基因組及其編碼結(jié)構(gòu)蛋白的生物信息學(xué)研究
發(fā)布時(shí)間:2020-03-20 19:39
【摘要】: 目的 SARS-CoV是冠狀病毒的一個(gè)新的變體。目前,我們對(duì)這種新型的冠狀病毒的一些結(jié)構(gòu)、功能等特性還不完全清楚。本研究的目的在于應(yīng)用生物信息學(xué)方法分析不同地區(qū)來(lái)源的SARS-CoV全基因組序列的變異特征及堿基易變性,通過(guò)進(jìn)化樹結(jié)合序列間共有變異分布,分析SARS-CoV的地區(qū)進(jìn)化與疾病流行特點(diǎn)。 分析S蛋白、N蛋白、M蛋白、E蛋白等四個(gè)主要結(jié)構(gòu)蛋白的分子生物學(xué)特征和突變狀況,以及基因突變對(duì)不同地區(qū)來(lái)源的SARS-CoV病毒株各結(jié)構(gòu)蛋白的結(jié)構(gòu)與功能的影響,為以后的疫苗開發(fā)等提供依據(jù)。 材料與方法 對(duì)從GenBank核酸數(shù)據(jù)庫(kù)檢索獲得的59條不同地區(qū)來(lái)源的SARS-CoV病毒株全基因組序列利用CLUSTALX 1.83軟件進(jìn)行列隊(duì)比較,找出各序列的變異位點(diǎn)及其在基因組序列上的分布,分析SARS-CoV基因組的易變區(qū)和保守區(qū)以及對(duì)應(yīng)的基因和編碼蛋白質(zhì),并繪制出進(jìn)化樹,對(duì)該病毒的地區(qū)與時(shí)間進(jìn)化進(jìn)行分析。 分別對(duì)41條推測(cè)S蛋白、44條N蛋白、39條M蛋白和36個(gè)E蛋白的核酸和氨基酸序列利用CLUSTAL X 1.83軟件進(jìn)行列隊(duì)比較;利用DNA-Tools 6.0版工具軟件和ProtParam等生物信息學(xué)分析工具分別計(jì)算SARS-CoV四個(gè)主要結(jié)構(gòu)蛋白的各項(xiàng)物理特征和一般生物學(xué)特征,包括分子重量、等電點(diǎn)、氨基酸成分構(gòu)成特點(diǎn)、分子式、原子數(shù)量、半衰期、不穩(wěn)定指數(shù)、脂肪指數(shù)等。利用TMHMM Server v.2.0、signalP2.0等服務(wù)器軟件分析預(yù) 測(cè)這些結(jié)構(gòu)蛋白的跨膜區(qū)、卷曲螺旋、信號(hào)膚等功能區(qū)特征。利用ThePre- dieterotein server、Predieting如tigeni。幾ptides、SMAR”.4等軟件系統(tǒng)分析 預(yù)測(cè)各個(gè)不同地區(qū)來(lái)源的SARS一CoV結(jié)構(gòu)蛋白序列上的motifs、domains及 抗原決定簇等結(jié)構(gòu)功能域,分析比較基因突變對(duì)不同地區(qū)來(lái)源的結(jié)構(gòu)蛋白 的功能結(jié)構(gòu)域及抗原決定簇的影響。 結(jié)果 59個(gè)SARS一CoV全基因組序列中,共發(fā)現(xiàn)477個(gè)變異位點(diǎn),其中包括 28個(gè)位點(diǎn)的缺失、71個(gè)位點(diǎn)的插人和378個(gè)位點(diǎn)的堿基替代,變異率為0. 474愉。在378個(gè)位點(diǎn)上發(fā)生380種堿基替代,A、T、C、G的變異次數(shù)依次 為1巧、1 13、87和65次。59個(gè)序列在進(jìn)化樹分析上可劃分成三個(gè)群。 在四個(gè)主要結(jié)構(gòu)蛋白中,S蛋白的分子重量為139109.ID;等電點(diǎn)為5. 65;疏水性41.8%,親水性40.0%;在41個(gè)不同地區(qū)來(lái)源的病毒株推測(cè)S 蛋白的氨基酸序列中,有10個(gè)病毒株在20個(gè)位點(diǎn)發(fā)生30次突變,突變率 為0.583知。有31個(gè)毒株的S蛋白未發(fā)生突變。在蛋白質(zhì)的氨基酸成分構(gòu) 成中,亮氨酸和蘇氨酸占的比例最高,色氨酸占的比例最低。在該蛋白序列 靠近C端存在一個(gè)長(zhǎng)度為20個(gè)氨基酸的半朧氨酸富集區(qū);所有毒株推測(cè)S 蛋白預(yù)測(cè)均發(fā)現(xiàn)三個(gè)低復(fù)雜度區(qū)域,一個(gè)卷曲螺旋和一個(gè)跨膜螺旋。在蛋 白序列的N端的第1一14位殘基區(qū)間存在一個(gè)可能的信號(hào)膚。并且S蛋白 存在一個(gè)球狀domaln和一個(gè)蛋白質(zhì)家族domain,并發(fā)現(xiàn)三個(gè)Hel議結(jié)構(gòu)。 在S蛋白氨基酸序列上預(yù)測(cè)獲得73個(gè)Motha。絕大多數(shù)病毒株預(yù)測(cè)獲得 61個(gè)抗原決定簇。只有sinol一11、GD01和ShanhgaiLY三個(gè)病毒株預(yù)測(cè) 獲得的抗原決定簇?cái)?shù)量有所變化。 N蛋白的分子重量為46025 .OD,等電點(diǎn)為10 .93。該蛋白的疏水性為 32.7%,親水性為43.4%。在N蛋白的氨基酸構(gòu)成中,甘氨酸占的比例最 高,達(dá)到10.7%;而半朧氨酸含量為零。在44個(gè)病毒株N蛋白的422個(gè)氨 基酸序列中,有7個(gè)病毒株在7個(gè)位點(diǎn)上發(fā)生9個(gè)突變,突變率為0.485知。 預(yù)測(cè)44個(gè)病毒分離株N蛋白序列均不含有跨膜螺旋序列,全部序列均位 于細(xì)胞膜外。也沒(méi)有卷曲螺旋與信號(hào)膚,但預(yù)測(cè)獲得4個(gè)低復(fù)雜度區(qū)域和 一個(gè)蛋白質(zhì)家族domain?苽(gè)毒株的N蛋白氨基酸序列中,有40條序列 預(yù)測(cè)有29個(gè)motif,有四個(gè)毒株預(yù)測(cè)獲得28個(gè)Motif;所有病毒分離株的N 蛋白序列皆獲得相同的16個(gè)抗原決定簇。在其氨基酸序列中存在一個(gè)絲 氨酸富集區(qū),可能是磷酸化的主要區(qū)域。并且在序列上含有一個(gè)可能的核 轉(zhuǎn)移信號(hào)序列。 M蛋白的分子重量為25 060.5D,等電點(diǎn)10.43。該蛋白的疏水性為 51.6%,親水性31.7%。在M蛋白的氨基酸構(gòu)成中,亮氨酸占的比例最高, 達(dá)到14.0%;而半朧氨酸占的比例最低,僅為1.4%。在39個(gè)病毒株M蛋 白的221個(gè)氨基酸序列中,有18個(gè)病毒株在6個(gè)位點(diǎn)上發(fā)生了23次突變, 突變率為2.669知。在M蛋白氨基酸序列上預(yù)測(cè)獲得3個(gè)跨膜螺旋序列, 一個(gè)可能的信號(hào)膚序列以及一個(gè)蛋白質(zhì)家族domain。全部39個(gè)病毒株M 蛋白預(yù)測(cè)獲得的Mot遷和抗原決定簇?cái)?shù)目相同,分另叻為12個(gè)motif和7個(gè)抗 原決定簇。 E蛋白的分子重量為8361 .OD,等電點(diǎn)為6.28。該蛋白的疏水性55、 3%,親水性34.2%。在E蛋白的氨基酸構(gòu)成中,亮氨酸和繳氨酸占的比例 最高;而谷氨酞胺、組氨酸和色氨酸在E蛋白中含量為零。在36個(gè)毒株E 蛋白的76個(gè)氨基酸序列中,有3個(gè)病毒株在4個(gè)位點(diǎn)上發(fā)生了突變,突變 率為1 .462%o。所有E蛋白序列均預(yù)測(cè)獲得一個(gè)跨膜螺旋序列和一個(gè)可能 的信號(hào)膚序列。36個(gè)病毒株E蛋白中,有35條序列預(yù)測(cè)獲得兩個(gè)N一糖 基化位點(diǎn),sinol一11較其他毒株多一個(gè)motif。在E蛋白序列上只存在一 個(gè)抗原決定簇,其中有兩個(gè)毒株抗原
【圖文】:
腳自咖.倒.血助已少以山-爭(zhēng)P幽幽e。側(cè)畫哪血卿目。-爭(zhēng)圖1一SARS一CoV基因組序列編碼蛋白基因位置分布Fig.l一3T七eDiatrib呱onoftheco面呀proteingenesontheSARS.CoVGenomeS創(chuàng)不姆nce在全基因組序列中,堿基變異多集中于序列的后半段,即發(fā)生在3’端的26K以后片段。而后半段序列編碼包括S蛋白、E蛋白、M蛋白和N蛋白等重要的結(jié)構(gòu)蛋白。變異尤其集中在27K一28K區(qū)間,而27K序列主要編碼SARS一CoV的兩個(gè)結(jié)構(gòu)蛋白,即E蛋白(26158一26388)和M蛋白(26439一27104)。在編碼S蛋白的序列區(qū)間(21531一25299)發(fā)生的變異位點(diǎn)數(shù)t不高,,但在59條序列中變異重復(fù)總數(shù)量也較高。詳見(jiàn)Fig.1一4。
圖14SARS一CoV全基因組序列上的變異分布Fig.l一ThevariationdistributionontheSARS一oVco帥letegenomeSequenCes3.sARS一CoV基因組堿基易變異性統(tǒng)計(jì)通過(guò)利用ClustalX軟件對(duì)59個(gè)不同地區(qū)來(lái)源的SARS一coV全基因組序列進(jìn)行序列對(duì)齊比較,發(fā)現(xiàn)全部59個(gè)SARS一coV毒株全基因組序列中有378個(gè)位點(diǎn)發(fā)生了380種堿基替代,59個(gè)毒株合計(jì)發(fā)生堿基替代653次。其中在2個(gè)位點(diǎn)上發(fā)生了不同毒株在同一位點(diǎn)發(fā)生了不同種變異。詳見(jiàn)表1一40表中可見(jiàn),在發(fā)生的380種堿基替代中,腺嚷吟(A)、胸腺喃咤(T)、胞啼吮(C)和鳥嚷吟(G)分別發(fā)生了1巧、113、87和65次變異。提示在SARS一cov基因組序列中,腺嗦嶺和胸腺喃吮相對(duì)于胞嗜和鳥嗦吟來(lái)說(shuō),更易
【學(xué)位授予單位】:中國(guó)醫(yī)科大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2004
【分類號(hào)】:R346
本文編號(hào):2592094
【圖文】:
腳自咖.倒.血助已少以山-爭(zhēng)P幽幽e。側(cè)畫哪血卿目。-爭(zhēng)圖1一SARS一CoV基因組序列編碼蛋白基因位置分布Fig.l一3T七eDiatrib呱onoftheco面呀proteingenesontheSARS.CoVGenomeS創(chuàng)不姆nce在全基因組序列中,堿基變異多集中于序列的后半段,即發(fā)生在3’端的26K以后片段。而后半段序列編碼包括S蛋白、E蛋白、M蛋白和N蛋白等重要的結(jié)構(gòu)蛋白。變異尤其集中在27K一28K區(qū)間,而27K序列主要編碼SARS一CoV的兩個(gè)結(jié)構(gòu)蛋白,即E蛋白(26158一26388)和M蛋白(26439一27104)。在編碼S蛋白的序列區(qū)間(21531一25299)發(fā)生的變異位點(diǎn)數(shù)t不高,,但在59條序列中變異重復(fù)總數(shù)量也較高。詳見(jiàn)Fig.1一4。
圖14SARS一CoV全基因組序列上的變異分布Fig.l一ThevariationdistributionontheSARS一oVco帥letegenomeSequenCes3.sARS一CoV基因組堿基易變異性統(tǒng)計(jì)通過(guò)利用ClustalX軟件對(duì)59個(gè)不同地區(qū)來(lái)源的SARS一coV全基因組序列進(jìn)行序列對(duì)齊比較,發(fā)現(xiàn)全部59個(gè)SARS一coV毒株全基因組序列中有378個(gè)位點(diǎn)發(fā)生了380種堿基替代,59個(gè)毒株合計(jì)發(fā)生堿基替代653次。其中在2個(gè)位點(diǎn)上發(fā)生了不同毒株在同一位點(diǎn)發(fā)生了不同種變異。詳見(jiàn)表1一40表中可見(jiàn),在發(fā)生的380種堿基替代中,腺嚷吟(A)、胸腺喃咤(T)、胞啼吮(C)和鳥嚷吟(G)分別發(fā)生了1巧、113、87和65次變異。提示在SARS一cov基因組序列中,腺嗦嶺和胸腺喃吮相對(duì)于胞嗜和鳥嗦吟來(lái)說(shuō),更易
【學(xué)位授予單位】:中國(guó)醫(yī)科大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2004
【分類號(hào)】:R346
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前3條
1 高芳鑾;水稻瘤矮病毒P8、Pns10基因的原核表達(dá)及生物信息學(xué)分析[D];福建農(nóng)林大學(xué);2006年
2 張明富;禽傳染性支氣管炎病毒S1基因與豬IgGFc基因的克隆及在Hela細(xì)胞中的融合表達(dá)[D];華中農(nóng)業(yè)大學(xué);2006年
3 高雅;IBV S1蛋白結(jié)合組織細(xì)胞膜蛋白和干擾CEK細(xì)胞感染作用[D];東北農(nóng)業(yè)大學(xué);2012年
本文編號(hào):2592094
本文鏈接:http://sikaile.net/yixuelunwen/shiyanyixue/2592094.html
最近更新
教材專著