結(jié)核分枝桿菌分泌蛋白的預(yù)測(cè)研究
發(fā)布時(shí)間:2020-02-12 05:22
【摘要】:結(jié)核分枝桿菌,簡(jiǎn)稱結(jié)核桿菌,是一種輕度彎曲的細(xì)桿狀嗜氧菌,在細(xì)胞壁脂質(zhì)層和莢膜的雙重保護(hù)下,對(duì)外界環(huán)境很不敏感,被證明是結(jié)核病的元兇。我國(guó)的結(jié)核病形勢(shì)向來嚴(yán)峻,尤以肺結(jié)核最為嚴(yán)重,每年有約上百萬(wàn)死亡病例。肺結(jié)核是一種慢性的呼吸道傳染病,早期無(wú)明顯癥狀,病程漫長(zhǎng),極易在人群中流行而難于控制。由于結(jié)核桿菌的膜結(jié)構(gòu)復(fù)雜,點(diǎn)突變頻發(fā),上百年來無(wú)數(shù)醫(yī)藥學(xué)家致力于結(jié)核分枝桿菌的分子結(jié)構(gòu)和毒性研究,以及結(jié)核病的病理研究,但至今尚無(wú)能夠徹底防治該病的臨床藥物。最近研究發(fā)現(xiàn),其分泌蛋白具有抗原性,根據(jù)抗原與抗體發(fā)生特異性結(jié)合的性質(zhì),可通過識(shí)別分泌蛋白來獲取抗體,從而為疫苗研發(fā)和新藥設(shè)計(jì)提供有價(jià)值的線索。本文開發(fā)了一種用于識(shí)別結(jié)核分枝桿菌的分泌蛋白的預(yù)測(cè)算法,并提供在線服務(wù)。首先,我們構(gòu)建了結(jié)核分枝桿菌蛋白質(zhì)的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)源自UniProt中已經(jīng)過實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)序列,并通過CD-HIT軟件從最大程度上去除冗余,最終獲得了分別包含35條序列和266條序列的正、負(fù)樣本集。隨后,我們提取了蛋白質(zhì)序列的g-gapped二肽組分特征和物化性質(zhì)特征,從而將每條序列編碼成其獨(dú)有的特征向量。最后,借助于支持向量機(jī)構(gòu)建和學(xué)習(xí)預(yù)測(cè)模型,并在得到最優(yōu)模型參數(shù)的基礎(chǔ)上進(jìn)行特征選擇,進(jìn)一步提高了預(yù)測(cè)模型的分類效能。結(jié)果,我們將每條多肽表示成一個(gè)374-維的特征向量,其中包括9-gapped二肽特征和序列的疏水性/親水性特征,經(jīng)jackknife檢驗(yàn),用該方法預(yù)測(cè)分枝桿菌分泌蛋白的平準(zhǔn)準(zhǔn)確度為87.18%,ROC曲線下面積高達(dá)0.93。為驗(yàn)證模型的優(yōu)越性,本文用Weka軟件實(shí)現(xiàn)了隨機(jī)森林、貝葉斯網(wǎng)絡(luò)和徑向基函數(shù)三類有代表性的機(jī)器學(xué)習(xí)算法,在同一標(biāo)準(zhǔn)數(shù)據(jù)集上重新構(gòu)建預(yù)測(cè)模型。Jackknife檢驗(yàn)再次證明,基于支持向量機(jī)的預(yù)測(cè)模型在該問題上的性能優(yōu)于其他三類模型,魯棒性強(qiáng)。為便于領(lǐng)域內(nèi)的科研人員交流和共享,特構(gòu)建界面友好的在線服務(wù)平臺(tái)MycoSec(http://lin.uestc.edu.cn/server/MycoSec/),可免費(fèi)用于非商業(yè)用途。
【圖文】:
電子科技大學(xué)碩士學(xué)位論文用序列相似度不高于 30%的過濾條件下,去除了 28 條正樣本序列和 91 條負(fù)樣本序列,使用 cd-hit 處理前后的 M.tuberculosis 蛋白質(zhì)數(shù)據(jù)集如表 2-1 所示:
第三章 特征提取方法τj(j=n 1,n 2,, ,2n) 是表示蛋白質(zhì)序列中第二連續(xù)的兩個(gè)氨基酸或次相鄰的兩個(gè)氨基酸之間序列相關(guān)程度的二階相關(guān)因子,故以此類推, ( = ( 1) 1,( 1) 2, , )是 λ-階序列連續(xù)程度相關(guān)因子,表示序列中第 λ 連續(xù)的或相隔(λ-1)個(gè)其他氨基酸殘基的兩個(gè)氨基酸之間的序列相關(guān)程度?紤]到該定義的復(fù)雜性,特以更直觀的方式進(jìn)一步描述 ,如圖 3-1 所示:假設(shè)選用了兩種物化性質(zhì)參數(shù)作為特征(實(shí)際上確實(shí)選用了兩種,后面會(huì)介紹),用藍(lán)色和橙色線條分別表現(xiàn),此時(shí)共有 2λ 個(gè) ( = 1,2, , );a 圖中,藍(lán)鏈表示 1,橙鏈表示 2, 1和 2分別是物化性質(zhì) 1 和物化性質(zhì) 2 的一階序列相關(guān)因子(此時(shí)λ=1);b 圖中,藍(lán)鏈表示 3,橙鏈表示 4,它們均為二階序列相關(guān)因子,此時(shí) λ=2;c 圖中,藍(lán)鏈代表 5,橙鏈代表 6,均為三階序列相關(guān)因子,此時(shí) λ=3;當(dāng) n 取大于 2 的整數(shù)值時(shí),同理可得,在此便不贅述。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:R378.911
本文編號(hào):2578715
【圖文】:
電子科技大學(xué)碩士學(xué)位論文用序列相似度不高于 30%的過濾條件下,去除了 28 條正樣本序列和 91 條負(fù)樣本序列,使用 cd-hit 處理前后的 M.tuberculosis 蛋白質(zhì)數(shù)據(jù)集如表 2-1 所示:
第三章 特征提取方法τj(j=n 1,n 2,, ,2n) 是表示蛋白質(zhì)序列中第二連續(xù)的兩個(gè)氨基酸或次相鄰的兩個(gè)氨基酸之間序列相關(guān)程度的二階相關(guān)因子,故以此類推, ( = ( 1) 1,( 1) 2, , )是 λ-階序列連續(xù)程度相關(guān)因子,表示序列中第 λ 連續(xù)的或相隔(λ-1)個(gè)其他氨基酸殘基的兩個(gè)氨基酸之間的序列相關(guān)程度?紤]到該定義的復(fù)雜性,特以更直觀的方式進(jìn)一步描述 ,如圖 3-1 所示:假設(shè)選用了兩種物化性質(zhì)參數(shù)作為特征(實(shí)際上確實(shí)選用了兩種,后面會(huì)介紹),用藍(lán)色和橙色線條分別表現(xiàn),此時(shí)共有 2λ 個(gè) ( = 1,2, , );a 圖中,藍(lán)鏈表示 1,橙鏈表示 2, 1和 2分別是物化性質(zhì) 1 和物化性質(zhì) 2 的一階序列相關(guān)因子(此時(shí)λ=1);b 圖中,藍(lán)鏈表示 3,橙鏈表示 4,它們均為二階序列相關(guān)因子,此時(shí) λ=2;c 圖中,藍(lán)鏈代表 5,橙鏈代表 6,均為三階序列相關(guān)因子,此時(shí) λ=3;當(dāng) n 取大于 2 的整數(shù)值時(shí),同理可得,在此便不贅述。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:R378.911
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 覃愛淞;張清華;李鐵鷹;胡勤;;復(fù)合無(wú)量綱指標(biāo)在旋轉(zhuǎn)機(jī)械故障分類中的應(yīng)用[J];現(xiàn)代制造工程;2013年04期
本文編號(hào):2578715
本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/2578715.html
最近更新
教材專著