結(jié)核分枝桿菌分泌蛋白的預(yù)測研究
發(fā)布時間:2020-02-12 05:22
【摘要】:結(jié)核分枝桿菌,簡稱結(jié)核桿菌,是一種輕度彎曲的細桿狀嗜氧菌,在細胞壁脂質(zhì)層和莢膜的雙重保護下,對外界環(huán)境很不敏感,被證明是結(jié)核病的元兇。我國的結(jié)核病形勢向來嚴(yán)峻,尤以肺結(jié)核最為嚴(yán)重,每年有約上百萬死亡病例。肺結(jié)核是一種慢性的呼吸道傳染病,早期無明顯癥狀,病程漫長,極易在人群中流行而難于控制。由于結(jié)核桿菌的膜結(jié)構(gòu)復(fù)雜,點突變頻發(fā),上百年來無數(shù)醫(yī)藥學(xué)家致力于結(jié)核分枝桿菌的分子結(jié)構(gòu)和毒性研究,以及結(jié)核病的病理研究,但至今尚無能夠徹底防治該病的臨床藥物。最近研究發(fā)現(xiàn),其分泌蛋白具有抗原性,根據(jù)抗原與抗體發(fā)生特異性結(jié)合的性質(zhì),可通過識別分泌蛋白來獲取抗體,從而為疫苗研發(fā)和新藥設(shè)計提供有價值的線索。本文開發(fā)了一種用于識別結(jié)核分枝桿菌的分泌蛋白的預(yù)測算法,并提供在線服務(wù)。首先,我們構(gòu)建了結(jié)核分枝桿菌蛋白質(zhì)的標(biāo)準(zhǔn)數(shù)據(jù)集。數(shù)據(jù)源自UniProt中已經(jīng)過實驗驗證的蛋白質(zhì)序列,并通過CD-HIT軟件從最大程度上去除冗余,最終獲得了分別包含35條序列和266條序列的正、負樣本集。隨后,我們提取了蛋白質(zhì)序列的g-gapped二肽組分特征和物化性質(zhì)特征,從而將每條序列編碼成其獨有的特征向量。最后,借助于支持向量機構(gòu)建和學(xué)習(xí)預(yù)測模型,并在得到最優(yōu)模型參數(shù)的基礎(chǔ)上進行特征選擇,進一步提高了預(yù)測模型的分類效能。結(jié)果,我們將每條多肽表示成一個374-維的特征向量,其中包括9-gapped二肽特征和序列的疏水性/親水性特征,經(jīng)jackknife檢驗,用該方法預(yù)測分枝桿菌分泌蛋白的平準(zhǔn)準(zhǔn)確度為87.18%,ROC曲線下面積高達0.93。為驗證模型的優(yōu)越性,本文用Weka軟件實現(xiàn)了隨機森林、貝葉斯網(wǎng)絡(luò)和徑向基函數(shù)三類有代表性的機器學(xué)習(xí)算法,在同一標(biāo)準(zhǔn)數(shù)據(jù)集上重新構(gòu)建預(yù)測模型。Jackknife檢驗再次證明,基于支持向量機的預(yù)測模型在該問題上的性能優(yōu)于其他三類模型,魯棒性強。為便于領(lǐng)域內(nèi)的科研人員交流和共享,特構(gòu)建界面友好的在線服務(wù)平臺MycoSec(http://lin.uestc.edu.cn/server/MycoSec/),可免費用于非商業(yè)用途。
【圖文】:
電子科技大學(xué)碩士學(xué)位論文用序列相似度不高于 30%的過濾條件下,去除了 28 條正樣本序列和 91 條負樣本序列,使用 cd-hit 處理前后的 M.tuberculosis 蛋白質(zhì)數(shù)據(jù)集如表 2-1 所示:
第三章 特征提取方法τj(j=n 1,n 2,, ,2n) 是表示蛋白質(zhì)序列中第二連續(xù)的兩個氨基酸或次相鄰的兩個氨基酸之間序列相關(guān)程度的二階相關(guān)因子,故以此類推, ( = ( 1) 1,( 1) 2, , )是 λ-階序列連續(xù)程度相關(guān)因子,表示序列中第 λ 連續(xù)的或相隔(λ-1)個其他氨基酸殘基的兩個氨基酸之間的序列相關(guān)程度�?紤]到該定義的復(fù)雜性,特以更直觀的方式進一步描述 ,如圖 3-1 所示:假設(shè)選用了兩種物化性質(zhì)參數(shù)作為特征(實際上確實選用了兩種,后面會介紹),用藍色和橙色線條分別表現(xiàn),此時共有 2λ 個 ( = 1,2, , );a 圖中,藍鏈表示 1,橙鏈表示 2, 1和 2分別是物化性質(zhì) 1 和物化性質(zhì) 2 的一階序列相關(guān)因子(此時λ=1);b 圖中,藍鏈表示 3,橙鏈表示 4,它們均為二階序列相關(guān)因子,此時 λ=2;c 圖中,藍鏈代表 5,橙鏈代表 6,均為三階序列相關(guān)因子,此時 λ=3;當(dāng) n 取大于 2 的整數(shù)值時,同理可得,在此便不贅述。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:R378.911
本文編號:2578715
【圖文】:
電子科技大學(xué)碩士學(xué)位論文用序列相似度不高于 30%的過濾條件下,去除了 28 條正樣本序列和 91 條負樣本序列,使用 cd-hit 處理前后的 M.tuberculosis 蛋白質(zhì)數(shù)據(jù)集如表 2-1 所示:
第三章 特征提取方法τj(j=n 1,n 2,, ,2n) 是表示蛋白質(zhì)序列中第二連續(xù)的兩個氨基酸或次相鄰的兩個氨基酸之間序列相關(guān)程度的二階相關(guān)因子,故以此類推, ( = ( 1) 1,( 1) 2, , )是 λ-階序列連續(xù)程度相關(guān)因子,表示序列中第 λ 連續(xù)的或相隔(λ-1)個其他氨基酸殘基的兩個氨基酸之間的序列相關(guān)程度�?紤]到該定義的復(fù)雜性,特以更直觀的方式進一步描述 ,如圖 3-1 所示:假設(shè)選用了兩種物化性質(zhì)參數(shù)作為特征(實際上確實選用了兩種,后面會介紹),用藍色和橙色線條分別表現(xiàn),此時共有 2λ 個 ( = 1,2, , );a 圖中,藍鏈表示 1,橙鏈表示 2, 1和 2分別是物化性質(zhì) 1 和物化性質(zhì) 2 的一階序列相關(guān)因子(此時λ=1);b 圖中,藍鏈表示 3,橙鏈表示 4,它們均為二階序列相關(guān)因子,此時 λ=2;c 圖中,藍鏈代表 5,橙鏈代表 6,均為三階序列相關(guān)因子,此時 λ=3;當(dāng) n 取大于 2 的整數(shù)值時,同理可得,在此便不贅述。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:R378.911
【參考文獻】
相關(guān)期刊論文 前1條
1 覃愛淞;張清華;李鐵鷹;胡勤;;復(fù)合無量綱指標(biāo)在旋轉(zhuǎn)機械故障分類中的應(yīng)用[J];現(xiàn)代制造工程;2013年04期
本文編號:2578715
本文鏈接:http://sikaile.net/yixuelunwen/jichuyixue/2578715.html
最近更新
教材專著