基于K-spaced氨基酸對(duì)編碼的蛋白質(zhì)-DNA相互作用位點(diǎn)預(yù)測(cè)研究
第一章 緒論
1.1 生物信息學(xué)概述
21 世紀(jì),隨著生物科學(xué)技術(shù)的迅猛發(fā)展,數(shù)據(jù)資源的極具膨脹,為了方便快捷的管理、存儲(chǔ)以及進(jìn)一步利用繁多的生物數(shù)據(jù),一門(mén)融合了生物技術(shù)和計(jì)算機(jī)科學(xué)技術(shù)的新型學(xué)科-生物信息學(xué)應(yīng)運(yùn)而生。 生物信息學(xué)是一門(mén)較為年輕的交叉學(xué)科,最開(kāi)興起于上世紀(jì) 80 年代,它結(jié)合了計(jì)算機(jī)技術(shù)、數(shù)學(xué)原理以及生物科學(xué)等學(xué)科,屬于一門(mén)綜合類學(xué)科。它的主要目的是對(duì)于大量的沒(méi)有規(guī)律的生物學(xué)數(shù)據(jù)進(jìn)行整理和分析,具體包括,生物數(shù)據(jù)的存儲(chǔ)、再次加工、和分析,目前,大量的研究人員更加著重利用數(shù)據(jù)挖掘等理論去分析大量的生物數(shù)據(jù)之間的內(nèi)容信息,從而對(duì)于了解整個(gè)人類的生命途徑起到關(guān)鍵作用。生物信息學(xué)已經(jīng)經(jīng)歷了 30 多年的時(shí)間,在前 10 年中,利用生物學(xué)手段測(cè)序出眾多的數(shù)據(jù),在這些數(shù)據(jù)基礎(chǔ)上派生出來(lái)的數(shù)據(jù)庫(kù)已經(jīng)達(dá)到 500多個(gè)。這一切已經(jīng)構(gòu)成了生物數(shù)據(jù)的海洋。但是數(shù)據(jù)并不等同于信息和知識(shí),但是卻是信息和知識(shí)的源泉,關(guān)鍵在于我們?nèi)绾稳ネ诰蛩鼈。與正以指數(shù)級(jí)增長(zhǎng)的生物數(shù)據(jù)相比,人類知識(shí)的增長(zhǎng)卻是非常緩慢。目前所從事生物信息學(xué)的大量的研究人員把注意力主要集中在序列比對(duì)、序列分析、基因組、蛋白組、蛋白質(zhì)結(jié)構(gòu)以及與此密切相關(guān)的藥物設(shè)計(jì)方面。序列分析主要是獲知 DNA 序列對(duì)應(yīng)的基因序列和基因調(diào)控序列。那么序列分析的另一個(gè)重點(diǎn)研究?jī)?nèi)容為基因組中的基因和調(diào)控基因序列進(jìn)行自動(dòng)識(shí)別工作;蚴怯兴姆N脫氧核糖核酸(A、C、G、T)按照一定的編碼過(guò)程形成的雙螺旋結(jié)構(gòu)的串,也就是 DNA,這些 DNA 上面包含著生物整個(gè)生命活動(dòng)的控制信息,其中的功能單位可以轉(zhuǎn)錄成核糖核苷酸序列(RNA),參與生物體的結(jié)構(gòu)的構(gòu)建和生命的調(diào)控功能。 蛋白質(zhì)組學(xué)的核心內(nèi)容包括蛋白質(zhì)組研究體系的建立、進(jìn)一步研究功能蛋白質(zhì)組的反應(yīng)機(jī)制。隨著基因組學(xué)和蛋白質(zhì)組學(xué)的不斷深入研究,使得蛋白質(zhì)序列信息越來(lái)越多。要了解他們的功能光知道氨基酸序列是不夠的,因此出現(xiàn)蛋白質(zhì)結(jié)構(gòu)比對(duì)和功能預(yù)測(cè)。
..........
1.2 蛋白質(zhì)-DNA 相互作用
蛋白質(zhì)-DNA 相互作用對(duì)于生物的生命活動(dòng)密切相關(guān)。隨之人類基因組測(cè)序工組的完成,相關(guān)人員發(fā)現(xiàn),只有很少的一部分,大約 2%的基因是用來(lái)編碼蛋白質(zhì),剩余的基因具體的生物功能還沒(méi)有完全被解析。因此,基因組學(xué)的研究開(kāi)始興起,目前大量的科學(xué)家著重研究基因的功能網(wǎng)絡(luò),這些研究對(duì)于了解生物機(jī)制也起到了關(guān)鍵的作用,其中一項(xiàng)重要的內(nèi)容就是研究 DNA 分子與蛋白質(zhì)的相互作用機(jī)制。生物實(shí)驗(yàn)研究發(fā)現(xiàn),DNA 分子不僅是遺傳物質(zhì),能夠用來(lái)編碼蛋白質(zhì),還能與特殊作用的蛋白質(zhì)結(jié)合,這樣就對(duì)于基因的整個(gè)調(diào)控網(wǎng)絡(luò)起到了控制作用,主要調(diào)控的功能有,轉(zhuǎn)錄 RNA,調(diào)節(jié)基因的表達(dá),可以進(jìn)行基因修飾,發(fā)揮沉默基因作用的功能等[1]。因此,我們發(fā)現(xiàn)生物分子之間的相互作用決定了生命活動(dòng),揭示了生物生命的本質(zhì)。由于蛋白質(zhì)是生物的承載體,DNA 分子又是生命的傳遞者,這二者之間的相互作用機(jī)理也異常的重要,是諸如復(fù)制重組DNA 等生命活動(dòng)的一個(gè)基礎(chǔ)。這些活動(dòng)都是在特定的蛋白質(zhì)參與的情況下發(fā)生的,同時(shí)又受蛋白質(zhì)-DNA 相互作用的調(diào)控,能夠與 DNA 相互作用的蛋白質(zhì)我們稱為 DNA 結(jié)合蛋白(DNA-binding proteins)。 在基因的轉(zhuǎn)錄調(diào)控過(guò)程中,DNA 結(jié)合蛋白與基因啟動(dòng)子區(qū)域進(jìn)行結(jié)合,促進(jìn)或者阻礙 RNA 聚合酶在啟動(dòng)子區(qū)域的作用,從而達(dá)到激活或者抑制基因的轉(zhuǎn)錄[2]。同時(shí)對(duì)于 DNA 復(fù)制、修復(fù)、重組以及修飾(例如,蛋白質(zhì)翻譯后修飾)等生命活動(dòng)蛋白質(zhì)與 DNA 的特異性結(jié)合也產(chǎn)生至關(guān)重要的作用。因此,蛋白質(zhì)-DNA 相互作用對(duì)于生物的遺傳和進(jìn)化都起到了關(guān)鍵性的促進(jìn)作用。在這個(gè)層面上,我們可以看出蛋白質(zhì)與 DNA 的相互作用是生命活動(dòng)的基礎(chǔ)[3]。那么,對(duì)蛋白質(zhì)-DNA 相互作用的研究也就成為了生物信息學(xué)這一學(xué)科熱點(diǎn)研究?jī)?nèi)容。
.......
第二章 本文用到的主要研究方法
2.1 基于蛋白質(zhì)序列信息的特征表示方法
蛋白質(zhì)的進(jìn)化信息通過(guò)同源性多序列比對(duì),能夠反映出一條蛋白質(zhì)序列各個(gè)位置上的氨基酸在物種進(jìn)化過(guò)程中的保守性。在生物信息學(xué)發(fā)展如此迅速的今天,氨基酸進(jìn)化信息被廣泛的應(yīng)用,其中位置特異性打分矩陣(PSSM)在許多生物預(yù)測(cè)問(wèn)題中被廣泛應(yīng)用,例如,亞細(xì)胞定位問(wèn)題,蛋白質(zhì)功能位點(diǎn)預(yù)測(cè)問(wèn)題;研究表明,利用氨基酸序列進(jìn)化信息能夠顯著提高 DNA 位點(diǎn)預(yù)問(wèn)題。目前蛋白質(zhì)進(jìn)化信息一般分為兩類,一類是通過(guò)下載 HSSP 數(shù)據(jù)庫(kù)中的譜文件,另一類是通過(guò)比對(duì)算法實(shí)現(xiàn),目前最為流行的是利用 PSI-BLAST 程序?qū)崿F(xiàn)位置特異性打分矩陣,它是利用多次迭代搜索的策略,先對(duì)一條蛋白質(zhì)序列掃描數(shù)據(jù)庫(kù)(例如NR90 數(shù)據(jù)庫(kù),SWISS-PROT 數(shù)據(jù)庫(kù))找到一組序列,,然后對(duì)這組序列繼續(xù)掃描,找到同源的多組序列,一般設(shè)置的參數(shù)如下:3 次迭代,E-value 值為 0.0001,其他參數(shù)默認(rèn)即可,這樣能夠得到 20*L 維的向量,其中 L 表示蛋白質(zhì)序列的長(zhǎng)度。
..........
2.2 機(jī)器學(xué)習(xí)方法
隨機(jī)森林算法是 2001 年由 Leo Breiman 和 Adele Cutler 提出的,它是一種組合分類器,是由多個(gè)基礎(chǔ)分類器決策樹(shù)構(gòu)成的。決策樹(shù)是一種屬性的分類器,它是有三種節(jié)點(diǎn)組成,根節(jié)點(diǎn),內(nèi)部節(jié)點(diǎn),葉節(jié)點(diǎn)。而決策樹(shù)的總類很多,常用的有三種 ID3、C4.5、CART。這三種算法在內(nèi)部節(jié)點(diǎn)分支的過(guò)程中都是選擇分類效果最好的分支進(jìn)行分類,重復(fù)這個(gè)過(guò)程,直到所有的決策樹(shù)能夠全部訓(xùn)練出準(zhǔn)確的分類效果,或者達(dá)到分類的條件終止。對(duì)于每棵決策樹(shù),它們使用的訓(xùn)練集是從總的訓(xùn)練集中有放回采樣出來(lái)的,這意味著,總的訓(xùn)練集中的有些樣本可能多次出現(xiàn)在一棵樹(shù)的訓(xùn)練集中,也可能從未出現(xiàn)在一棵樹(shù)的訓(xùn)練集中。隨機(jī)森林訓(xùn)練過(guò)程的算法描述如下,這里以 CART 決策樹(shù)為例: 如果當(dāng)前節(jié)點(diǎn)上達(dá)到終止條件,則設(shè)置當(dāng)前節(jié)點(diǎn)為葉子節(jié)點(diǎn),如果是分類問(wèn)題,該葉子節(jié)點(diǎn)的預(yù)測(cè)輸出為當(dāng)前節(jié)點(diǎn)樣本集合中數(shù)量最多的那一類 c(j),概率 p 為 c(j)占當(dāng)前樣本集的比例;如果是回歸問(wèn)題,預(yù)測(cè)輸出為當(dāng)前節(jié)點(diǎn)樣本集各個(gè)樣本值的平均值。然后繼續(xù)訓(xùn)練其他節(jié)點(diǎn)。如果當(dāng)前節(jié)點(diǎn)沒(méi)有達(dá)到終止條件,則從 M 維特征中無(wú)放回的隨機(jī)選取 m 維特征。利用這 m 維特征,尋找分類效果最好的一維特征 k 及其閾值 th,當(dāng)前節(jié)點(diǎn)上樣本第 k 維特征小于 th 的樣本被劃分到左節(jié)點(diǎn),其余的被劃分到右節(jié)點(diǎn)。繼續(xù)訓(xùn)練其他節(jié)點(diǎn)。
........
第三章 基于K-spaced氨基酸構(gòu)成的蛋白質(zhì)-DNA .... 17
3.1 數(shù)據(jù)來(lái)源 ........... 17
3.2 K-spaced 氨基酸對(duì)特征表示方法 ........ 18
3.3 預(yù)測(cè)模型建立.... 18
第四章 結(jié)果比較與討論 ..... 20
4.1 蛋白質(zhì)-DNA 結(jié)合位點(diǎn)氨基酸殘基傾向性分析 ............ 20
4.2 PDNA62 和 PDNA224 預(yù)測(cè)模型參數(shù)分析 ............ 22
4.3 與其他預(yù)測(cè)器性能比較 ...... 26
4.4 本章小結(jié) .......... 27
第五章 結(jié)束語(yǔ) ........... 28
第四章 結(jié)果比較與討論
4.1 蛋白質(zhì)-DNA 結(jié)合位點(diǎn)氨基酸殘基傾向性分析
Two Sample Logo[41]是一個(gè)基于網(wǎng)絡(luò)的應(yīng)用程序,用來(lái)計(jì)算氨基酸或者核苷酸兩個(gè)樣本集之間的差異,并形成可視化圖形。它是基于統(tǒng)計(jì)學(xué),計(jì)算每個(gè)殘基的序列排列的組的每一個(gè)位置,在零假設(shè)的情況下觀察正樣本和負(fù)樣本在同一位置的分布。兩樣本標(biāo)志可以用來(lái)確定顯著殘留在各個(gè)活性位點(diǎn),蛋白質(zhì)的修飾位點(diǎn),或者找到兩組序列相同的序列之間的差異。 Two Sample Logo 是由 Vladimir Vacic 、Lilia M. Iakoucheva 和 Predrag Radivojac 開(kāi)發(fā)的,該軟件能夠形成兩種圖形表示,一是顯著表示某一特定位置的氨基酸殘基,二是統(tǒng)計(jì)學(xué)符號(hào),用來(lái)表示兩個(gè)樣本的差異大小。繪制的圖形可以根據(jù)表達(dá)的需要進(jìn)行顏色的變化,已達(dá)到更加清楚明了的進(jìn)行差異性的說(shuō)明,Two Sample Logo 正因?yàn)樗膶?shí)用性方便,表達(dá)明了,已經(jīng)在諸如蛋白質(zhì)翻譯后修飾位點(diǎn)預(yù)測(cè)問(wèn)題中有廣泛應(yīng)用。 本文中,應(yīng)用了 Two Sample Logo web 服務(wù),分別對(duì) PDNA62 數(shù)據(jù)集和PDNA224 數(shù)據(jù)集,進(jìn)行了實(shí)驗(yàn)。我們實(shí)驗(yàn)的目的主要是對(duì)于蛋白質(zhì)-DNA 結(jié)合位點(diǎn)有明顯聚集的氨基酸進(jìn)行分析。分析結(jié)果如圖 4-1,圖 4-2 所示。其中圖 4-1表示 PDNA62 數(shù)據(jù)集測(cè)試結(jié)果,圖 4-2 為 PDNA224 數(shù)據(jù)集測(cè)試結(jié)果。我們分別將兩個(gè)數(shù)據(jù)集的正負(fù)樣本輸入到軟件中,其中第 10 個(gè)位置表示了蛋白質(zhì)-DNA結(jié)合位點(diǎn)或者是非結(jié)合位點(diǎn),通過(guò)兩個(gè)圖,我們能夠直觀的看出來(lái),精氨酸(Arg)、賴氨酸(Lys)、天冬酰胺(Asn)對(duì)于蛋白質(zhì)與 DNA 結(jié)合有著顯著的作用。 與此同時(shí),我們還對(duì)兩個(gè)數(shù)據(jù)集的氨基酸的頻率信息進(jìn)行了分析,圖 4-3 為PDNA62 數(shù)據(jù)集的氨基酸分布比較圖,圖 4-4 為 PDNA224 數(shù)據(jù)集的氨基酸分布比較圖。我們對(duì)兩個(gè)數(shù)據(jù)集的蛋白質(zhì)-DNA 結(jié)合位點(diǎn)與非結(jié)合位點(diǎn)進(jìn)行了統(tǒng)計(jì),也能得出精氨酸和賴氨酸的作用顯著,其中精氨酸在 PDNA62 數(shù)據(jù)集中約占27%,賴氨酸約占 16%,天冬氨酸約占 7%。精氨酸在 PDNA224 數(shù)據(jù)集中約占18%,賴氨酸約占 13%,絲氨酸(Ser)約占 9%,天冬氨酸約占 6%。這與 Two Sample Logo 圖的結(jié)果相已知。其他論文中實(shí)驗(yàn)結(jié)果顯示,精氨酸和賴氨酸屬于堿性氨基酸,天冬氨酸屬于帶極性側(cè)鏈的氨基酸殘基,從這點(diǎn)上也說(shuō)明氨基酸物化屬性中的堿性和極性側(cè)鏈對(duì)于蛋白質(zhì)-DNA 相互結(jié)合預(yù)測(cè)有很大的幫助。
結(jié)束語(yǔ)
本文主要是用 K-Spaced 氨基酸對(duì)的方法與蛋白質(zhì)-DNA 結(jié)合位點(diǎn)進(jìn)行了預(yù)測(cè)。從實(shí)驗(yàn)結(jié)果可以看出,選擇用 K-Spaced 氨基酸對(duì)方法對(duì)于蛋白質(zhì)-DNA 結(jié)合位點(diǎn)的預(yù)測(cè)的有效性,從蛋白質(zhì)序列的角度來(lái)看,這種方法之所以有效的原因是,它不僅考慮了 20 種氨基酸的信息,還保留了局部氨基酸對(duì)的相互作用信息。本文的實(shí)現(xiàn)過(guò)程,大體分為三個(gè)過(guò)程,首先是對(duì)于初始數(shù)據(jù)集的處理過(guò)程,主要得到的是符合要求的蛋白質(zhì)序列文件,其中包含了三列,分別是氨基酸序號(hào),蛋白質(zhì)-DNA 結(jié)合位點(diǎn)位置,以及不同窗口長(zhǎng)度的氨基酸序列。其次,用 K-Spaced氨基酸對(duì)的方法進(jìn)行編碼。最后,利用支持向量機(jī)的方法(SVM)進(jìn)行預(yù)測(cè)。本文選自了五種評(píng)價(jià)標(biāo)準(zhǔn),分別是準(zhǔn)確度(accuracy,Ac),敏感度(sensitivity Sn),特異性(specificity Sp)、馬氏相關(guān)系數(shù)(Matthews correlation coefficient)以及AUC 值。 從實(shí)驗(yàn)結(jié)果可以分析可得,K-Spaced 氨基酸對(duì)的方法包含了局部氨基酸對(duì)相互作用信息,所以取得非常好的效果。本文選擇了與其他的預(yù)測(cè)蛋白質(zhì)-DNA結(jié)合位點(diǎn)的模型比較,從中可以看出此方法的效果。 蛋白質(zhì)-DNA 相互作用在生物學(xué)途徑有著非常重要的地位,所以蛋白質(zhì)-DNA 結(jié)合位點(diǎn)預(yù)測(cè)問(wèn)題,有著非常大研究意義,本文采用了這樣的方法,取了很好的效果,但是還有很多可以繼續(xù)探究的地方,比如在預(yù)測(cè)方法上,本文只用了 SVM,還可以運(yùn)用隨機(jī)森林等方法預(yù)測(cè),以及集成學(xué)習(xí)的方法,也許會(huì)有更好的效果。這也將會(huì)是我以后繼續(xù)研究的方面。
.........
參考文獻(xiàn)(略)
本文編號(hào):37734
本文鏈接:http://sikaile.net/wenshubaike/lwfw/37734.html