基于機(jī)器學(xué)習(xí)的藥物蛋白虛擬篩選方法研究
第1章 緒 論
1.1 課題研究的目的和意義
隨著上個(gè)世紀(jì)末生命科學(xué)的快速發(fā)展,人類基因組計(jì)劃的完成和后續(xù)功能基因組計(jì)劃的實(shí)施,藥物研究與醫(yī)藥產(chǎn)業(yè)已經(jīng)進(jìn)入了一個(gè)新的歷史時(shí)期[1]。在最近的十幾年,已經(jīng)有越來越多有重要功能的生物大分子的三維結(jié)構(gòu)相繼被解析出來[2]。人類的基因包括 3.5-4 萬條基因,其中,可編碼的蛋白質(zhì)數(shù)量?jī)H激酶類的蛋白質(zhì)預(yù)計(jì)就已達(dá)到 500-2000 個(gè),這些目標(biāo)都可以成為有用的藥物標(biāo)靶,也可以成為基于受體結(jié)構(gòu)分子設(shè)計(jì)的主要數(shù)據(jù)源[3]。這些成就無疑極大地推動(dòng)了人類對(duì)于生命的認(rèn)知,同時(shí)也大大促進(jìn)了其他學(xué)科的發(fā)展,而制藥領(lǐng)域無疑是獲益最多的。據(jù)統(tǒng)計(jì),一種新藥物從篩選到成功上市,平均需要 10 到 14 年的時(shí)間,中間過程的花費(fèi)更是高達(dá) 2-3.5 億美元[4]。目前,臨床階段的候選藥物的淘汰率高達(dá) 90%,因此,如何縮短發(fā)現(xiàn)-藥物(R&D)這一階段所花費(fèi)的時(shí)間,加快臨床研究的速度就成為了各大制藥公司和學(xué)術(shù)機(jī)構(gòu)的研究重點(diǎn)[5]。但是隨著 21 世紀(jì)計(jì)算化學(xué)以及生物學(xué)的快速發(fā)展,計(jì)算機(jī)輔助藥物設(shè)計(jì)越來越受到人們的重視。如今,計(jì)算機(jī)輔助藥物設(shè)計(jì)已經(jīng)成為藥物化學(xué)發(fā)展的重要分支,尤其在藥物先導(dǎo)結(jié)構(gòu)和新靶標(biāo)的發(fā)現(xiàn)方面發(fā)揮了舉足輕重的作用[6]。CADD 的主要任務(wù)是通過理論計(jì)算來研究受體生物大分子活性位點(diǎn)的結(jié)構(gòu)與性質(zhì)、藥物與受體結(jié)合的模式以及相互作用、藥物分子的活性基因等等[7]。從 1964 年 Hnacsh 和 Fujiat 提出定量構(gòu)效關(guān)系(Quantitative Structure Activity Relationship,QSAR)方法以及 20 世紀(jì) 90 年代計(jì)算機(jī)軟硬件的迅猛發(fā)展,CADD 中包含的許多理論和方法(如量子化學(xué)方法)也取得了明顯的進(jìn)步,這也使得計(jì)算機(jī)輔助藥物設(shè)計(jì)逐漸從理論推演進(jìn)入到了具體實(shí)用的階段[8]。 目前,CADD 方法主要分為兩類:基于小分子的藥物設(shè)計(jì)(Ligand-based drug design,LBDD)和基于受體生物大分子結(jié)構(gòu)的藥物設(shè)計(jì)(Structure-based durg design, SBDD)[9]。 LBDD 多用于受體大分子三維結(jié)構(gòu)尚未解析的情況,其方法主要包括 QSAR 和藥效團(tuán)模型法。SBDD 則是采用理論計(jì)算和分子模擬的方法,根據(jù)受體分子的三維結(jié)構(gòu)為基礎(chǔ)建立受體-配體小分子的復(fù)合物三維結(jié)構(gòu),以及結(jié)合過程中發(fā)生的相互作用兩方面來設(shè)計(jì)能與受體結(jié)合腔互補(bǔ)的新分子。虛擬篩選是上述方法的擴(kuò)展。目前,有兩種虛擬篩選手段,分別是基于受體的虛擬篩選(Receptor-based Virtual Screening)和基于配體的虛擬篩選(Ligand-based Virtual Screening)[10]。從目前來看,基于受體的虛擬篩選雖然有較大潛力,但是這種策略十分依賴受體的晶體結(jié)構(gòu),當(dāng)相關(guān)靶點(diǎn)缺少通過實(shí)驗(yàn)手段或核磁共振手段得到的結(jié)構(gòu)時(shí),其應(yīng)用就受到了局限,而如何突破這樣的局限也是目前研究的熱點(diǎn)。
.........
1.2 化學(xué)信息學(xué)
化學(xué)信息學(xué)是建立在多學(xué)科基礎(chǔ)上的一個(gè)新分支。它的主要思想是利用計(jì)算機(jī)技術(shù)對(duì)化學(xué)信息進(jìn)行表示,管理,分析,模擬和傳播,以實(shí)現(xiàn)化學(xué)信息的提取,轉(zhuǎn)化與共享,揭示化學(xué)信息的實(shí)質(zhì)與內(nèi)在聯(lián)系;瘜W(xué)信息學(xué)雖是一門新興學(xué)科,但是由于它與正迅速發(fā)展的計(jì)算機(jī)科學(xué)結(jié)合緊密,因此一經(jīng)提出就得到了較高的關(guān)注,并迅速發(fā)展起來[11]。20 世紀(jì)的中后期是計(jì)算機(jī)技術(shù)的發(fā)展的時(shí)代,這種發(fā)展對(duì)所有科學(xué)領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響,尤其是已經(jīng)累計(jì)了大量數(shù)據(jù)的化學(xué)和生物學(xué)。化學(xué)家開始意識(shí)到,這些海量信息已無法通過傳統(tǒng)的手段解析,只有將這些信息轉(zhuǎn)化為計(jì)算機(jī)數(shù)據(jù),通過數(shù)據(jù)庫的形式存在,才能為科學(xué)界所用,這也是化學(xué)信息學(xué)最開始的任務(wù)。但是知道 1998 年,F(xiàn)rank Brown 才最先總結(jié)出化學(xué)信息學(xué)的概念:應(yīng)用信息技術(shù)和信息處理方法已成為藥物發(fā)現(xiàn)過程中的一個(gè)很重要的部分;瘜W(xué)信息學(xué)實(shí)際上是一種信息源的混合體。它可將數(shù)據(jù)轉(zhuǎn)換為信息,再由信息轉(zhuǎn)換為知識(shí),從而使我們?cè)谒幬锵葘?dǎo)化合物的識(shí)別和組織過程的決策變得更有效。由于組合化學(xué)的出現(xiàn)使得藥物學(xué)發(fā)生了革命性變化,現(xiàn)代藥物設(shè)計(jì)可以利用計(jì)算化學(xué)的方法,通過分子建模和虛擬合成各種化合物[12]。但是,通過這種方法得到的可供篩選的化合物庫非常龐大。從理論上講,可以合成的類藥分子已超過了 1040個(gè),因此,實(shí)際合成每一種可能的藥物來進(jìn)行篩選顯然不切實(shí)際,因此如何從大量的數(shù)據(jù)中總結(jié)出規(guī)律也就成為了重中之重[10]。面對(duì)這個(gè)級(jí)別的數(shù)據(jù)量,需要將原本獨(dú)立的化學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)融合起來,構(gòu)建一系列計(jì)算機(jī)技術(shù)工具。這些工具不但包括實(shí)驗(yàn)數(shù)據(jù)的分析,同時(shí)也包括分子各種性質(zhì)的計(jì)算和化合物數(shù)據(jù)庫的建立、分子虛擬合成、QSAR 的研究等等;瘜W(xué)信息學(xué)正是在上述需求上發(fā)展起來的一門學(xué)科。
...........
第2章 分子對(duì)接和蛋白質(zhì)-配體交互指紋
分子對(duì)接(Molecular Docking)是分子模擬的重要方法之一,其本質(zhì)是兩個(gè)或多個(gè)分子之間的空間匹配和能量匹配。從熱力學(xué)的角度上看,自由能最低的構(gòu)象就是生物分子的穩(wěn)定構(gòu)象,所以分子對(duì)接就是要找到配體與受體在其活性區(qū)域相結(jié)合時(shí)能量最低的構(gòu)象。本章將介紹分子對(duì)接的一些基本概念。
2.1 分子對(duì)接及其理論基礎(chǔ)
2.1.1 分子對(duì)接原理
分子對(duì)接方法最早是由 I.D.Kuntz 提出的,依據(jù)的是配體與受體作用的“鎖-鑰原理”[28]。鎖鑰原理的基本思想是:蛋白質(zhì)與配體之間的結(jié)合是剛性結(jié)合的結(jié)構(gòu)匹配過程。隨著對(duì)分子識(shí)別的進(jìn)一步認(rèn)識(shí),發(fā)現(xiàn)蛋白與其配體之間的識(shí)別不僅是形狀上的互補(bǔ),也包括空間上的互補(bǔ)和能量上互補(bǔ)。因此,分子對(duì)接的概念發(fā)展為:首先產(chǎn)生一個(gè)填充受體分子表面的口袋或凹槽的球集,然后生成一系列假定的結(jié)合位點(diǎn)。依據(jù)受體表面的這些結(jié)合點(diǎn)與配體分子的距離匹配原則,將配體分子投映到受體分子表面,來計(jì)算其結(jié)合的模式和親和力,并對(duì)計(jì)算結(jié)果進(jìn)行打分,評(píng)判配體與受體的結(jié)合程度[29]!版i-鑰原理”的提出在當(dāng)時(shí)為分子對(duì)接提供了大量的理論指導(dǎo),但是隨著分子技術(shù)的進(jìn)步,科學(xué)家發(fā)現(xiàn)酶在與酶結(jié)合的時(shí)候某些集團(tuán)會(huì)發(fā)生明顯變化,并且常常能對(duì)同一個(gè)生化反應(yīng)中正逆兩個(gè)方向的反應(yīng)都起催化作用。于是,D.E.Koshland 于 1958 年提出了“誘導(dǎo)契合學(xué)說”。這種學(xué)說認(rèn)為酶并不是事先就和底物以互補(bǔ)的形式存在,酶蛋白的構(gòu)象的變化是發(fā)生在底物結(jié)合上去之后[30]。
.........
2.2 蛋白質(zhì)-配體交互指紋
盡管近幾年國(guó)內(nèi)外的研究者對(duì)此進(jìn)行了大量的研究,但是目前的打分函數(shù)在功能和理論上還有許多的不足。有些打分函數(shù)側(cè)重于對(duì)疏水性位點(diǎn)的分析,有的則側(cè)重于分析極性位點(diǎn)。另外,由于大多數(shù)得到候選分子知識(shí)類似結(jié)構(gòu),因此就會(huì)造成不同程度的假陰性現(xiàn)象。為解決這個(gè)問題,就需要多個(gè)角度分析蛋白質(zhì)-配體結(jié)合的自由能,并對(duì)產(chǎn)生的復(fù)合物集合進(jìn)行分類。而蛋白質(zhì)-配體交互指紋的概念作為后處理手段的一種也就應(yīng)運(yùn)而生,但是由于交互指紋容易生成和比較,因此也被逐漸開發(fā)了其他用途。本節(jié)將介紹交互指紋的基本概念和目前所取得的研究進(jìn)展。交互指紋是通過原子3D坐標(biāo),通過0和1編碼了單一配體與一組固定的氨基酸的結(jié)合位點(diǎn)的已經(jīng)明確定義的交互作用[42]。這些交互作用的計(jì)算是根據(jù)發(fā)生反應(yīng)的原子之間一組規(guī)則(原子類型)以及幾何關(guān)系(距離,角度)[37]。傳統(tǒng)的蛋白質(zhì)-配體交互指紋主要是通過實(shí)驗(yàn)手段或者模擬計(jì)算手段獲得的,試驗(yàn)方法的主流方法主要是X-射線晶體衍射,它的基本原理是:當(dāng)一束單色X 射線入射到晶體時(shí),由于晶體是由原子規(guī)則排列成的晶胞組成,這些規(guī)則排列的原子間距離與入射X 射線波長(zhǎng)有相同數(shù)量級(jí),故由不同原子散射的X射線相互干涉,在某些特殊方向上產(chǎn)生強(qiáng)X射線衍射,衍射線在空間分布的方位和強(qiáng)度,與晶體結(jié)構(gòu)密切相關(guān)[43]。這種方法在研究目標(biāo)復(fù)合物的蛋白質(zhì)-配體相互作用的同時(shí)得到交互指紋,這也是獲得復(fù)合物交互指紋的主要手段。
第 3 章 蛋白質(zhì)-配體交互指紋的預(yù)測(cè) ............. 22
3.1 人工神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ) .... 22
3.2 遺傳模擬退火算法 ............ 26
3.2.1 遺傳算法 .......... 26
3.2.2 模擬退火算法 ............. 27
3.2.3 遺傳模擬退火算法 ..... 29
3.3 蛋白質(zhì)-配體交互指紋進(jìn)行預(yù)測(cè)模型的建立 .............. 29
3.3.1 目標(biāo)蛋白質(zhì)介紹 ......... 30
3.3.2 數(shù)據(jù)準(zhǔn)備 .......... 31
3.4 實(shí)驗(yàn)結(jié)果及分析 ..... 34
3.5 本章小結(jié) ...... 37
第 4 章 基于集成學(xué)習(xí)的藥物蛋白虛擬篩選 .............. 38
4.1 支持向量機(jī) ............. 38
4.2 集成學(xué)習(xí)方法 ......... 43
4.2.1 集成學(xué)習(xí)的基本概念 ............ 43
4.2.2 分類器集成的主要算法 ........ 44
4.2.3 基于 Adaboost-SVM 的分類 ........... 46
4.3 實(shí)驗(yàn)驗(yàn)證與分析 ..... 47
4.4 本章小結(jié) ...... 50
第4章 基于集成學(xué)習(xí)的藥物蛋白虛擬篩選
近幾年,如何改善缺少實(shí)驗(yàn)室晶體的藥物標(biāo)靶蛋白的虛擬篩選準(zhǔn)確率已經(jīng)成為化學(xué)信息學(xué)的熱點(diǎn)問題。在實(shí)際虛擬篩選中,經(jīng)常會(huì)出現(xiàn)實(shí)驗(yàn)室晶體不足的情況,但為了保證機(jī)器學(xué)習(xí)中訓(xùn)練集的規(guī)模,就需要在原有的晶體結(jié)構(gòu)中加入部分對(duì)接去向。這就使得最終的虛擬篩選效果會(huì)因?yàn)檫@些后摻入的樣本而受到影響。以此為研究背景,本文將采用支持向量機(jī)(Support Vector Machine,SVM)作為基分類器,通過引入集成學(xué)習(xí)思想對(duì)其進(jìn)行改進(jìn)使之成為更適合本文所闡述的情況。
4.1 支持向量機(jī)
支持向量機(jī)已經(jīng)成為一中備受關(guān)注的分類技術(shù),雖然它只是在近幾年才逐漸發(fā)展起來,但是這種分類技術(shù)建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上,具有完備的理論基礎(chǔ)和嚴(yán)謹(jǐn)?shù)睦碚擉w系,所以廣泛應(yīng)用于模式識(shí)別、函數(shù)估計(jì)和時(shí)間序列預(yù)測(cè)等數(shù)據(jù)挖掘問題。將對(duì)于其他分類器,SVM 的抗噪性較好,并且SVM 的學(xué)習(xí)機(jī)制提供了很多可以對(duì)分類模型進(jìn)行改進(jìn)的空間。因此,本文仍然選擇 SVM 作為解決本文問題的基本算法模型。在圖 4-1 中顯示的數(shù)據(jù)集中,方塊和圓圈分別表示兩種不同的樣本。可以看到,,兩種樣本可以被不止一個(gè)超平面正確分隔開。雖然所有超平面的訓(xùn)練誤差都為零,但是卻無法保證這些超平面在未知實(shí)例上同樣起作用。本文將通過圖 4-2 來說明不同超平面對(duì)泛化誤差的影響。在圖 4-2 中,兩個(gè)決策邊界1B 和2B 都能正確的把樣本分隔開。下一步就是通過決策邊界來得到相應(yīng)的超平面。首先,平移一個(gè)和決策邊界平行的超平面直至與最近方塊相切來得到i1b ,隨后,用同樣的方法平移直至與最近的圓圈相切來得到i2b 。這兩個(gè)超平面之間的距離就是分類器的邊緣。
...........
結(jié)論
在虛擬篩選逐漸成為制藥行業(yè)主要手段的大背景下,分子對(duì)接技術(shù)日益成熟,而作為提升對(duì)接質(zhì)量的手段之一,交互指紋的地位也漸漸提升,并被開發(fā)了許多其他的用途,本文對(duì)目前比較常見的交互指紋的類型及計(jì)算方法做了概念性的總結(jié)。最早的交互指紋是由 Deng 以及他的同事提出的 SIFt,SIFt 是基于對(duì)激酶結(jié)構(gòu)的交互文件的分析而得出的,意在理解抑制劑選擇的基本原理。這種技術(shù)隨后被 Kelly and Mancera 擴(kuò)展,并提出了基于原子的交互指紋的概念和用途。無論是基于殘基還是基于原子的交互指紋,每種交互指紋都有自己的特點(diǎn)。一維的交互指紋相對(duì)于蛋白質(zhì)-配體的 3D 結(jié)構(gòu)來說,更加容易生成和比較,也就更加適用于計(jì)算機(jī)輔助藥物設(shè)計(jì)。 本文針對(duì)基于分子對(duì)接的虛擬篩選中遇到的問題進(jìn)行了深入的研究,提出了一套基于機(jī)器學(xué)習(xí)的虛擬篩選流程,為計(jì)算機(jī)輔助藥物設(shè)計(jì)提供了一套有效的新方案。本文的貢獻(xiàn)主要有兩點(diǎn):首先,本文分析了 BP 神經(jīng)網(wǎng)絡(luò)的優(yōu)劣,引入了遺傳模擬退火算法來改善 BP 神經(jīng)網(wǎng)絡(luò)收斂過慢和易陷入局部最優(yōu)值的問題。用改進(jìn)后的算法從 2D 的配體結(jié)構(gòu)文件中預(yù)測(cè)出蛋白質(zhì)-配體交互指紋,通過實(shí)驗(yàn),在理論上證明了這種方法的可行性.本文通過對(duì) SRC 和 Cathepsin K 兩種蛋白質(zhì)所構(gòu)建的對(duì)比實(shí)驗(yàn)表明,集成學(xué)習(xí)思想可以有效的解決因樣本集質(zhì)量不高而影響最終虛擬篩選效果的問題,由機(jī)器學(xué)習(xí)所產(chǎn)生的交互指紋可以應(yīng)用于虛擬篩選。 利用機(jī)器學(xué)習(xí)來對(duì)交互指紋預(yù)測(cè)目前還是初始階段,但是算法并不僅限于人工神經(jīng)網(wǎng)絡(luò),利用偏最小二乘法邏輯回歸,K 最近鄰?fù)瑯右彩强梢缘。利用機(jī)器學(xué)習(xí)預(yù)測(cè)出的交互指紋也展現(xiàn)了它的優(yōu)勢(shì):簡(jiǎn)單,快速,構(gòu)象魯棒性,以及不依賴自由能分析。但是由于理論的不成熟,許多更加高效的機(jī)器學(xué)習(xí)算法還沒有應(yīng)用到交互指紋的預(yù)測(cè)當(dāng)中,而伴隨著相關(guān)理論的成熟和更高水平的算法的應(yīng)用,利用機(jī)器學(xué)習(xí)來預(yù)測(cè)交互指紋的準(zhǔn)確率會(huì)進(jìn)一步提高,并會(huì)成為除了實(shí)驗(yàn)室手段之外主流的產(chǎn)生交互指紋的手段。
.........
參考文獻(xiàn)(略)
本文編號(hào):84476
本文鏈接:http://sikaile.net/wenshubaike/lwfw/84476.html