基于分子振動(dòng)特征的藥物靶點(diǎn)識(shí)別及活性預(yù)測模型研究
發(fā)布時(shí)間:2020-05-31 11:19
【摘要】:背景:目前,多數(shù)中藥化學(xué)成分作用靶點(diǎn)及其生物活性尚不確定,這已成為闡明中藥物質(zhì)基礎(chǔ)及其作用機(jī)制的瓶頸之一。中藥化學(xué)成分作用靶點(diǎn)及其生物活性的研究有助于揭示中藥在治療疾病過程中發(fā)揮藥效的程度以及為中藥化學(xué)成分在體內(nèi)發(fā)揮療效的機(jī)制提供線索與指導(dǎo),也有助于中藥化學(xué)成分作用靶點(diǎn)的重新定位。隨著科學(xué)技術(shù)的進(jìn)步與發(fā)展,越來越多的中藥化學(xué)成分被發(fā)現(xiàn)。由于時(shí)間與資金成本的限制,利用傳統(tǒng)實(shí)驗(yàn)的方法進(jìn)行中藥化學(xué)成分與相關(guān)靶點(diǎn)之間生物活性的測定面臨很大的挑戰(zhàn),花費(fèi)昂貴且效率較低。采用機(jī)器學(xué)習(xí)的方法構(gòu)建藥物與靶點(diǎn)的定量預(yù)測模型進(jìn)行中藥化學(xué)成分作用靶點(diǎn)的識(shí)別及活性預(yù)測彌補(bǔ)了傳統(tǒng)實(shí)驗(yàn)的不足,具有高效低耗的特點(diǎn),被認(rèn)為是研究化合物作用靶點(diǎn)與其生物活性的有效手段。近年來,越來越多關(guān)于藥物與靶點(diǎn)相互作用關(guān)系預(yù)測的模型被報(bào)道,這些模型大多數(shù)是判斷藥物與靶點(diǎn)之間是否存在相互作用關(guān)系,不能進(jìn)行活性預(yù)測,只有少數(shù)模型用于預(yù)測藥物與靶點(diǎn)之間的定量關(guān)系,這些定量模型預(yù)測性能較差且只是針對少量靶點(diǎn),即模型的準(zhǔn)確性和適用范圍還需要進(jìn)一步提高。因此建立預(yù)測性能高與適用范圍廣的藥物與靶點(diǎn)相互作用關(guān)系的定量預(yù)測模型是研究中藥化學(xué)成分潛在作用靶點(diǎn)及活性預(yù)測亟待解決的問題。目的:本文旨在構(gòu)建預(yù)測性能高及適用范圍廣的藥物靶點(diǎn)定量預(yù)測模型,彌補(bǔ)當(dāng)前采用實(shí)驗(yàn)手段確定藥物潛在作用靶點(diǎn)及生物活性所帶來的不足之處,提高當(dāng)前藥物靶點(diǎn)定量預(yù)測模型的預(yù)測性能及適用范圍,以期為闡明中藥的物質(zhì)基礎(chǔ)及作用機(jī)制提供一定的線索與指導(dǎo)。方法:(1)藥物與靶點(diǎn)相互作用定量關(guān)系數(shù)據(jù)庫的考察。從數(shù)據(jù)的可靠性,準(zhǔn)確性,完備性,可獲得性以及適用性五個(gè)方面對已有的藥物與靶點(diǎn)相互作用關(guān)系數(shù)據(jù)庫進(jìn)行考察。數(shù)據(jù)的可靠性主要是考察數(shù)據(jù)的來源,準(zhǔn)確性主要考察數(shù)據(jù)庫收錄數(shù)據(jù)的標(biāo)準(zhǔn)(主要是活性值的單位)是否一致,完備性主要考察數(shù)據(jù)庫對當(dāng)前藥物與靶點(diǎn)相互作用關(guān)系的覆蓋程度,可獲得性主要考察數(shù)據(jù)獲得的難易程度,適用性主要考察數(shù)據(jù)信息是否完善。最終,基于這五個(gè)方面確定本文的最佳數(shù)據(jù)源。(2)藥物與靶點(diǎn)定量預(yù)測模型的構(gòu)建。①根據(jù)收集的藥物與靶點(diǎn)相互作用關(guān)系數(shù)據(jù),計(jì)算化合物的分子描述符及靶點(diǎn)的序列描述符,從分子振動(dòng)的角度對化合物的描述符進(jìn)行篩選得到化合物的特征描述符子集,最后整合為藥物靶點(diǎn)定量關(guān)系數(shù)據(jù)集。②對數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)的清理,集成,變換,規(guī)約。數(shù)據(jù)清理是指清除異常值,數(shù)據(jù)集成是指對收集的數(shù)據(jù)進(jìn)行整合,數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)化成適用于建模的形式,數(shù)據(jù)規(guī)約是指對數(shù)據(jù)進(jìn)行歸一化處理。③特征篩選及模型構(gòu)建,采用“Boruta”程序包進(jìn)行特征篩選構(gòu)建數(shù)據(jù)集的特征子集,分別采用隨機(jī)森林,支持向量機(jī),人工神經(jīng)網(wǎng)絡(luò)三種機(jī)器學(xué)習(xí)算法進(jìn)行藥物靶點(diǎn)定量預(yù)測模型的構(gòu)建。通過交叉驗(yàn)證的方法對模型的穩(wěn)定性及預(yù)測性能進(jìn)行驗(yàn)證,采用構(gòu)建的模型對訓(xùn)練集和測試集分別進(jìn)行預(yù)測,計(jì)算實(shí)驗(yàn)測得的值(真實(shí)值)和預(yù)測值之間的差值以及差值絕對值,分析訓(xùn)練集和測試集在每一差值范圍內(nèi)的樣本量分布。繪制真實(shí)值與預(yù)測值的散點(diǎn)圖,計(jì)算決定系數(shù)(R2)和均方誤差(MSE)等回歸模型的評(píng)價(jià)指標(biāo)篩選最優(yōu)模型。(3)通過與已報(bào)道的模型進(jìn)行比較,判斷本文所構(gòu)建模型的準(zhǔn)確性及適用范圍。(4)最優(yōu)預(yù)測模型在中藥化學(xué)成分作用靶點(diǎn)識(shí)別及活性預(yù)測中的應(yīng)用。收集Binding DB數(shù)據(jù)庫中未參與本文模型建立的中藥化學(xué)成分與靶點(diǎn)之間的定量關(guān)系,依據(jù)數(shù)據(jù)考察原則對數(shù)據(jù)進(jìn)行收集整理獲得新的數(shù)據(jù)集,采用已獲得的最優(yōu)模型對新的數(shù)據(jù)集進(jìn)行預(yù)測,將預(yù)測值與真實(shí)值進(jìn)行比較證明最優(yōu)預(yù)測模型的準(zhǔn)確性及適用性。結(jié)果:(1)選用ChEMBL數(shù)據(jù)庫中的藥物靶點(diǎn)定量關(guān)系數(shù)據(jù)作為本文的數(shù)據(jù)源。(2)建立了6個(gè)分別由EC50和KD值量化的藥物靶點(diǎn)相互作用定量預(yù)測模型;诒疚氖占臄(shù)據(jù)集分別建立了由EC50和KD值量化的藥物與靶點(diǎn)相互作用關(guān)系的定量預(yù)測模型,涉及2207個(gè)化合物和1254個(gè)靶點(diǎn)共計(jì)21999條關(guān)系。從分子振動(dòng)角度篩選出813個(gè)描述符表示化合物的特征子集。①采用隨機(jī)森林算法構(gòu)建的模型在訓(xùn)練集和測試集上具有良好的預(yù)測性能,EC50值量化的模型R2均大于0.96,MSE小于0.09;KD值量化的模型R2均大于0.94,MSE小于0.12;②采用支持向量機(jī)算法構(gòu)建的模型在訓(xùn)練集上的預(yù)測性能優(yōu)于測試集,EC50值量化的模型在訓(xùn)練集上的R2=0.9317,MSE=0.1270,測試集R2=0.5759,MSE=0.8356;KD值量化的模型在訓(xùn)練集上的R2=0.9099,MSE=0.1254,測試集R2=0.5083,MSE=0.7290;③采用人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的模型在訓(xùn)練集的預(yù)測性能也優(yōu)于測試集,EC50值量化的模型在訓(xùn)練集的R2=0.7350,MSE=0.4867,測試集R2=0.5211,MSE=0.9590;KD值量化的模型在訓(xùn)練集上的R2=0.5857,MSE=0.5612,測試集R2=0.2961,MSE=1.019。比較數(shù)據(jù)集在每一差值絕對值范圍內(nèi)分布的樣本量及上述回歸模型的評(píng)價(jià)指標(biāo),隨機(jī)森林算法構(gòu)建的定量預(yù)測模型預(yù)測性能最好。(3)采用相同的模型評(píng)價(jià)指標(biāo)與文獻(xiàn)已報(bào)道的模型進(jìn)行比較,結(jié)果表明本文構(gòu)建的最優(yōu)模型具有更高的預(yù)測準(zhǔn)確性及適用范圍。(4)采用本文構(gòu)建的最優(yōu)預(yù)測模型對Binding DB數(shù)據(jù)庫中已有的但沒有參與本文模型構(gòu)建的中藥化學(xué)成分與靶點(diǎn)的定量關(guān)系進(jìn)行預(yù)測,結(jié)果表明本文預(yù)測的藥物靶點(diǎn)相互作用關(guān)系與實(shí)驗(yàn)測量結(jié)果一致。在活性預(yù)測方面,實(shí)驗(yàn)測量的預(yù)測值均大于真實(shí)值,但是它們之間的差值集中在某一范圍內(nèi)。出現(xiàn)這種系統(tǒng)誤差的原因可能是由于數(shù)據(jù)收集的來源不同,Binding DB數(shù)據(jù)庫與ChEMBL數(shù)據(jù)庫中的數(shù)據(jù)收入標(biāo)準(zhǔn)有所差異?梢酝ㄟ^設(shè)置校正因子來消除系統(tǒng)誤差,校正因子可以由所有差值的平均值來表示。這也在一定程度上證明了本文建立的定量預(yù)測模型在中藥化學(xué)成分作用靶點(diǎn)及活性預(yù)測方面的適用性。結(jié)論:本文首次提出了從分子振動(dòng)的角度篩選化合物的分子描述符。成功建立了藥物與靶點(diǎn)相互作用關(guān)系的定量預(yù)測模型。通過回歸模型評(píng)價(jià)指標(biāo)確定了隨機(jī)森林算法構(gòu)建的藥物靶點(diǎn)定量預(yù)測模型為最優(yōu)預(yù)測模型即模型具有更好的預(yù)測性能,支持向量機(jī)算法構(gòu)建的藥物靶點(diǎn)定量預(yù)測模型可能存在過擬合,人工神經(jīng)網(wǎng)絡(luò)算法構(gòu)建的藥物靶點(diǎn)定量預(yù)測模型可能存在欠擬合。通過比較,本文建立的最優(yōu)模型的預(yù)測性能及適用范圍均優(yōu)于文獻(xiàn)已經(jīng)報(bào)道的最優(yōu)模型。最終,在最優(yōu)模型的基礎(chǔ)上,對Binding DB數(shù)據(jù)庫中的部分中藥化學(xué)成分與靶點(diǎn)相互作用關(guān)系進(jìn)行了定量預(yù)測,結(jié)果表明本文構(gòu)建的藥物與靶點(diǎn)相互作用關(guān)系定量預(yù)測模型在中藥化學(xué)成分作用靶點(diǎn)及活性預(yù)測中的適用性,證明了從分子振動(dòng)角度確定化合物描述符的客觀性。
【圖文】:
圖2-1藥物靶點(diǎn)相互作用關(guān)系數(shù)據(jù)集的類型及信息逡逑數(shù)化表征逡逑靶點(diǎn)是指藥物與機(jī)體生物大分子結(jié)合的部位,涉及受體、酶、系統(tǒng)、基因等。靶點(diǎn)的參數(shù)化表征是構(gòu)建模型的關(guān)鍵步驟。目用關(guān)系(Drug-TargetInteractions,DTIs)預(yù)測的方法主要包括兩基于受體的方法n6]。在基于配體的方法中,例如定量構(gòu)效關(guān)系搜索的方法[17]均是利用配體化學(xué)結(jié)構(gòu)的相似性來預(yù)測DTIs,沒。逡逑,基于受體的方法,例如反向分子對接,基于力場或評(píng)分函數(shù)評(píng)力的大。郏保福,,這兩個(gè)參數(shù)通常被用來預(yù)測配體分子(通常是一
邐基于分子振動(dòng)特征的藥物靶點(diǎn)識(shí)別及活性預(yù)測模型研究邐逡逑在處理高維數(shù)據(jù)時(shí),采用一種技術(shù)性方法處理大量數(shù)據(jù)會(huì)降低算法速度,占用太多資源,逡逑并且非常不方便,進(jìn)行特征選擇可以提高算法的準(zhǔn)確性t38,%。特征數(shù)量過多時(shí),許多機(jī)逡逑器學(xué)習(xí)算法的準(zhǔn)確性將受到很大影響[4叱因此,進(jìn)行模型的構(gòu)建時(shí)必須進(jìn)行特征篩選以逡逑達(dá)到降維、增強(qiáng)模型的泛化能力、避免過擬合的目的,但前提是必須保證不丟失重要的逡逑特征。主要包括基于排序的過濾方法和基于評(píng)估的包裹方法。逡逑基于排序的過濾(Filter)方法的基本思想是基于某一種度量標(biāo)準(zhǔn),為每一個(gè)屬性特逡逑征的重要性打分,按照打分值進(jìn)行排序,最后選取排名靠前的特征,具體過程如圖2-2逡逑所不。常用的度量標(biāo)準(zhǔn)有很多,如相關(guān)性(PearsonCorrelation),信息X椧媯ǎ桑睿媯錚潁恚幔簦椋錚鑠義希牽幔椋,邋I咯邋`P簇藎鲆媛剩ǎ牽幔椋睿遙幔簦椋錚澹牽遙╁澹郟矗玻藎ǚ劍ǎ茫瑁椋櫻瘢酰幔潁,C}x桑╁澹郟矗常藎疲椋螅瑁澹蟈澹櫻悖錚潁澹咤義系。辶x希疲澹幔簦酰潁邋澹歟椋螅翦危遙幔睿耄椋睿玨澹歟椋螅翦危疲澹幔簦酰潁邋澹螅酰猓歟椋螅翦義
本文編號(hào):2689777
【圖文】:
圖2-1藥物靶點(diǎn)相互作用關(guān)系數(shù)據(jù)集的類型及信息逡逑數(shù)化表征逡逑靶點(diǎn)是指藥物與機(jī)體生物大分子結(jié)合的部位,涉及受體、酶、系統(tǒng)、基因等。靶點(diǎn)的參數(shù)化表征是構(gòu)建模型的關(guān)鍵步驟。目用關(guān)系(Drug-TargetInteractions,DTIs)預(yù)測的方法主要包括兩基于受體的方法n6]。在基于配體的方法中,例如定量構(gòu)效關(guān)系搜索的方法[17]均是利用配體化學(xué)結(jié)構(gòu)的相似性來預(yù)測DTIs,沒。逡逑,基于受體的方法,例如反向分子對接,基于力場或評(píng)分函數(shù)評(píng)力的大。郏保福,,這兩個(gè)參數(shù)通常被用來預(yù)測配體分子(通常是一
邐基于分子振動(dòng)特征的藥物靶點(diǎn)識(shí)別及活性預(yù)測模型研究邐逡逑在處理高維數(shù)據(jù)時(shí),采用一種技術(shù)性方法處理大量數(shù)據(jù)會(huì)降低算法速度,占用太多資源,逡逑并且非常不方便,進(jìn)行特征選擇可以提高算法的準(zhǔn)確性t38,%。特征數(shù)量過多時(shí),許多機(jī)逡逑器學(xué)習(xí)算法的準(zhǔn)確性將受到很大影響[4叱因此,進(jìn)行模型的構(gòu)建時(shí)必須進(jìn)行特征篩選以逡逑達(dá)到降維、增強(qiáng)模型的泛化能力、避免過擬合的目的,但前提是必須保證不丟失重要的逡逑特征。主要包括基于排序的過濾方法和基于評(píng)估的包裹方法。逡逑基于排序的過濾(Filter)方法的基本思想是基于某一種度量標(biāo)準(zhǔn),為每一個(gè)屬性特逡逑征的重要性打分,按照打分值進(jìn)行排序,最后選取排名靠前的特征,具體過程如圖2-2逡逑所不。常用的度量標(biāo)準(zhǔn)有很多,如相關(guān)性(PearsonCorrelation),信息X椧媯ǎ桑睿媯錚潁恚幔簦椋錚鑠義希牽幔椋,邋I咯邋`P簇藎鲆媛剩ǎ牽幔椋睿遙幔簦椋錚澹牽遙╁澹郟矗玻藎ǚ劍ǎ茫瑁椋櫻瘢酰幔潁,C}x桑╁澹郟矗常藎疲椋螅瑁澹蟈澹櫻悖錚潁澹咤義系。辶x希疲澹幔簦酰潁邋澹歟椋螅翦危遙幔睿耄椋睿玨澹歟椋螅翦危疲澹幔簦酰潁邋澹螅酰猓歟椋螅翦義
本文編號(hào):2689777
本文鏈接:http://sikaile.net/yixuelunwen/zhongyaolw/2689777.html
最近更新
教材專著