機(jī)器學(xué)習(xí)法和分子對(duì)接法篩選BRD4抑制劑
發(fā)布時(shí)間:2021-11-08 13:58
目的采用分子指紋和分子對(duì)接法篩選BRD4抑制劑。方法采用1181個(gè)IC50值跨度從0.7~8.354×106nmol·L-1的BRD4抑制劑小分子作為訓(xùn)練集和測(cè)試集構(gòu)建機(jī)器學(xué)習(xí)法的二元分類模型,利用ROC曲線,Sensitivity、Specificity和Accuracy值對(duì)二元分類模型進(jìn)行評(píng)估;然后聯(lián)合分子對(duì)接法篩選天然化合物庫。結(jié)果用機(jī)器學(xué)習(xí)法構(gòu)建的二元分類模型都較好適用于進(jìn)一步篩選化合物庫,文中運(yùn)用支持向量SVM篩選天然產(chǎn)物化合物庫,根據(jù)機(jī)器學(xué)習(xí)法得到的化合物在分子對(duì)接中與蛋白具有相似的相互作用模式。結(jié)論機(jī)器學(xué)習(xí)法所構(gòu)建的二元分類模型可行度較高、預(yù)測(cè)能力較強(qiáng),為尋找新型小分子BRD4抑制劑奠定了基礎(chǔ)。
【文章來源】:華西藥學(xué)雜志. 2020,35(04)CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
BRD4數(shù)據(jù)集物理化學(xué)性質(zhì)(A)與未違反五定律的數(shù)據(jù)集(B)的雷達(dá)圖(違反五定律的數(shù)據(jù)集藍(lán)色方塊表示物理化學(xué)性質(zhì)在五規(guī)則范圍內(nèi)的區(qū)域,藍(lán)線連接過濾數(shù)據(jù)集的平均值,虛線顯示標(biāo)準(zhǔn)偏差)
對(duì)于機(jī)器學(xué)習(xí),首先,需要將分子轉(zhuǎn)換成一系列特征描述符,文中使用RDKit計(jì)算MACCS、ECFP4、torsion、RDK5等分子指紋來表征分子。將IC50轉(zhuǎn)換成pIC50,且pIC50≥6.3的化合物視為機(jī)器學(xué)習(xí)法中有活性的化合物,pIC50<6.3的化合物視為機(jī)器學(xué)習(xí)法中不具有活性的化合物[10]。研究采用了最新的機(jī)器學(xué)習(xí)方法包括RF、SVM和MLP,可以把這種預(yù)測(cè)歸結(jié)為一個(gè)二元分類問題。同時(shí),運(yùn)用10折交叉驗(yàn)證以評(píng)估模型的泛化能力。即重復(fù)隨機(jī)產(chǎn)生子樣本的方法將樣本平均分成10份,其中,9份作為訓(xùn)練集構(gòu)建模型,一份作為測(cè)試集驗(yàn)證模型準(zhǔn)確度,平均10次的結(jié)果。在藥物發(fā)現(xiàn)領(lǐng)域存在著許多評(píng)估不同分類方法的準(zhǔn)確性和等級(jí)的性能度量,文中選擇了sensitivity、specificity、accuracy、ROC-curve作為評(píng)估模型質(zhì)量的度量,因?yàn)樗鼈兎謩e具有最小化假陰性(FN)和假陽性(FP)錯(cuò)誤的能力[11]。對(duì)于訓(xùn)練出的幾個(gè)模型選擇最優(yōu)模型,是利用這些模型篩選天然化合物數(shù)據(jù)庫(2.5×105個(gè)小分子),以預(yù)測(cè)新的潛在BRD4抑制劑。機(jī)器學(xué)習(xí)法分類模型根據(jù)python腳本建立,聯(lián)合10折交叉驗(yàn)證方法高了訓(xùn)練集的預(yù)測(cè)精度,詳細(xì)結(jié)果參見表1和圖3。在BRD4的數(shù)據(jù)集上,用ECFP4表征分子時(shí),這3個(gè)模型都表現(xiàn)得很好,平均AUC達(dá)到90%。隨機(jī)森林模型(random forest)和支持向量機(jī)(SVM)模型性能最好。人工神經(jīng)網(wǎng)絡(luò)性能稍差的一個(gè)原因可能是數(shù)據(jù)太少,無法訓(xùn)練出較好的模型。圖3 機(jī)器學(xué)習(xí)分類模型的ROC曲線
機(jī)器學(xué)習(xí)分類模型的ROC曲線
【參考文獻(xiàn)】:
期刊論文
[1]基于靶蛋白共結(jié)晶藥效團(tuán)與分子對(duì)接的新型WEE1抑制劑的設(shè)計(jì)[J]. 和龍,羅小嬌,劉新琦,溫曉燕,王玲,歐陽亮,何俊. 華西藥學(xué)雜志. 2020(02)
[2]藤黃酸抗腫瘤作用機(jī)制及其納米制劑的研究進(jìn)展[J]. 白皎皎,陳新棉,曾代文,湯明海,童榮生,蔡璐璐. 華西藥學(xué)雜志. 2018(06)
[3]鼠尾草酚抗腫瘤活性機(jī)制的研究進(jìn)展[J]. 王威,宋洋. 華西藥學(xué)雜志. 2018(04)
[4]倍半萜內(nèi)酯類化合物抗腫瘤作用機(jī)制的研究進(jìn)展[J]. 朱華野,樸惠順. 華西藥學(xué)雜志. 2015(03)
本文編號(hào):3483836
【文章來源】:華西藥學(xué)雜志. 2020,35(04)CSCD
【文章頁數(shù)】:4 頁
【部分圖文】:
BRD4數(shù)據(jù)集物理化學(xué)性質(zhì)(A)與未違反五定律的數(shù)據(jù)集(B)的雷達(dá)圖(違反五定律的數(shù)據(jù)集藍(lán)色方塊表示物理化學(xué)性質(zhì)在五規(guī)則范圍內(nèi)的區(qū)域,藍(lán)線連接過濾數(shù)據(jù)集的平均值,虛線顯示標(biāo)準(zhǔn)偏差)
對(duì)于機(jī)器學(xué)習(xí),首先,需要將分子轉(zhuǎn)換成一系列特征描述符,文中使用RDKit計(jì)算MACCS、ECFP4、torsion、RDK5等分子指紋來表征分子。將IC50轉(zhuǎn)換成pIC50,且pIC50≥6.3的化合物視為機(jī)器學(xué)習(xí)法中有活性的化合物,pIC50<6.3的化合物視為機(jī)器學(xué)習(xí)法中不具有活性的化合物[10]。研究采用了最新的機(jī)器學(xué)習(xí)方法包括RF、SVM和MLP,可以把這種預(yù)測(cè)歸結(jié)為一個(gè)二元分類問題。同時(shí),運(yùn)用10折交叉驗(yàn)證以評(píng)估模型的泛化能力。即重復(fù)隨機(jī)產(chǎn)生子樣本的方法將樣本平均分成10份,其中,9份作為訓(xùn)練集構(gòu)建模型,一份作為測(cè)試集驗(yàn)證模型準(zhǔn)確度,平均10次的結(jié)果。在藥物發(fā)現(xiàn)領(lǐng)域存在著許多評(píng)估不同分類方法的準(zhǔn)確性和等級(jí)的性能度量,文中選擇了sensitivity、specificity、accuracy、ROC-curve作為評(píng)估模型質(zhì)量的度量,因?yàn)樗鼈兎謩e具有最小化假陰性(FN)和假陽性(FP)錯(cuò)誤的能力[11]。對(duì)于訓(xùn)練出的幾個(gè)模型選擇最優(yōu)模型,是利用這些模型篩選天然化合物數(shù)據(jù)庫(2.5×105個(gè)小分子),以預(yù)測(cè)新的潛在BRD4抑制劑。機(jī)器學(xué)習(xí)法分類模型根據(jù)python腳本建立,聯(lián)合10折交叉驗(yàn)證方法高了訓(xùn)練集的預(yù)測(cè)精度,詳細(xì)結(jié)果參見表1和圖3。在BRD4的數(shù)據(jù)集上,用ECFP4表征分子時(shí),這3個(gè)模型都表現(xiàn)得很好,平均AUC達(dá)到90%。隨機(jī)森林模型(random forest)和支持向量機(jī)(SVM)模型性能最好。人工神經(jīng)網(wǎng)絡(luò)性能稍差的一個(gè)原因可能是數(shù)據(jù)太少,無法訓(xùn)練出較好的模型。圖3 機(jī)器學(xué)習(xí)分類模型的ROC曲線
機(jī)器學(xué)習(xí)分類模型的ROC曲線
【參考文獻(xiàn)】:
期刊論文
[1]基于靶蛋白共結(jié)晶藥效團(tuán)與分子對(duì)接的新型WEE1抑制劑的設(shè)計(jì)[J]. 和龍,羅小嬌,劉新琦,溫曉燕,王玲,歐陽亮,何俊. 華西藥學(xué)雜志. 2020(02)
[2]藤黃酸抗腫瘤作用機(jī)制及其納米制劑的研究進(jìn)展[J]. 白皎皎,陳新棉,曾代文,湯明海,童榮生,蔡璐璐. 華西藥學(xué)雜志. 2018(06)
[3]鼠尾草酚抗腫瘤活性機(jī)制的研究進(jìn)展[J]. 王威,宋洋. 華西藥學(xué)雜志. 2018(04)
[4]倍半萜內(nèi)酯類化合物抗腫瘤作用機(jī)制的研究進(jìn)展[J]. 朱華野,樸惠順. 華西藥學(xué)雜志. 2015(03)
本文編號(hào):3483836
本文鏈接:http://sikaile.net/yixuelunwen/yiyaoxuelunwen/3483836.html
最近更新
教材專著