基于深度學(xué)習(xí)的化合物逆合成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-02 06:14
逆合成分析系統(tǒng)在藥物設(shè)計(jì)和材料應(yīng)用等諸多領(lǐng)域有著重要作用,從20世紀(jì)中期開始越來越多的研究者投入到該領(lǐng)域的研究中。近年來深度學(xué)習(xí)的迅猛發(fā)展給許多領(lǐng)域都帶來了里程碑式的提升,其中處理歐幾里德數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò)自2009年首次提出后,至今有了長足的發(fā)展。而化學(xué)分子是典型的圖結(jié)構(gòu)數(shù)據(jù),以往的逆合成分析系統(tǒng)或是基于規(guī)則的專家系統(tǒng)或是基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,本文嘗試以圖神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)并結(jié)合最近新發(fā)布的化學(xué)分子開源處理工具來對(duì)化學(xué)分子進(jìn)行處理。同時(shí)受轟動(dòng)一時(shí)的AlphaGo啟發(fā),利用蒙特卡洛樹搜索技術(shù)在龐大的分解樹空間中找到一條滿足需要的逆分解路徑,并達(dá)到一種計(jì)算資源開銷與搜索效果的平衡。本文最終實(shí)現(xiàn)了整體系統(tǒng)并對(duì)兩部分方法進(jìn)行了測(cè)試,全文主要研究內(nèi)容如下。設(shè)計(jì)并實(shí)現(xiàn)單步逆分解方法,這是整個(gè)逆合成系統(tǒng)的基礎(chǔ)部分。該方法以圖神經(jīng)網(wǎng)絡(luò)為核心,輸入一個(gè)目標(biāo)分子,最終得到該目標(biāo)分子適用的反應(yīng)模板列表。此方法仍以化學(xué)規(guī)則為基礎(chǔ),但是規(guī)則不再是由人工編碼而是由開源工具根據(jù)進(jìn)行過原子序號(hào)匹配的反應(yīng)自動(dòng)提取。以規(guī)則為基礎(chǔ)的模型執(zhí)行逆分解得到的分子能夠比較好地避免出現(xiàn)不符合化學(xué)規(guī)律的“錯(cuò)誤”分子的情況。同時(shí)使用圖神經(jīng)網(wǎng)...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
逆分解方案演示圖
第二章相關(guān)理論與技術(shù)圖2-3蒙特卡洛樹主要步驟圖和對(duì)少數(shù)模擬移動(dòng)的探索,這二者中保持某種平衡。第一個(gè)在游戲中平衡利用與探索的公式被稱為UCT(UpperConfidenceBoundstoTrees,上限置信區(qū)間算法),由匈牙利國家科學(xué)院計(jì)算機(jī)與自動(dòng)化研究所高級(jí)研究員列文特·科奇什與阿爾伯塔大學(xué)全職教授喬鮑·塞派什瓦里提出[22]。UCT基于奧爾(Auer)、西薩-比安奇(Cesa-Bianchi)和費(fèi)舍爾(Fischer)提出的UCB1公式[25],并首次由馬庫斯等人應(yīng)用于多級(jí)決策模型(具體為馬爾可夫決策過程)[26]?破媸埠腿墒餐呃锝ㄗh選擇游戲樹中的每個(gè)結(jié)點(diǎn)移動(dòng),從而使表達(dá)式wini+clnTni最大值。在該式中:wi代表第次移動(dòng)后取勝的次數(shù)ni代表第次移動(dòng)后仿真的次數(shù)c為探索參數(shù)—理論上等于√2,在實(shí)際中通常可憑經(jīng)驗(yàn)選擇t代表仿真總次數(shù),等于所有ni的和大多數(shù)當(dāng)代蒙特卡洛樹搜索的實(shí)現(xiàn)都是基于UCT的一些變形。2.5計(jì)算機(jī)化學(xué)相關(guān)工具包2.5.1RDKITRDKIT[27]是計(jì)算機(jī)化學(xué)領(lǐng)域使用最為廣泛的工具包之一,它對(duì)Python語言支持良好。在后續(xù)階段需要RDKIT來將SMILES字符串轉(zhuǎn)化內(nèi)部的mol結(jié)構(gòu)類型。mol結(jié)構(gòu)類型可以進(jìn)行SMILES格式的讀取與輸出,并且能夠獲取規(guī)范smiles,19
第三章單步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1這種簡(jiǎn)化之后的反應(yīng)除去了顯式的氫原子和原子序號(hào),但分支結(jié)構(gòu)、環(huán)信息和芳香性等都保留了下來,因而可讀性更強(qiáng)。使用OpenBabelGui工具將上述反應(yīng)圖形表示的結(jié)果如圖3-1。圖3-1反應(yīng)過程展示圖在不失一般性的情況下,我們只考慮多個(gè)反應(yīng)物得到一個(gè)產(chǎn)物的反應(yīng)數(shù)據(jù),因?yàn)槎鄠(gè)反應(yīng)物得到多個(gè)產(chǎn)物的反應(yīng)可以分解為上述情況的疊加。文中使用的整個(gè)數(shù)據(jù)集大約包含5萬條這種格式的反應(yīng),主要集中在有機(jī)化學(xué)范疇中。從數(shù)據(jù)量的角度來說5萬條數(shù)據(jù)能夠比較好地支撐后續(xù)工作的開展,但并不保證涵蓋所有常用的有機(jī)合成反應(yīng)。3.1.1反應(yīng)數(shù)據(jù)的選取原則有了足夠多類似圖3-1中的正向反應(yīng)之后,目前能實(shí)現(xiàn)的也僅僅是利用RDKIT和Indigo等開源工具進(jìn)行反應(yīng)物到產(chǎn)物的轉(zhuǎn)換,這種轉(zhuǎn)換我們稱作正向轉(zhuǎn)換。要實(shí)現(xiàn)逆合成分解的另一個(gè)基礎(chǔ)是能夠進(jìn)行產(chǎn)物到一個(gè)或多個(gè)反應(yīng)物的轉(zhuǎn)換,類似地這種轉(zhuǎn)換我們稱之為逆向轉(zhuǎn)換。23
【參考文獻(xiàn)】:
期刊論文
[1]科技政策庫的系統(tǒng)集成與建設(shè)[J]. 武虹,楊寶龍,杜治高,李涵露. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(07)
[2]科里教授和逆合成分析法[J]. 張霽. 化學(xué)教育. 1992(01)
[3]科里教授的合成藝術(shù)——兼述逆合成分析原理[J]. 張霽,尹承烈. 化學(xué)通報(bào). 1991(09)
本文編號(hào):3058765
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
逆分解方案演示圖
第二章相關(guān)理論與技術(shù)圖2-3蒙特卡洛樹主要步驟圖和對(duì)少數(shù)模擬移動(dòng)的探索,這二者中保持某種平衡。第一個(gè)在游戲中平衡利用與探索的公式被稱為UCT(UpperConfidenceBoundstoTrees,上限置信區(qū)間算法),由匈牙利國家科學(xué)院計(jì)算機(jī)與自動(dòng)化研究所高級(jí)研究員列文特·科奇什與阿爾伯塔大學(xué)全職教授喬鮑·塞派什瓦里提出[22]。UCT基于奧爾(Auer)、西薩-比安奇(Cesa-Bianchi)和費(fèi)舍爾(Fischer)提出的UCB1公式[25],并首次由馬庫斯等人應(yīng)用于多級(jí)決策模型(具體為馬爾可夫決策過程)[26]?破媸埠腿墒餐呃锝ㄗh選擇游戲樹中的每個(gè)結(jié)點(diǎn)移動(dòng),從而使表達(dá)式wini+clnTni最大值。在該式中:wi代表第次移動(dòng)后取勝的次數(shù)ni代表第次移動(dòng)后仿真的次數(shù)c為探索參數(shù)—理論上等于√2,在實(shí)際中通常可憑經(jīng)驗(yàn)選擇t代表仿真總次數(shù),等于所有ni的和大多數(shù)當(dāng)代蒙特卡洛樹搜索的實(shí)現(xiàn)都是基于UCT的一些變形。2.5計(jì)算機(jī)化學(xué)相關(guān)工具包2.5.1RDKITRDKIT[27]是計(jì)算機(jī)化學(xué)領(lǐng)域使用最為廣泛的工具包之一,它對(duì)Python語言支持良好。在后續(xù)階段需要RDKIT來將SMILES字符串轉(zhuǎn)化內(nèi)部的mol結(jié)構(gòu)類型。mol結(jié)構(gòu)類型可以進(jìn)行SMILES格式的讀取與輸出,并且能夠獲取規(guī)范smiles,19
第三章單步逆分解方法.CC(C)(C)c1noc(N2CCC(NC3CC3)CC2)n1CC(C)(C)c1noc(N2CCC(N(C(=O)c3cc(-c4ccc(C#N)cc4F)no3)C3CC3)CC2)n1這種簡(jiǎn)化之后的反應(yīng)除去了顯式的氫原子和原子序號(hào),但分支結(jié)構(gòu)、環(huán)信息和芳香性等都保留了下來,因而可讀性更強(qiáng)。使用OpenBabelGui工具將上述反應(yīng)圖形表示的結(jié)果如圖3-1。圖3-1反應(yīng)過程展示圖在不失一般性的情況下,我們只考慮多個(gè)反應(yīng)物得到一個(gè)產(chǎn)物的反應(yīng)數(shù)據(jù),因?yàn)槎鄠(gè)反應(yīng)物得到多個(gè)產(chǎn)物的反應(yīng)可以分解為上述情況的疊加。文中使用的整個(gè)數(shù)據(jù)集大約包含5萬條這種格式的反應(yīng),主要集中在有機(jī)化學(xué)范疇中。從數(shù)據(jù)量的角度來說5萬條數(shù)據(jù)能夠比較好地支撐后續(xù)工作的開展,但并不保證涵蓋所有常用的有機(jī)合成反應(yīng)。3.1.1反應(yīng)數(shù)據(jù)的選取原則有了足夠多類似圖3-1中的正向反應(yīng)之后,目前能實(shí)現(xiàn)的也僅僅是利用RDKIT和Indigo等開源工具進(jìn)行反應(yīng)物到產(chǎn)物的轉(zhuǎn)換,這種轉(zhuǎn)換我們稱作正向轉(zhuǎn)換。要實(shí)現(xiàn)逆合成分解的另一個(gè)基礎(chǔ)是能夠進(jìn)行產(chǎn)物到一個(gè)或多個(gè)反應(yīng)物的轉(zhuǎn)換,類似地這種轉(zhuǎn)換我們稱之為逆向轉(zhuǎn)換。23
【參考文獻(xiàn)】:
期刊論文
[1]科技政策庫的系統(tǒng)集成與建設(shè)[J]. 武虹,楊寶龍,杜治高,李涵露. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(07)
[2]科里教授和逆合成分析法[J]. 張霽. 化學(xué)教育. 1992(01)
[3]科里教授的合成藝術(shù)——兼述逆合成分析原理[J]. 張霽,尹承烈. 化學(xué)通報(bào). 1991(09)
本文編號(hào):3058765
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3058765.html
最近更新
教材專著