聚腺苷二磷酸核糖聚合酶-1抑制劑的構(gòu)效關(guān)系研究
發(fā)布時(shí)間:2021-06-13 18:55
聚腺苷二磷酸核糖聚合酶-1[poly(ADP-ribose)polymerase,PARP-1]是PARP家族中承擔(dān)功能最多且研究最多的亞型,被認(rèn)為是癌癥治療的潛在靶點(diǎn)。PARP-1參與真核細(xì)胞中DNA修復(fù)和細(xì)胞死亡的調(diào)節(jié),它是乳腺癌、卵巢癌和前列腺癌等疾病研究的重要靶點(diǎn)。本論文以PARP-1的抑制劑為研究對(duì)象,利用多種機(jī)器學(xué)習(xí)算法對(duì)PARP-1抑制劑進(jìn)行高低活性分類研究、分子骨架聚類研究以及生物活性的定量構(gòu)效關(guān)系研究。本研究的具體工作內(nèi)容如下:(1)采用支持向量機(jī)(SVM)和隨機(jī)森林(RF)算法構(gòu)建了 PARP-1抑制劑的高低活性分類模型。本文首次建立了包含2416個(gè)PARP-1抑制劑的數(shù)據(jù)庫,IC50值在0.21 nM到210000 nM左右。以50~500 nM為閾值來劃分高低活性:即活性值小于或等于50 nM的化合物為高活性化合物,大于或等于500nM的為低活性化合物,在二者之間的化合物舍去,得到了包含1637個(gè)高低活性化合物的數(shù)據(jù)集。通過隨機(jī)分層抽樣的方式將1637個(gè)化合物劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集的1227個(gè)化合物用于建立模型,而測(cè)試集中的410個(gè)化合物用于驗(yàn)證所建模型的...
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1?PARP-1的生物結(jié)構(gòu)示意圖??.-uarmanrcture-
為不同的小類,目的是發(fā)現(xiàn)高活性PARP-1抑制劑的分子骨架。??2.1建立PARP-1抑制劑數(shù)據(jù)庫??2.1.1數(shù)據(jù)收集??通過檢索ChEMBlJ3'Reaxy、SciFinder[38]等數(shù)據(jù)庫來下載相關(guān)文獻(xiàn),收集了?2675??個(gè)PARP-1抑制劑[4,28,29,32_34,37_134卩經(jīng)過數(shù)據(jù)的清洗、去重,最終得到包含2416個(gè)化??合物的PARP-1抑制劑數(shù)據(jù)庫,它們的生物活性IC5〇(半數(shù)抑制濃度)值在0.21?nM到??210000nM范圍內(nèi),化合物的生物活性值分布如圖2-1所示。由于數(shù)據(jù)來源于多篇文??獻(xiàn),所以測(cè)定IC5〇值的實(shí)驗(yàn)方法不盡相同,即使同一種實(shí)驗(yàn)方法,不同實(shí)驗(yàn)室測(cè)得的??數(shù)據(jù)也會(huì)有偏差,故在數(shù)據(jù)清洗時(shí)將針對(duì)一個(gè)化合物使用同一種實(shí)驗(yàn)方法測(cè)得的活性??值相差2個(gè)數(shù)量級(jí)的化合物刪除。??4.0%?Fj? ̄??>,3.0%?n??s?1?州?r?n?n?n??12.0%?n?J?'?_mr?-j-r??l?r?-T?n ̄i??Um?-?-j-,??1.0%?[run-?_T?_?r??〇?〇%?Lr-—ni.?111111...U?I?I?1J...IJ?1,1?]J,lLjJi.,lmlJJJ,l,j-[川丨[1,1?IHI?klli?__—??10?10?10?10?10?10?10??Activity?Value?(ICs〇/nM)??圖2-1所有化合物IC5〇值頻率分布直方圖??Fig.?2-1?The?frequency?distribution?histogram?of?IC50?values?of?all?compounds??11?
分高低活性,即活性值小于或等于50?nM的化合物為高活性化合物,標(biāo)??記為‘1’;大于或等于500?nM的為低活性化合物,標(biāo)記為‘0’,IC5〇在二者之間的??化合物不用于建模,此時(shí)的數(shù)據(jù)集由1637個(gè)化合物組成。??為了觀察兩個(gè)閾值劃分的情況,計(jì)算了化合物的166個(gè)MACCS描述符[1351作為??輸入特征向量,通過SONNIA程序的Kohonen自組織映射[136]?(Self-Organizing?Map,??SOM)將高維空間中的點(diǎn)映射到二維平面,并在降維之后進(jìn)行無監(jiān)督聚類,如圖2-2??所示,綠色方格代表落在此坐標(biāo)格中的化合物都是低活性,紅色的代表化合物都是高??活性,黑色的代表此坐標(biāo)格中高低活性化合物都有,白色區(qū)域表示沒有化合物。從圖??中可以看出,在兩種閾值下高低活性化合物分布都沒有出現(xiàn)特別集中的情況,且沖突??的格子較多,這應(yīng)該是數(shù)據(jù)本身的原因。由于單個(gè)閾值沒有辦法確定閾值左右化合物??的高低活性,所以后續(xù)選擇了以50?nM和500?nM為閾值來完成高低活性分類實(shí)驗(yàn)。??I?嗔—v?—Ji—?_??i?m-r::::: ̄■—i?/?"\r,??None?weaklyactive?highlyactive?confilict?None?weaklyactive?highlyactive?confilict??圖2-2利用自組織神經(jīng)網(wǎng)絡(luò)算法聚類圖:紅色和綠色分別表示高活性和低活性,黑色表示既??有高活性又有低活性化合物(左)包含2178?jìng)(gè)化合物,閾值為lOOnM?;(右)包含1637??個(gè)化合物,閾值為50和500?nM??Fig.?2-2?Cluster?graph?with?self-organ
【參考文獻(xiàn)】:
期刊論文
[1]自適應(yīng)確定DBSCAN算法參數(shù)的算法研究[J]. 李文杰,閆世強(qiáng),蔣瑩,張松芝,王成良. 計(jì)算機(jī)工程與應(yīng)用. 2019(05)
博士論文
[1]PARP抑制劑抗腫瘤機(jī)制和耐藥機(jī)制研究[D]. 陳華東.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院上海藥物研究所) 2019
碩士論文
[1]非胰腺分泌型磷脂酶A2抑制劑的構(gòu)效關(guān)系研究[D]. 張聲德.北京化工大學(xué) 2019
本文編號(hào):3228127
【文章來源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1?PARP-1的生物結(jié)構(gòu)示意圖??.-uarmanrcture-
為不同的小類,目的是發(fā)現(xiàn)高活性PARP-1抑制劑的分子骨架。??2.1建立PARP-1抑制劑數(shù)據(jù)庫??2.1.1數(shù)據(jù)收集??通過檢索ChEMBlJ3'Reaxy、SciFinder[38]等數(shù)據(jù)庫來下載相關(guān)文獻(xiàn),收集了?2675??個(gè)PARP-1抑制劑[4,28,29,32_34,37_134卩經(jīng)過數(shù)據(jù)的清洗、去重,最終得到包含2416個(gè)化??合物的PARP-1抑制劑數(shù)據(jù)庫,它們的生物活性IC5〇(半數(shù)抑制濃度)值在0.21?nM到??210000nM范圍內(nèi),化合物的生物活性值分布如圖2-1所示。由于數(shù)據(jù)來源于多篇文??獻(xiàn),所以測(cè)定IC5〇值的實(shí)驗(yàn)方法不盡相同,即使同一種實(shí)驗(yàn)方法,不同實(shí)驗(yàn)室測(cè)得的??數(shù)據(jù)也會(huì)有偏差,故在數(shù)據(jù)清洗時(shí)將針對(duì)一個(gè)化合物使用同一種實(shí)驗(yàn)方法測(cè)得的活性??值相差2個(gè)數(shù)量級(jí)的化合物刪除。??4.0%?Fj? ̄??>,3.0%?n??s?1?州?r?n?n?n??12.0%?n?J?'?_mr?-j-r??l?r?-T?n ̄i??Um?-?-j-,??1.0%?[run-?_T?_?r??〇?〇%?Lr-—ni.?111111...U?I?I?1J...IJ?1,1?]J,lLjJi.,lmlJJJ,l,j-[川丨[1,1?IHI?klli?__—??10?10?10?10?10?10?10??Activity?Value?(ICs〇/nM)??圖2-1所有化合物IC5〇值頻率分布直方圖??Fig.?2-1?The?frequency?distribution?histogram?of?IC50?values?of?all?compounds??11?
分高低活性,即活性值小于或等于50?nM的化合物為高活性化合物,標(biāo)??記為‘1’;大于或等于500?nM的為低活性化合物,標(biāo)記為‘0’,IC5〇在二者之間的??化合物不用于建模,此時(shí)的數(shù)據(jù)集由1637個(gè)化合物組成。??為了觀察兩個(gè)閾值劃分的情況,計(jì)算了化合物的166個(gè)MACCS描述符[1351作為??輸入特征向量,通過SONNIA程序的Kohonen自組織映射[136]?(Self-Organizing?Map,??SOM)將高維空間中的點(diǎn)映射到二維平面,并在降維之后進(jìn)行無監(jiān)督聚類,如圖2-2??所示,綠色方格代表落在此坐標(biāo)格中的化合物都是低活性,紅色的代表化合物都是高??活性,黑色的代表此坐標(biāo)格中高低活性化合物都有,白色區(qū)域表示沒有化合物。從圖??中可以看出,在兩種閾值下高低活性化合物分布都沒有出現(xiàn)特別集中的情況,且沖突??的格子較多,這應(yīng)該是數(shù)據(jù)本身的原因。由于單個(gè)閾值沒有辦法確定閾值左右化合物??的高低活性,所以后續(xù)選擇了以50?nM和500?nM為閾值來完成高低活性分類實(shí)驗(yàn)。??I?嗔—v?—Ji—?_??i?m-r::::: ̄■—i?/?"\r,??None?weaklyactive?highlyactive?confilict?None?weaklyactive?highlyactive?confilict??圖2-2利用自組織神經(jīng)網(wǎng)絡(luò)算法聚類圖:紅色和綠色分別表示高活性和低活性,黑色表示既??有高活性又有低活性化合物(左)包含2178?jìng)(gè)化合物,閾值為lOOnM?;(右)包含1637??個(gè)化合物,閾值為50和500?nM??Fig.?2-2?Cluster?graph?with?self-organ
【參考文獻(xiàn)】:
期刊論文
[1]自適應(yīng)確定DBSCAN算法參數(shù)的算法研究[J]. 李文杰,閆世強(qiáng),蔣瑩,張松芝,王成良. 計(jì)算機(jī)工程與應(yīng)用. 2019(05)
博士論文
[1]PARP抑制劑抗腫瘤機(jī)制和耐藥機(jī)制研究[D]. 陳華東.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院上海藥物研究所) 2019
碩士論文
[1]非胰腺分泌型磷脂酶A2抑制劑的構(gòu)效關(guān)系研究[D]. 張聲德.北京化工大學(xué) 2019
本文編號(hào):3228127
本文鏈接:http://sikaile.net/projectlw/hxgylw/3228127.html
最近更新
教材專著