【摘要】:隨著現(xiàn)代工業(yè)的不斷發(fā)展,人類生產(chǎn)生活等各方面也受到了一些影響,有些有機(jī)化合物對(duì)人類身體健康會(huì)造成一定的危害,因此人們?cè)絹碓疥P(guān)注有機(jī)化合物對(duì)人體造成的影響,也就進(jìn)一步促進(jìn)了對(duì)有機(jī)化合物性質(zhì)的研究。為了更好的對(duì)有機(jī)化合物的一些性質(zhì)進(jìn)行研究,同時(shí)減少動(dòng)物實(shí)驗(yàn)造成的一些不良后果以及節(jié)省對(duì)時(shí)間和金錢的消耗,采用定量構(gòu)效關(guān)系對(duì)有機(jī)化合物的性質(zhì)進(jìn)行研究顯得很有必要。在建立模型預(yù)測(cè)化合物性質(zhì)的過程中,將K-最近鄰(KNN:K-nearest neighbor)、K均值聚類(KMC:K-means clustering)以及投影尋蹤(PP:Projection Pursuit)三種分類方法和建模方法有效的結(jié)合,對(duì)部分有機(jī)化合物的致敏性和部分有機(jī)化合物的極性參數(shù)進(jìn)行定量結(jié)構(gòu)性質(zhì)相關(guān)(QSPR:Quantitative Structure-Property Relationship)的研究。本文中主要研究包括:(1)KNN、K均值聚類法和投影尋蹤三種分類方法對(duì)有機(jī)物致敏性進(jìn)行QSPR研究:文中從數(shù)據(jù)庫(kù)NTP(National Toxicology Program)中收集篩選出小鼠局部淋巴結(jié)實(shí)驗(yàn)(local lymph node assay,LLNA)186個(gè)具有相同載體的致敏性有機(jī)化合物的致敏性信息作為研究樣本,運(yùn)用軟件ADMEWORKS Model Builder計(jì)算和挑選描述符,然后對(duì)挑選出來的描述符進(jìn)行相對(duì)標(biāo)準(zhǔn)偏差的計(jì)算,最后篩選出7個(gè)結(jié)構(gòu)描述符作為樣本研究的結(jié)構(gòu)參量。將186個(gè)樣本應(yīng)用穩(wěn)健診斷方法進(jìn)行奇異值的剔除后剩余118個(gè)樣本,采用K-最近鄰、K均值聚類及投影尋蹤三種分類方法對(duì)118個(gè)樣本進(jìn)行分類,對(duì)分類得到的每一類樣本運(yùn)用球排除算法進(jìn)行訓(xùn)練集和測(cè)試集的劃分,最后應(yīng)用多元線性回歸(MLR:Multiple Linear Regression),偏最小二乘法(PLS:Partial Least Square)以及人工神經(jīng)網(wǎng)絡(luò)(ANN:Artificial Neural Networks)三種建模方法對(duì)樣本進(jìn)行預(yù)測(cè)。(2)KNN、K均值聚類和投影尋蹤三種分類方法對(duì)有機(jī)物極性參數(shù)進(jìn)行QSPR研究:結(jié)合從文獻(xiàn)中選擇出的250個(gè)有機(jī)物極性參數(shù)的樣本數(shù)據(jù),運(yùn)用軟件ADMEWORKS ModelBuilder計(jì)算篩選出7個(gè)結(jié)構(gòu)描述符作為樣本研究的結(jié)構(gòu)參量。將250個(gè)樣本應(yīng)用穩(wěn)健診斷方法進(jìn)行奇異值的剔除后剩余225個(gè)樣本,采用投影尋蹤、K-最近鄰以及K均值聚類三種分來方法對(duì)225個(gè)樣本進(jìn)行分類,對(duì)分類得到的每一類樣本運(yùn)用球排除算法進(jìn)行訓(xùn)練集和測(cè)試集的劃分,最后應(yīng)用三種建模方法對(duì)樣本進(jìn)行預(yù)測(cè)。(3)文中利用化合物的結(jié)構(gòu)相似度公式:cosθ=α·β/‖α‖·‖β‖,α和β分別代表兩個(gè)樣本的結(jié)構(gòu)描述符向量,‖α‖和‖β‖代表向量范數(shù)。相對(duì)標(biāo)準(zhǔn)偏差的公式為:RSD=(?)×100%,SD代表標(biāo)準(zhǔn)偏差。采用結(jié)構(gòu)相似度公式和相對(duì)標(biāo)準(zhǔn)偏差公式對(duì)有機(jī)物的致敏性和有機(jī)物的極性參數(shù)進(jìn)行結(jié)構(gòu)相似度和結(jié)構(gòu)相似度的相對(duì)標(biāo)準(zhǔn)偏差的計(jì)算。通過對(duì)比用于建模的化合物的結(jié)構(gòu)相似度以及相對(duì)標(biāo)準(zhǔn)偏差,來判斷化合物結(jié)構(gòu)相似度對(duì)建模結(jié)果的影響。(4)采用三種分分類方法對(duì)樣本進(jìn)行分類后,通過三種建模方法分別對(duì)樣本進(jìn)行建模預(yù)測(cè),將建模預(yù)測(cè)出來的結(jié)果和實(shí)驗(yàn)值用公式(Error=(∑(value_(pre)-value_(exp))~2)/N)計(jì)算兩組數(shù)據(jù)的誤差。這樣可以更為準(zhǔn)確的直觀的描述預(yù)測(cè)結(jié)果。有效地對(duì)比三種分類方法和三種建模方法的優(yōu)劣。根據(jù)以上QSPR的研究結(jié)果表明,三種分類方法都可以有效的改善模型的對(duì)有機(jī)物的致敏性樣本和有機(jī)物的極性參數(shù)樣本的預(yù)測(cè)。KNN和K均值聚類分類后會(huì)出現(xiàn)一類預(yù)測(cè)結(jié)果較好而另一類預(yù)測(cè)結(jié)果相對(duì)較差,而投影尋蹤分類之后的樣本化合物的預(yù)測(cè)結(jié)果均比未分類的化合物的預(yù)測(cè)結(jié)果好。從預(yù)測(cè)的結(jié)果來看,樣本化合物相似度較高的有機(jī)物極性參數(shù)的預(yù)測(cè)結(jié)果比樣本化合物相似度低的有機(jī)物致敏性的預(yù)測(cè)結(jié)果好。雖然樣本化合物的結(jié)構(gòu)相似度和預(yù)測(cè)的結(jié)果并無嚴(yán)格的關(guān)系,但分類改善化合物的相似度同時(shí)也有效的改善了建模的預(yù)測(cè)結(jié)果。
[Abstract]:......
【學(xué)位授予單位】:山西師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:O621.29
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 任偉;孔德信;;定量構(gòu)效關(guān)系研究中分子描述符的相關(guān)性[J];計(jì)算機(jī)與應(yīng)用化學(xué);2009年11期
2 張國(guó)文;潘軍輝;王福民;闕青民;;主成分回歸用于分光光度法同時(shí)測(cè)定6種食品添加劑[J];分析試驗(yàn)室;2007年07期
3 張麗平,俞歡軍,陳德釗,胡上序;基于粒子群優(yōu)化算法的神經(jīng)網(wǎng)絡(luò)在農(nóng)藥定量構(gòu)效關(guān)系建模中的應(yīng)用[J];分析化學(xué);2004年12期
4 張國(guó)文,倪永年,朱志懷;化學(xué)計(jì)量學(xué)——光度法在食品多組份分析中的應(yīng)用評(píng)述[J];食品科學(xué);2003年11期
5 許旋,羅一帆,徐志廣,趙軍,劉展眉;4H-甲基咪唑苯二氮(艸卓)酮類抗HIV-1藥物的量子化學(xué)研究[J];高等學(xué);瘜W(xué)學(xué)報(bào);2003年09期
6 陸光華,王超,包國(guó)章;芳香族化合物生物降解性的QSBR研究[J];化學(xué)通報(bào);2003年06期
7 倪永年,邱萍;電化學(xué)分析在有機(jī)農(nóng)藥殘留量分析中的應(yīng)用[J];分析測(cè)試學(xué)報(bào);2003年02期
8 屈凌波,相秉仁,安登魁;人工神經(jīng)網(wǎng)絡(luò)在中藥模式識(shí)別中的應(yīng)用[J];計(jì)算機(jī)與應(yīng)用化學(xué);2002年04期
相關(guān)博士學(xué)位論文 前1條
1 杜一平;化學(xué)數(shù)據(jù)挖掘新算法和定量構(gòu)性關(guān)系基礎(chǔ)研究[D];湖南大學(xué);2002年
相關(guān)碩士學(xué)位論文 前1條
1 楊彩蓉;基于KNN與K均值聚類模式識(shí)別方法的同系與非同系有機(jī)物的定量結(jié)構(gòu)毒性相關(guān)研究[D];山西師范大學(xué);2016年
,
本文編號(hào):
2252080
本文鏈接:http://sikaile.net/kejilunwen/huaxue/2252080.html