有機(jī)化合物對(duì)水生生物毒性的預(yù)測(cè)方法研究
發(fā)布時(shí)間:2021-10-14 13:48
隨著重工業(yè)以及水產(chǎn)養(yǎng)殖業(yè)的不斷發(fā)展,大量的有機(jī)污染物進(jìn)入到水環(huán)境中,對(duì)人類的健康以及水生系統(tǒng)造成了嚴(yán)重的危害。目前,機(jī)器學(xué)習(xí)方法可以有效地處理數(shù)據(jù)以及建立優(yōu)質(zhì)的模型。集成學(xué)習(xí)基于多個(gè)基分類器建立而成,它通常比任何單個(gè)模型的性能具有更好的預(yù)測(cè)能力。因此,本研究基于文獻(xiàn)搜集篩選的實(shí)驗(yàn)數(shù)據(jù),利用機(jī)器學(xué)習(xí)以及集成學(xué)習(xí)方法,對(duì)有機(jī)化合物的生物富集因子以及水生生物的急性毒性兩個(gè)指標(biāo)進(jìn)行預(yù)測(cè),進(jìn)而分析有機(jī)化合物對(duì)水生生物的毒性機(jī)理。在評(píng)估有機(jī)污染物對(duì)水生生態(tài)系統(tǒng)造成的風(fēng)險(xiǎn)方面,生物富集因子和半數(shù)致死濃度(LC50s)是十分關(guān)鍵的參數(shù)。目前,已經(jīng)開發(fā)了多種定量結(jié)構(gòu)-活性關(guān)系(quantitative structure-activity relationships,QSAR)模型來(lái)預(yù)測(cè)生物富集因子以及對(duì)水生生物的急性毒性進(jìn)行分類。在建立生物富集因子預(yù)測(cè)模型中,本文使用遞歸特征消除方法分別結(jié)合支持向量機(jī)和多元線性回歸算法開發(fā)了回歸模型。在回歸模型中,本文從包含500種不同化合物的數(shù)據(jù)集中計(jì)算出2D分子描述符。在急性毒性的分類預(yù)測(cè)中,本文使用三種機(jī)器學(xué)習(xí)算法構(gòu)建了三個(gè)集合模型,并且在...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1分類模型構(gòu)建過(guò)程流程圖
本研究也在圖 2-3 中繪制了三種集成模型評(píng)價(jià)結(jié)果的柱形圖。正如本章所期望的那樣,三種集成模型的準(zhǔn)確率以及 AUC 均高于同一種算法產(chǎn)生的 12 個(gè)基分類器。使用隨機(jī)森林、支持向量機(jī)以及極限梯度提升算法產(chǎn)生的集成模型的準(zhǔn)確率分別提高了 0.6%、1.2%和 1.3%,AUC 分別提高 0.001、0.009、0.007。很明顯,在預(yù)測(cè)水生生物的急性毒性方面,利用集成方法所構(gòu)建的模型具有一定的優(yōu)勢(shì)。表 2-5 集成模型在五折交叉驗(yàn)證以及外部驗(yàn)證中的預(yù)測(cè)性能Data set Ensemble models Acc (%) SE (%) SP (%) AUCTraining set Ensemble-RF 91.6 95.0 84.4 0.961Ensemble-SVM 92.2 95.1 86.0 0.965Ensemble-XGBoost 92.0 95.2 85.2 0.959Validation set Ensemble-RF 86.1 90.7 76.0 0.921Ensemble-SVM 87.3 92.6 76.0 0.940Ensemble-XGBoost 82.3 90.7 64.0 0.927Complete data set Ensemble-RF 95.8 97.8 91.4 0.991Ensemble-SVM 96.0 98.2 91.4 0.989Ensemble-XGBoost 95.3 98.2 89.1 0.991
圖 2-3 集合模型在五折交叉驗(yàn)證中的性能外,為了進(jìn)一步評(píng)估本研究構(gòu)建的集成模型的預(yù)測(cè)能力,集成模型行了外部驗(yàn)證。表 2-5 中,總結(jié)了不同集成模型在外部驗(yàn)證中的預(yù)明,無(wú)論是在五折交叉驗(yàn)證中,還是利用測(cè)試集進(jìn)行外部le-SVM 模型的準(zhǔn)確率以及 AUC 值都是最高的,準(zhǔn)確率分別 AUC 值分別為 0.965 和 0.940。這表明 Ensemble-SVM 模型在水毒性預(yù)測(cè)中具備更加穩(wěn)定、準(zhǔn)確的分類性能。論類模型與以往方法比較過(guò)去幾年,已經(jīng)有學(xué)者針對(duì)水生生物的急性毒性開發(fā)了分類預(yù)測(cè)模
【參考文獻(xiàn)】:
期刊論文
[1]零膨脹計(jì)數(shù)數(shù)據(jù)回歸模型的選擇與比較及R語(yǔ)言的實(shí)現(xiàn)[J]. 劉振球,嚴(yán)瓊,左佳鷺,方綺雯,張鐵軍. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2018(02)
[2]QSAR方法的研究進(jìn)展及其應(yīng)用[J]. 趙亞玲,黃方. 毒理學(xué)雜志. 2017(03)
[3]隨機(jī)森林算法在生物信息學(xué)中的應(yīng)用研究[J]. 馮潔. 電腦知識(shí)與技術(shù). 2017(10)
[4]氯及溴代苯化合物生物富集因子預(yù)測(cè)[J]. 饒凡,黃茜,廖立敏. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[5]高維DNA甲基化數(shù)據(jù)的隨機(jī)森林降維分析[J]. 張秋伊,趙楊,魏永越,張汝陽(yáng),陳峰. 中華疾病控制雜志. 2016(06)
[6]機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J]. 張潤(rùn),王永濱. 中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[7]基于隨機(jī)森林算法對(duì)蛋白質(zhì)相互作用的識(shí)別和預(yù)測(cè)[J]. 董婷. 自動(dòng)化與儀器儀表. 2015(11)
[8]有機(jī)污染物在魚體內(nèi)臨界濃度研究進(jìn)展[J]. 邰紅巍,聞洋,蘇麗敏,趙元慧. 科學(xué)通報(bào). 2015(19)
[9]回歸模型篩選準(zhǔn)則及方法比較研究[J]. 楊泱. 昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[10]水生生物急性毒性QSAR模型研究進(jìn)展[J]. 劉羽晨,喬顯亮. 生態(tài)毒理學(xué)報(bào). 2015(02)
博士論文
[1]基于組學(xué)數(shù)據(jù)的模擬空間環(huán)境健康監(jiān)測(cè)及其應(yīng)用研究[D]. 李旭.哈爾濱工業(yè)大學(xué) 2016
[2]有機(jī)污染物生物富集與魚體內(nèi)臨界濃度關(guān)系的研究[D]. 聞洋.東北師范大學(xué) 2015
[3]基于OECD準(zhǔn)則對(duì)QSAR/QSPR模型幾個(gè)重要問(wèn)題的研究[D]. 陳憲.中南大學(xué) 2013
[4]基于機(jī)器學(xué)習(xí)的A型流感病毒跨種傳播和抗原關(guān)系預(yù)測(cè)研究[D]. 王佳.華中科技大學(xué) 2012
[5]計(jì)算機(jī)輔助藥物和蛋白性質(zhì)預(yù)測(cè)研究[D]. 席莉莉.蘭州大學(xué) 2010
[6]QSAR研究在生命分析化學(xué)和環(huán)境化學(xué)中的應(yīng)用[D]. 趙春燕.蘭州大學(xué) 2006
碩士論文
[1]機(jī)器學(xué)習(xí)方法在生物信息學(xué)中的應(yīng)用[D]. 楊閆.渤海大學(xué) 2014
[2]有機(jī)化學(xué)品魚類生物富集因子QSAR模型的構(gòu)建[D]. 鄭玉婷.大連理工大學(xué) 2014
[3]化合物致突變預(yù)測(cè)模型以及定量回歸工作流程的構(gòu)建[D]. 徐聰穎.華東理工大學(xué) 2013
[4]半監(jiān)督特征選擇和特征選擇的穩(wěn)定性研究[D]. 陳東.上海交通大學(xué) 2013
本文編號(hào):3436280
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1分類模型構(gòu)建過(guò)程流程圖
本研究也在圖 2-3 中繪制了三種集成模型評(píng)價(jià)結(jié)果的柱形圖。正如本章所期望的那樣,三種集成模型的準(zhǔn)確率以及 AUC 均高于同一種算法產(chǎn)生的 12 個(gè)基分類器。使用隨機(jī)森林、支持向量機(jī)以及極限梯度提升算法產(chǎn)生的集成模型的準(zhǔn)確率分別提高了 0.6%、1.2%和 1.3%,AUC 分別提高 0.001、0.009、0.007。很明顯,在預(yù)測(cè)水生生物的急性毒性方面,利用集成方法所構(gòu)建的模型具有一定的優(yōu)勢(shì)。表 2-5 集成模型在五折交叉驗(yàn)證以及外部驗(yàn)證中的預(yù)測(cè)性能Data set Ensemble models Acc (%) SE (%) SP (%) AUCTraining set Ensemble-RF 91.6 95.0 84.4 0.961Ensemble-SVM 92.2 95.1 86.0 0.965Ensemble-XGBoost 92.0 95.2 85.2 0.959Validation set Ensemble-RF 86.1 90.7 76.0 0.921Ensemble-SVM 87.3 92.6 76.0 0.940Ensemble-XGBoost 82.3 90.7 64.0 0.927Complete data set Ensemble-RF 95.8 97.8 91.4 0.991Ensemble-SVM 96.0 98.2 91.4 0.989Ensemble-XGBoost 95.3 98.2 89.1 0.991
圖 2-3 集合模型在五折交叉驗(yàn)證中的性能外,為了進(jìn)一步評(píng)估本研究構(gòu)建的集成模型的預(yù)測(cè)能力,集成模型行了外部驗(yàn)證。表 2-5 中,總結(jié)了不同集成模型在外部驗(yàn)證中的預(yù)明,無(wú)論是在五折交叉驗(yàn)證中,還是利用測(cè)試集進(jìn)行外部le-SVM 模型的準(zhǔn)確率以及 AUC 值都是最高的,準(zhǔn)確率分別 AUC 值分別為 0.965 和 0.940。這表明 Ensemble-SVM 模型在水毒性預(yù)測(cè)中具備更加穩(wěn)定、準(zhǔn)確的分類性能。論類模型與以往方法比較過(guò)去幾年,已經(jīng)有學(xué)者針對(duì)水生生物的急性毒性開發(fā)了分類預(yù)測(cè)模
【參考文獻(xiàn)】:
期刊論文
[1]零膨脹計(jì)數(shù)數(shù)據(jù)回歸模型的選擇與比較及R語(yǔ)言的實(shí)現(xiàn)[J]. 劉振球,嚴(yán)瓊,左佳鷺,方綺雯,張鐵軍. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2018(02)
[2]QSAR方法的研究進(jìn)展及其應(yīng)用[J]. 趙亞玲,黃方. 毒理學(xué)雜志. 2017(03)
[3]隨機(jī)森林算法在生物信息學(xué)中的應(yīng)用研究[J]. 馮潔. 電腦知識(shí)與技術(shù). 2017(10)
[4]氯及溴代苯化合物生物富集因子預(yù)測(cè)[J]. 饒凡,黃茜,廖立敏. 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[5]高維DNA甲基化數(shù)據(jù)的隨機(jī)森林降維分析[J]. 張秋伊,趙楊,魏永越,張汝陽(yáng),陳峰. 中華疾病控制雜志. 2016(06)
[6]機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J]. 張潤(rùn),王永濱. 中國(guó)傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(02)
[7]基于隨機(jī)森林算法對(duì)蛋白質(zhì)相互作用的識(shí)別和預(yù)測(cè)[J]. 董婷. 自動(dòng)化與儀器儀表. 2015(11)
[8]有機(jī)污染物在魚體內(nèi)臨界濃度研究進(jìn)展[J]. 邰紅巍,聞洋,蘇麗敏,趙元慧. 科學(xué)通報(bào). 2015(19)
[9]回歸模型篩選準(zhǔn)則及方法比較研究[J]. 楊泱. 昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(03)
[10]水生生物急性毒性QSAR模型研究進(jìn)展[J]. 劉羽晨,喬顯亮. 生態(tài)毒理學(xué)報(bào). 2015(02)
博士論文
[1]基于組學(xué)數(shù)據(jù)的模擬空間環(huán)境健康監(jiān)測(cè)及其應(yīng)用研究[D]. 李旭.哈爾濱工業(yè)大學(xué) 2016
[2]有機(jī)污染物生物富集與魚體內(nèi)臨界濃度關(guān)系的研究[D]. 聞洋.東北師范大學(xué) 2015
[3]基于OECD準(zhǔn)則對(duì)QSAR/QSPR模型幾個(gè)重要問(wèn)題的研究[D]. 陳憲.中南大學(xué) 2013
[4]基于機(jī)器學(xué)習(xí)的A型流感病毒跨種傳播和抗原關(guān)系預(yù)測(cè)研究[D]. 王佳.華中科技大學(xué) 2012
[5]計(jì)算機(jī)輔助藥物和蛋白性質(zhì)預(yù)測(cè)研究[D]. 席莉莉.蘭州大學(xué) 2010
[6]QSAR研究在生命分析化學(xué)和環(huán)境化學(xué)中的應(yīng)用[D]. 趙春燕.蘭州大學(xué) 2006
碩士論文
[1]機(jī)器學(xué)習(xí)方法在生物信息學(xué)中的應(yīng)用[D]. 楊閆.渤海大學(xué) 2014
[2]有機(jī)化學(xué)品魚類生物富集因子QSAR模型的構(gòu)建[D]. 鄭玉婷.大連理工大學(xué) 2014
[3]化合物致突變預(yù)測(cè)模型以及定量回歸工作流程的構(gòu)建[D]. 徐聰穎.華東理工大學(xué) 2013
[4]半監(jiān)督特征選擇和特征選擇的穩(wěn)定性研究[D]. 陳東.上海交通大學(xué) 2013
本文編號(hào):3436280
本文鏈接:http://sikaile.net/kejilunwen/huanjinggongchenglunwen/3436280.html
最近更新
教材專著