有機化合物對水生生物毒性的預測方法研究
發(fā)布時間:2021-10-14 13:48
隨著重工業(yè)以及水產(chǎn)養(yǎng)殖業(yè)的不斷發(fā)展,大量的有機污染物進入到水環(huán)境中,對人類的健康以及水生系統(tǒng)造成了嚴重的危害。目前,機器學習方法可以有效地處理數(shù)據(jù)以及建立優(yōu)質(zhì)的模型。集成學習基于多個基分類器建立而成,它通常比任何單個模型的性能具有更好的預測能力。因此,本研究基于文獻搜集篩選的實驗數(shù)據(jù),利用機器學習以及集成學習方法,對有機化合物的生物富集因子以及水生生物的急性毒性兩個指標進行預測,進而分析有機化合物對水生生物的毒性機理。在評估有機污染物對水生生態(tài)系統(tǒng)造成的風險方面,生物富集因子和半數(shù)致死濃度(LC50s)是十分關(guān)鍵的參數(shù)。目前,已經(jīng)開發(fā)了多種定量結(jié)構(gòu)-活性關(guān)系(quantitative structure-activity relationships,QSAR)模型來預測生物富集因子以及對水生生物的急性毒性進行分類。在建立生物富集因子預測模型中,本文使用遞歸特征消除方法分別結(jié)合支持向量機和多元線性回歸算法開發(fā)了回歸模型。在回歸模型中,本文從包含500種不同化合物的數(shù)據(jù)集中計算出2D分子描述符。在急性毒性的分類預測中,本文使用三種機器學習算法構(gòu)建了三個集合模型,并且在...
【文章來源】:遼寧大學遼寧省 211工程院校
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
圖2-1分類模型構(gòu)建過程流程圖
本研究也在圖 2-3 中繪制了三種集成模型評價結(jié)果的柱形圖。正如本章所期望的那樣,三種集成模型的準確率以及 AUC 均高于同一種算法產(chǎn)生的 12 個基分類器。使用隨機森林、支持向量機以及極限梯度提升算法產(chǎn)生的集成模型的準確率分別提高了 0.6%、1.2%和 1.3%,AUC 分別提高 0.001、0.009、0.007。很明顯,在預測水生生物的急性毒性方面,利用集成方法所構(gòu)建的模型具有一定的優(yōu)勢。表 2-5 集成模型在五折交叉驗證以及外部驗證中的預測性能Data set Ensemble models Acc (%) SE (%) SP (%) AUCTraining set Ensemble-RF 91.6 95.0 84.4 0.961Ensemble-SVM 92.2 95.1 86.0 0.965Ensemble-XGBoost 92.0 95.2 85.2 0.959Validation set Ensemble-RF 86.1 90.7 76.0 0.921Ensemble-SVM 87.3 92.6 76.0 0.940Ensemble-XGBoost 82.3 90.7 64.0 0.927Complete data set Ensemble-RF 95.8 97.8 91.4 0.991Ensemble-SVM 96.0 98.2 91.4 0.989Ensemble-XGBoost 95.3 98.2 89.1 0.991
圖 2-3 集合模型在五折交叉驗證中的性能外,為了進一步評估本研究構(gòu)建的集成模型的預測能力,集成模型行了外部驗證。表 2-5 中,總結(jié)了不同集成模型在外部驗證中的預明,無論是在五折交叉驗證中,還是利用測試集進行外部le-SVM 模型的準確率以及 AUC 值都是最高的,準確率分別 AUC 值分別為 0.965 和 0.940。這表明 Ensemble-SVM 模型在水毒性預測中具備更加穩(wěn)定、準確的分類性能。論類模型與以往方法比較過去幾年,已經(jīng)有學者針對水生生物的急性毒性開發(fā)了分類預測模
【參考文獻】:
期刊論文
[1]零膨脹計數(shù)數(shù)據(jù)回歸模型的選擇與比較及R語言的實現(xiàn)[J]. 劉振球,嚴瓊,左佳鷺,方綺雯,張鐵軍. 中國衛(wèi)生統(tǒng)計. 2018(02)
[2]QSAR方法的研究進展及其應用[J]. 趙亞玲,黃方. 毒理學雜志. 2017(03)
[3]隨機森林算法在生物信息學中的應用研究[J]. 馮潔. 電腦知識與技術(shù). 2017(10)
[4]氯及溴代苯化合物生物富集因子預測[J]. 饒凡,黃茜,廖立敏. 河南師范大學學報(自然科學版). 2017(01)
[5]高維DNA甲基化數(shù)據(jù)的隨機森林降維分析[J]. 張秋伊,趙楊,魏永越,張汝陽,陳峰. 中華疾病控制雜志. 2016(06)
[6]機器學習及其算法和發(fā)展研究[J]. 張潤,王永濱. 中國傳媒大學學報(自然科學版). 2016(02)
[7]基于隨機森林算法對蛋白質(zhì)相互作用的識別和預測[J]. 董婷. 自動化與儀器儀表. 2015(11)
[8]有機污染物在魚體內(nèi)臨界濃度研究進展[J]. 邰紅巍,聞洋,蘇麗敏,趙元慧. 科學通報. 2015(19)
[9]回歸模型篩選準則及方法比較研究[J]. 楊泱. 昆明理工大學學報(自然科學版). 2015(03)
[10]水生生物急性毒性QSAR模型研究進展[J]. 劉羽晨,喬顯亮. 生態(tài)毒理學報. 2015(02)
博士論文
[1]基于組學數(shù)據(jù)的模擬空間環(huán)境健康監(jiān)測及其應用研究[D]. 李旭.哈爾濱工業(yè)大學 2016
[2]有機污染物生物富集與魚體內(nèi)臨界濃度關(guān)系的研究[D]. 聞洋.東北師范大學 2015
[3]基于OECD準則對QSAR/QSPR模型幾個重要問題的研究[D]. 陳憲.中南大學 2013
[4]基于機器學習的A型流感病毒跨種傳播和抗原關(guān)系預測研究[D]. 王佳.華中科技大學 2012
[5]計算機輔助藥物和蛋白性質(zhì)預測研究[D]. 席莉莉.蘭州大學 2010
[6]QSAR研究在生命分析化學和環(huán)境化學中的應用[D]. 趙春燕.蘭州大學 2006
碩士論文
[1]機器學習方法在生物信息學中的應用[D]. 楊閆.渤海大學 2014
[2]有機化學品魚類生物富集因子QSAR模型的構(gòu)建[D]. 鄭玉婷.大連理工大學 2014
[3]化合物致突變預測模型以及定量回歸工作流程的構(gòu)建[D]. 徐聰穎.華東理工大學 2013
[4]半監(jiān)督特征選擇和特征選擇的穩(wěn)定性研究[D]. 陳東.上海交通大學 2013
本文編號:3436280
【文章來源】:遼寧大學遼寧省 211工程院校
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【部分圖文】:
圖2-1分類模型構(gòu)建過程流程圖
本研究也在圖 2-3 中繪制了三種集成模型評價結(jié)果的柱形圖。正如本章所期望的那樣,三種集成模型的準確率以及 AUC 均高于同一種算法產(chǎn)生的 12 個基分類器。使用隨機森林、支持向量機以及極限梯度提升算法產(chǎn)生的集成模型的準確率分別提高了 0.6%、1.2%和 1.3%,AUC 分別提高 0.001、0.009、0.007。很明顯,在預測水生生物的急性毒性方面,利用集成方法所構(gòu)建的模型具有一定的優(yōu)勢。表 2-5 集成模型在五折交叉驗證以及外部驗證中的預測性能Data set Ensemble models Acc (%) SE (%) SP (%) AUCTraining set Ensemble-RF 91.6 95.0 84.4 0.961Ensemble-SVM 92.2 95.1 86.0 0.965Ensemble-XGBoost 92.0 95.2 85.2 0.959Validation set Ensemble-RF 86.1 90.7 76.0 0.921Ensemble-SVM 87.3 92.6 76.0 0.940Ensemble-XGBoost 82.3 90.7 64.0 0.927Complete data set Ensemble-RF 95.8 97.8 91.4 0.991Ensemble-SVM 96.0 98.2 91.4 0.989Ensemble-XGBoost 95.3 98.2 89.1 0.991
圖 2-3 集合模型在五折交叉驗證中的性能外,為了進一步評估本研究構(gòu)建的集成模型的預測能力,集成模型行了外部驗證。表 2-5 中,總結(jié)了不同集成模型在外部驗證中的預明,無論是在五折交叉驗證中,還是利用測試集進行外部le-SVM 模型的準確率以及 AUC 值都是最高的,準確率分別 AUC 值分別為 0.965 和 0.940。這表明 Ensemble-SVM 模型在水毒性預測中具備更加穩(wěn)定、準確的分類性能。論類模型與以往方法比較過去幾年,已經(jīng)有學者針對水生生物的急性毒性開發(fā)了分類預測模
【參考文獻】:
期刊論文
[1]零膨脹計數(shù)數(shù)據(jù)回歸模型的選擇與比較及R語言的實現(xiàn)[J]. 劉振球,嚴瓊,左佳鷺,方綺雯,張鐵軍. 中國衛(wèi)生統(tǒng)計. 2018(02)
[2]QSAR方法的研究進展及其應用[J]. 趙亞玲,黃方. 毒理學雜志. 2017(03)
[3]隨機森林算法在生物信息學中的應用研究[J]. 馮潔. 電腦知識與技術(shù). 2017(10)
[4]氯及溴代苯化合物生物富集因子預測[J]. 饒凡,黃茜,廖立敏. 河南師范大學學報(自然科學版). 2017(01)
[5]高維DNA甲基化數(shù)據(jù)的隨機森林降維分析[J]. 張秋伊,趙楊,魏永越,張汝陽,陳峰. 中華疾病控制雜志. 2016(06)
[6]機器學習及其算法和發(fā)展研究[J]. 張潤,王永濱. 中國傳媒大學學報(自然科學版). 2016(02)
[7]基于隨機森林算法對蛋白質(zhì)相互作用的識別和預測[J]. 董婷. 自動化與儀器儀表. 2015(11)
[8]有機污染物在魚體內(nèi)臨界濃度研究進展[J]. 邰紅巍,聞洋,蘇麗敏,趙元慧. 科學通報. 2015(19)
[9]回歸模型篩選準則及方法比較研究[J]. 楊泱. 昆明理工大學學報(自然科學版). 2015(03)
[10]水生生物急性毒性QSAR模型研究進展[J]. 劉羽晨,喬顯亮. 生態(tài)毒理學報. 2015(02)
博士論文
[1]基于組學數(shù)據(jù)的模擬空間環(huán)境健康監(jiān)測及其應用研究[D]. 李旭.哈爾濱工業(yè)大學 2016
[2]有機污染物生物富集與魚體內(nèi)臨界濃度關(guān)系的研究[D]. 聞洋.東北師范大學 2015
[3]基于OECD準則對QSAR/QSPR模型幾個重要問題的研究[D]. 陳憲.中南大學 2013
[4]基于機器學習的A型流感病毒跨種傳播和抗原關(guān)系預測研究[D]. 王佳.華中科技大學 2012
[5]計算機輔助藥物和蛋白性質(zhì)預測研究[D]. 席莉莉.蘭州大學 2010
[6]QSAR研究在生命分析化學和環(huán)境化學中的應用[D]. 趙春燕.蘭州大學 2006
碩士論文
[1]機器學習方法在生物信息學中的應用[D]. 楊閆.渤海大學 2014
[2]有機化學品魚類生物富集因子QSAR模型的構(gòu)建[D]. 鄭玉婷.大連理工大學 2014
[3]化合物致突變預測模型以及定量回歸工作流程的構(gòu)建[D]. 徐聰穎.華東理工大學 2013
[4]半監(jiān)督特征選擇和特征選擇的穩(wěn)定性研究[D]. 陳東.上海交通大學 2013
本文編號:3436280
本文鏈接:http://sikaile.net/kejilunwen/huanjinggongchenglunwen/3436280.html
最近更新
教材專著