基于大數(shù)據(jù)的職業(yè)病誘發(fā)原因分析研究
發(fā)布時間:2022-02-20 07:42
隨著時代的快速發(fā)展,提高國民經(jīng)濟的同時,我國職業(yè)病卻保持在一個久居不下的地位中,并且導致疾病發(fā)生的原因越來越多。疾病的產(chǎn)生在威脅勞動者身體健康的同時還造成了巨大的經(jīng)濟損失。因此,本文為了有效的落實疾病預防工作的同時,輔助醫(yī)生決策幫助促進國民經(jīng)濟的綠色發(fā)展。本文圍繞職業(yè)病預警模型的相關技術進行研究,即通過模型的建立來進行了深入的研究。首先對疾病致病誘發(fā)因素分析研究,本論文從數(shù)據(jù)集中性別、年齡等40個特征中篩選出最終幾個重要特征,并通過重要性大小來表明每個指標對疾病發(fā)生的影響。利用改進的隨機森林算法和關聯(lián)規(guī)則來創(chuàng)建模型,剔除重要性程度較低的特征,挖掘出特征與特征之間的聯(lián)系,找到潛在著的有價值的規(guī)律,根據(jù)支持度和可信度,分析結(jié)果提出決策規(guī)則,通過對比已有算法來驗證模型分類和挖掘特征的準確性。最后利用這些規(guī)則來反饋給相應的醫(yī)務人員,力爭從源頭預防控制職業(yè)病危害,找到誘發(fā)原因,提前把控疾病的發(fā)生,進而為我國疾病預測預防提供一定的參考意見。
【文章來源】:上海應用技術大學上海市
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【部分圖文】:
職業(yè)病致病相關因素分析圖
上海應用技術大學碩士學位論文第7頁圖2.2決策樹模型Fig.2.2Decisiontreemodel2.2.2特征選擇的標準決策樹生成的最主要的步驟就是如何選擇最佳劃分的特征,就是影響對樣本集具有最佳效果最佳準確率特征,通過不停的劃分,每一個獨立的分支結(jié)點所代表樣本集的不純度也慢慢變低,從而容易將這些歸之為一類。因此,特征選擇就是依據(jù)不純度的改變盡可能的完善分類的結(jié)果,獨立的數(shù)據(jù)不純度有各自的標準,不受別的所影響,從而計算的方式也不相同。A.信息增益信息熵是最常用的一種指標,它代表隨機變量的不確定度,熵越小,數(shù)據(jù)集純度越高。在分類問題中,假設樣本集為D,一共有k個類,且D中樣本屬于第i類的概率為ip,則D的熵定義如下:ni2ii1H(D)plogp(2-1)條件熵代表某給定條件下隨機變量的不確定度。假設離散型特征A有n個不同取值12n{a,a,...,a},其中iAa的概率為ip,且D中滿足iAa的子集為iD,則在給定特征A的條件下樣本集D的條件熵定義為:nniiiii1i1H(DA)PH(DAa)PH(D)(2-2)顯然,H(D)衡量了原始數(shù)據(jù)集的不純度,H(D|A)衡量了數(shù)據(jù)集被A劃分之后的不純度。它們的差反映了數(shù)據(jù)純度的增量,定義為信息增益:
8頁上海應用技術大學碩士學位論文第G(D,A)HDHDA(2-3)使得信息增益最大的特征值即為最優(yōu)劃分特征。B.信息增益比信息增益在特征多的時候,容易會造成選擇的誤差,所以需要通過矯正的方式進行修改,在信息增益的基礎上增加一個罰項,稱之為信息增益比,定義如下:RAG(D,A)G(D,A)(2-4)H(D)其中nAi2ii1H(D)plogp(2-5)可以發(fā)現(xiàn)當A的取值越來越多的時候,AH(D)的值相對應就變得大起來,至此雖然增加了一些計算量,但是信息增益的偏好結(jié)果得到了一定的改善。C.基尼指數(shù)另外一種可以度量數(shù)據(jù)集中不存度的方式是基尼指數(shù),當基尼指數(shù)越來越小的時候,數(shù)據(jù)集的純度就變得越高,將基尼指數(shù)定義如下:kk2iiii1i1Gini(D)p(1p)1p(2-6)在數(shù)據(jù)集中根據(jù)特征A進行劃分的時候,樣本的基尼指數(shù)定義為:niii1Gini(D,A)pGini(D)(2-7)在進行劃分后,當樣本集中基尼指數(shù)最小的時候,稱之為最佳特征。圖2.3表現(xiàn)了二類分類時基尼指數(shù)、熵之半和分類誤差率的關系,其中橫坐標表示的是概率,縱坐標表示的是損失。圖2.3兩種指標的比較Fig.2.3Comparisonoftwoindexes2.2.3決策樹的剪枝和生成決策樹在分類的時候,容易過擬合,就是說創(chuàng)建的模型因為復雜的緣故,對訓練集
本文編號:3634585
【文章來源】:上海應用技術大學上海市
【文章頁數(shù)】:54 頁
【學位級別】:碩士
【部分圖文】:
職業(yè)病致病相關因素分析圖
上海應用技術大學碩士學位論文第7頁圖2.2決策樹模型Fig.2.2Decisiontreemodel2.2.2特征選擇的標準決策樹生成的最主要的步驟就是如何選擇最佳劃分的特征,就是影響對樣本集具有最佳效果最佳準確率特征,通過不停的劃分,每一個獨立的分支結(jié)點所代表樣本集的不純度也慢慢變低,從而容易將這些歸之為一類。因此,特征選擇就是依據(jù)不純度的改變盡可能的完善分類的結(jié)果,獨立的數(shù)據(jù)不純度有各自的標準,不受別的所影響,從而計算的方式也不相同。A.信息增益信息熵是最常用的一種指標,它代表隨機變量的不確定度,熵越小,數(shù)據(jù)集純度越高。在分類問題中,假設樣本集為D,一共有k個類,且D中樣本屬于第i類的概率為ip,則D的熵定義如下:ni2ii1H(D)plogp(2-1)條件熵代表某給定條件下隨機變量的不確定度。假設離散型特征A有n個不同取值12n{a,a,...,a},其中iAa的概率為ip,且D中滿足iAa的子集為iD,則在給定特征A的條件下樣本集D的條件熵定義為:nniiiii1i1H(DA)PH(DAa)PH(D)(2-2)顯然,H(D)衡量了原始數(shù)據(jù)集的不純度,H(D|A)衡量了數(shù)據(jù)集被A劃分之后的不純度。它們的差反映了數(shù)據(jù)純度的增量,定義為信息增益:
8頁上海應用技術大學碩士學位論文第G(D,A)HDHDA(2-3)使得信息增益最大的特征值即為最優(yōu)劃分特征。B.信息增益比信息增益在特征多的時候,容易會造成選擇的誤差,所以需要通過矯正的方式進行修改,在信息增益的基礎上增加一個罰項,稱之為信息增益比,定義如下:RAG(D,A)G(D,A)(2-4)H(D)其中nAi2ii1H(D)plogp(2-5)可以發(fā)現(xiàn)當A的取值越來越多的時候,AH(D)的值相對應就變得大起來,至此雖然增加了一些計算量,但是信息增益的偏好結(jié)果得到了一定的改善。C.基尼指數(shù)另外一種可以度量數(shù)據(jù)集中不存度的方式是基尼指數(shù),當基尼指數(shù)越來越小的時候,數(shù)據(jù)集的純度就變得越高,將基尼指數(shù)定義如下:kk2iiii1i1Gini(D)p(1p)1p(2-6)在數(shù)據(jù)集中根據(jù)特征A進行劃分的時候,樣本的基尼指數(shù)定義為:niii1Gini(D,A)pGini(D)(2-7)在進行劃分后,當樣本集中基尼指數(shù)最小的時候,稱之為最佳特征。圖2.3表現(xiàn)了二類分類時基尼指數(shù)、熵之半和分類誤差率的關系,其中橫坐標表示的是概率,縱坐標表示的是損失。圖2.3兩種指標的比較Fig.2.3Comparisonoftwoindexes2.2.3決策樹的剪枝和生成決策樹在分類的時候,容易過擬合,就是說創(chuàng)建的模型因為復雜的緣故,對訓練集
本文編號:3634585
本文鏈接:http://sikaile.net/yixuelunwen/yufangyixuelunwen/3634585.html
最近更新
教材專著