基于隨機森林的上市公司舞弊風險識別模型研究
發(fā)布時間:2021-07-08 23:41
當下我國處于金融體制轉(zhuǎn)型的關(guān)鍵時期,正逐漸成為全球經(jīng)濟增長的重要驅(qū)動力。然而過去二十年間上市公司舞弊丑聞頻發(fā)、屢禁不止,沉重打擊投資者和社會公眾對資本市場的信心,使得公司財務(wù)報告公信力下降。能否有效治理公司舞弊這一資本市場頑疾,將決定新興時期資本市場與實體經(jīng)濟有效對接的成功與否以及供給側(cè)結(jié)構(gòu)性改革下產(chǎn)業(yè)轉(zhuǎn)型升級的效率、效果,會計理論界、實務(wù)界和監(jiān)管機構(gòu)對此都高度關(guān)注。研究表明相較于案例分析,模型識別舞弊效果更優(yōu)。現(xiàn)階段在舞弊識別指標方面的研究相對完善,舞弊識別模型的構(gòu)建上還有待探索;诖吮疚膶㈦S機森林算法引入識別上市公司舞弊,對保持資本市場有效活力具有極其重要的現(xiàn)實意義。隨機森林(Randomforest)作為一種組合分類器算法,在大樣本、高維度特征和異常值數(shù)據(jù)上仍能保持較高的預(yù)測準確率,是非線性建模的重要工具之一,近年來在生物信息學、醫(yī)學、社會科學等領(lǐng)域研究成果頗豐,并且在風險識別與預(yù)警中展現(xiàn)出極大的潛力;诖吮疚臉(gòu)建了基于隨機森林的上市公司舞弊風險識別模型,相關(guān)數(shù)據(jù)處理和模型構(gòu)建均在Python環(huán)境下編程實現(xiàn)。本文首先從舞弊動因探索與理論分析、舞弊風險識別指標、舞弊風險識別方法...
【文章來源】:杭州電子科技大學浙江省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1.1文章結(jié)構(gòu)??
用了太多無關(guān)的輸入變量時,也會出現(xiàn)過擬合問題。一般來說決策樹越復(fù)雜,過??擬合程度就越高。剪枝(pruning)是應(yīng)對決策樹過擬合、優(yōu)化模型的常用方法,??如圖3.1。剪枝分一般分為先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??圖3.1決策樹剪枝??先剪枝(prepmning)是指提前停止樹的“生長”,使結(jié)點成為“樹葉”,一般??只出現(xiàn)在樣本訓(xùn)練過程中。最常用的提前停止決策樹成長的方法包括以下兩種:??1)限定一個高度,當決策樹到達這個高度時停止生長;2)定義一個閾值,當不純??度衡量的增益觀察值小于指定的閾值時,決策樹停止生長。后剪枝(postpnming)??指的是先將整棵決策樹構(gòu)造完整,允許樹存在“過度擬合”。然后從下到上對非??葉子結(jié)點進行考察,如果結(jié)點對應(yīng)的子樹被葉子結(jié)點替換后,整棵樹的泛化能力??更強,預(yù)測識別效果越好,則把該結(jié)點對應(yīng)的子樹進行刪除,即進行了“剪枝”。??后剪枝一般是在樣本訓(xùn)練時構(gòu)建好決策樹,然后利用測試集來進行剪枝。??先剪枝方法中精準估計何時停止樹的生長十分困難
行節(jié)點分裂生長,但是隨機森林會隨機選擇節(jié)點的部分樣本特征(M個,M<N)??進行最優(yōu)特征選擇,即bootsrap,從而影響決策樹的分支生長,這進一步增強了模??型的泛化能力。隨機森林算法詳細結(jié)構(gòu)如圖3.3。隨機森林將決策樹的分類投票結(jié)??果匯總,選擇投票次數(shù)最多的類別為最終的輸出結(jié)果,加強了模型分類效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??決策樹分類?|決策樹分類?|決策樹分類??結(jié)果1?結(jié)果2?結(jié)果3??投票決定最??優(yōu)分類??圖3.3隨機森林思想??隨機森林具有很強的泛化性,能夠?qū)τ?xùn)練集樣本以外的數(shù)據(jù)進行準確的分類,??即使隨機森林中決策樹變多,模型也不會出現(xiàn)過擬合。前文3.2己經(jīng)指出bootstrap??思想下原始樣本中大約36.8%不會被抽中的樣本被叫做00B?(袋外數(shù)據(jù)),可以用??24??
本文編號:3272564
【文章來源】:杭州電子科技大學浙江省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1.1文章結(jié)構(gòu)??
用了太多無關(guān)的輸入變量時,也會出現(xiàn)過擬合問題。一般來說決策樹越復(fù)雜,過??擬合程度就越高。剪枝(pruning)是應(yīng)對決策樹過擬合、優(yōu)化模型的常用方法,??如圖3.1。剪枝分一般分為先剪枝(prepruning)和后剪枝(postpriming)。??Treei?Tree2??O?又??/?\?A?^??6?b?i?\>?°?°??/\??a?b??圖3.1決策樹剪枝??先剪枝(prepmning)是指提前停止樹的“生長”,使結(jié)點成為“樹葉”,一般??只出現(xiàn)在樣本訓(xùn)練過程中。最常用的提前停止決策樹成長的方法包括以下兩種:??1)限定一個高度,當決策樹到達這個高度時停止生長;2)定義一個閾值,當不純??度衡量的增益觀察值小于指定的閾值時,決策樹停止生長。后剪枝(postpnming)??指的是先將整棵決策樹構(gòu)造完整,允許樹存在“過度擬合”。然后從下到上對非??葉子結(jié)點進行考察,如果結(jié)點對應(yīng)的子樹被葉子結(jié)點替換后,整棵樹的泛化能力??更強,預(yù)測識別效果越好,則把該結(jié)點對應(yīng)的子樹進行刪除,即進行了“剪枝”。??后剪枝一般是在樣本訓(xùn)練時構(gòu)建好決策樹,然后利用測試集來進行剪枝。??先剪枝方法中精準估計何時停止樹的生長十分困難
行節(jié)點分裂生長,但是隨機森林會隨機選擇節(jié)點的部分樣本特征(M個,M<N)??進行最優(yōu)特征選擇,即bootsrap,從而影響決策樹的分支生長,這進一步增強了模??型的泛化能力。隨機森林算法詳細結(jié)構(gòu)如圖3.3。隨機森林將決策樹的分類投票結(jié)??果匯總,選擇投票次數(shù)最多的類別為最終的輸出結(jié)果,加強了模型分類效果。??D??Bootstrap??D1?D2?D3??I.?……??'pr….…I??i?A?X?ak?A?Xi??id?fi?p?&?cj?b?6?h?A?&?6?l]:??;?d?h?dn?[jb?i??:?r?i?!?:??★?T?,?t_?_??決策樹分類?|決策樹分類?|決策樹分類??結(jié)果1?結(jié)果2?結(jié)果3??投票決定最??優(yōu)分類??圖3.3隨機森林思想??隨機森林具有很強的泛化性,能夠?qū)τ?xùn)練集樣本以外的數(shù)據(jù)進行準確的分類,??即使隨機森林中決策樹變多,模型也不會出現(xiàn)過擬合。前文3.2己經(jīng)指出bootstrap??思想下原始樣本中大約36.8%不會被抽中的樣本被叫做00B?(袋外數(shù)據(jù)),可以用??24??
本文編號:3272564
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3272564.html
教材專著