面向高新企業(yè)審計(jì)數(shù)據(jù)的特征選擇算法研究
【文章頁(yè)數(shù)】:11 頁(yè)
【部分圖文】:
圖1FCBF算法的特征分類(lèi)定義
特征冗余性和相關(guān)性的不同之處在于,相關(guān)性衡量特征和類(lèi)別之間線性或非線性的程度;冗余性衡量特征子集內(nèi)部的關(guān)系,相比于相關(guān)性的計(jì)算,冗余性的復(fù)雜性更加高。FCBF算法將特征主要分為4類(lèi):無(wú)關(guān)特征、弱相關(guān)且冗余特征、弱相關(guān)非冗余特征和強(qiáng)相關(guān)特征。按照FCBF算法的定義,去除冗余特征后的....
圖3通過(guò)MIC和隨機(jī)森林重要度特征選擇的分類(lèi)準(zhǔn)確率比較
通過(guò)將基于隨機(jī)森林的特征重要度評(píng)價(jià)準(zhǔn)則和基于最大互信息系數(shù)算法所選擇的特征進(jìn)行分類(lèi),分析比較其分類(lèi)效果,選擇效果提升更明顯的方法作為第一階段的特征選擇算法。分類(lèi)效果的評(píng)估方法為:使用隨機(jī)森林作為分類(lèi)器并結(jié)合10折交叉驗(yàn)證的方法計(jì)算特征分類(lèi)結(jié)果的準(zhǔn)確率。如圖3所示,以公司審計(jì)數(shù)據(jù)為....
圖4基于MIC和隨機(jī)森林的二階段特征選擇算法流程
將第一階段過(guò)濾式特征選擇和第二階段封裝式特征選擇算法的弱相關(guān)和冗余特征去除過(guò)程進(jìn)行綜合,在輸入原數(shù)據(jù)集后,通過(guò)Filter特征預(yù)選擇階段得到候選特征子集,根據(jù)Wrapper方法提高分類(lèi)準(zhǔn)確率并輸出最終特征子集(見(jiàn)圖4)。3面向高新企業(yè)審計(jì)數(shù)據(jù)的分析和驗(yàn)證
圖5高新企業(yè)審計(jì)數(shù)據(jù)集基于RF的第二階段特征選擇過(guò)程
基于MIC和近似馬爾可夫毯的第二階段特征選擇算法在高新企業(yè)審計(jì)數(shù)據(jù)集和Musk數(shù)據(jù)集上特征選擇的過(guò)程分別如圖7和圖8所示,圖中橫軸表示第二階段的弱相關(guān)冗余性閾值所分別對(duì)應(yīng)的特征數(shù),豎軸表示對(duì)應(yīng)的分類(lèi)效果。根據(jù)預(yù)選擇個(gè)數(shù)的公式,高新企業(yè)審計(jì)數(shù)據(jù)集的特征數(shù)約為46個(gè),Musk數(shù)據(jù)的特....
本文編號(hào):3894674
本文鏈接:http://sikaile.net/jingjilunwen/sjlw/3894674.html