分類預(yù)測中正判率的改進方法
【圖文】:
⒌難猗靜⑽幢徊裳猬蜆?測到。然而,未帶類別標注的樣本往往包含有助于分類的信息。通過一定的策略,選擇出滿足條件的未帶類別標注的樣本,把它們加入到當(dāng)前的樣本數(shù)據(jù)集中以達到提升分類器性能的目的,這被稱為主動學(xué)習(xí)的分類模型。胡為成(2007)[3]討論了基于主動學(xué)習(xí)的樸素貝葉斯分類器,選用樣本數(shù)據(jù)進行測試后指出,其分類精度明顯優(yōu)于樸素貝葉斯分類器。但文獻[3]中沒有明示選擇算子和最優(yōu)選擇策略是如何制定的。同樣借鑒主動學(xué)習(xí)的思想,本文引入迭代算法,構(gòu)建了一個持續(xù)學(xué)習(xí)的樸素貝葉斯分類器優(yōu)化模型(如圖1所示):圖1持續(xù)學(xué)習(xí)的樸素貝葉斯分類器優(yōu)化模型步驟1:用當(dāng)前的分類器對未標注數(shù)據(jù)集(可模擬產(chǎn)生,應(yīng)足夠大,譬如是樣本數(shù)據(jù)集的10倍以上)中每一個樣本進行預(yù)測,給出分類,即預(yù)標注。步驟2:執(zhí)行迭代算法,在一次迭代中,遍歷未標注數(shù)據(jù)集的每一個樣本,嘗試將該樣本加入到標準數(shù)據(jù)集,檢查和比較正判率的改進效果,增量記為Δ=αi(j)-αi-1,這里αi(j)代表第i次迭代中將第j個樣本加入到標準數(shù)據(jù)集后分類器的正判率,αi-1為此次迭代前分類器的正判率。步驟3:識別出在一次迭代中使正判率增量最大的那個樣本(如有多個取第一個),永久性地加入到標準數(shù)據(jù)集,并完成對分類器參數(shù)的修正,此即為最優(yōu)進入策略。步驟4:使用修正后的分類器(此時αi≥αi-1),執(zhí)行下一次迭代。仍然使用案例A的數(shù)據(jù)集進行驗證,原有的794個樣本構(gòu)成標準數(shù)據(jù)集,樸素貝葉斯分類器的初始正判率α0=56.3%。模擬產(chǎn)生25000個樣本構(gòu)成未標注數(shù)據(jù)集,使用上述的迭代算法和最優(yōu)進入策略,讓樸素貝葉斯分類器通分類細分1細分2細分3細分4細分5細分6總體占比(%)19.322.018.022.38.
銆門斜鴟治齔⑹怨菇縟突Ъ壑凳侗鶼低常嘞聳奔俁縝彝?金融資產(chǎn)和收入等涉敏感性信息不可獲得,即普通、中端或高端客戶類型事先不可知。遵循發(fā)展客戶細分方案時分階段逐步實施的思路,本文先將整體市場(即零售銀行客戶)構(gòu)建判別模型預(yù)測歸入普通、中端和高端客戶三類,正判率為73.5%;然后,針對三類客戶分別構(gòu)建判別模型預(yù)測歸入各自細分群體。最終,這樣分階段逐步實施的分類預(yù)測的整體正判率為58.9%,對比使用同樣預(yù)測變量集一次實施的判別分類(整體正判率為57.4%)有更好的預(yù)測效果率。以上分析過程及預(yù)測效果概括在圖2中。事實上,分階段逐步實施的分類預(yù)測不但是一種易于理解的自然做法,而且因在起始階段的預(yù)測正判率往往較高,后續(xù)階段的錯判更多被局限在同屬的大類內(nèi),這樣因錯判而對實際業(yè)務(wù)發(fā)展帶來的潛在風(fēng)險相對較小,也值得在實踐中應(yīng)用。此外,在各階段總體和類內(nèi)的分類預(yù)測分別實施,這為分析提供了更大的靈活性,每一模型均可依據(jù)最佳的自身可分性在預(yù)測變量集內(nèi)選擇變量組合去構(gòu)建判別函數(shù)。當(dāng)然,分階段逐步實施的過程要復(fù)雜一些。5總結(jié)分類預(yù)測模型正在不同領(lǐng)域得到廣泛應(yīng)用,模型優(yōu)良性的一個直觀的評估指標是其預(yù)測準確度(即正判率)。本文從四個不同的角度出發(fā),,討論了如何審慎地選擇或以恰當(dāng)?shù)姆绞竭\用一種或幾種合適的分類算法,來有效地提升分類預(yù)測的準確度。其中,基于混合策略的組合預(yù)測法對單一方法下預(yù)測準確度的提升最為明顯,而持續(xù)學(xué)習(xí)的樸素貝葉斯分類器優(yōu)化模型也顯得簡單而有效,都有廣闊的應(yīng)用前景。一個分類預(yù)測模型效果的持續(xù)改進,需要深刻地領(lǐng)悟算法的實質(zhì)、以及背后隱藏的關(guān)鍵成功因素,在實際應(yīng)用中還需確保系統(tǒng)運行的高效。參考文獻:[1][奧地利]DietmarJannach,AlexanderFelfe
【作者單位】: 北京特恩斯市場研究咨詢有限公司;
【分類號】:O211.67
【相似文獻】
相關(guān)期刊論文 前2條
1 楊小平;;二分Logistic模型在分類預(yù)測中的應(yīng)用分析[J];四川師范大學(xué)學(xué)報(自然科學(xué)版);2009年03期
2 ;[J];;年期
相關(guān)會議論文 前1條
1 沈杰;李衛(wèi)華;唐峗;;一種基于化合物子結(jié)構(gòu)模式識別的分類預(yù)測方法[A];中國化學(xué)會第27屆學(xué)術(shù)年會第15分會場摘要集[C];2010年
相關(guān)博士學(xué)位論文 前1條
1 劉惠;蛋白質(zhì)序列數(shù)據(jù)的分類預(yù)測研究[D];上海交通大學(xué);2007年
相關(guān)碩士學(xué)位論文 前6條
1 張吉寬;蛋白質(zhì)熱穩(wěn)定性分類預(yù)測系統(tǒng)的設(shè)計與實現(xiàn)[D];遼寧大學(xué);2016年
2 安俊峰;游戲評價數(shù)據(jù)的分類預(yù)測研究[D];東華大學(xué);2014年
3 黃建華;蛋白質(zhì)分類預(yù)測中的新方法研究[D];南昌大學(xué);2010年
4 石雪娜;基于壓縮感知的蛋白質(zhì)功能分類預(yù)測[D];北京交通大學(xué);2014年
5 廖旺宇;面向分類預(yù)測的增量關(guān)聯(lián)規(guī)則應(yīng)用研究[D];四川師范大學(xué);2010年
6 肖芳;工業(yè)產(chǎn)品運輸需求分類預(yù)測理論研究[D];長安大學(xué);2011年
本文編號:2536364
本文鏈接:http://sikaile.net/kejilunwen/yysx/2536364.html