天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Logistic模型對非平衡數(shù)據(jù)的敏感性:測度、修正與比較

發(fā)布時(shí)間:2020-05-21 18:24
【摘要】:近年來,非平衡數(shù)據(jù)分類問題已成為機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)。非平衡數(shù)據(jù)集是指數(shù)據(jù)集中某一類或某些類的樣本量與其他類相差懸殊,其中樣本量較少的稱為稀有類,而樣本量較多的稱為多數(shù)類。由于數(shù)據(jù)集的非平衡性,使得傳統(tǒng)分類算法對稀有類的識別能力大大減弱。在實(shí)際問題中,遺漏或錯(cuò)分稀有類往往會造成嚴(yán)重的損失,因此,人們更加關(guān)注稀有類的分類準(zhǔn)確率。針對上述問題,解決非平衡數(shù)據(jù)分類問題的新方法應(yīng)運(yùn)而生,這些方法主要可以分為兩種,一種是基于算法層面的改進(jìn)方法,即在傳統(tǒng)分類算法的基礎(chǔ)上進(jìn)行相應(yīng)地改進(jìn),使改進(jìn)后的新算法在分類過程中不但關(guān)注整體的分類效果,而且更加注重稀有類的分類效果,進(jìn)而提高稀有類的分類準(zhǔn)確率,如代價(jià)敏感學(xué)習(xí)、集成學(xué)習(xí)、單類學(xué)習(xí)、特征選擇和訓(xùn)練集劃分等;另一種是基于數(shù)據(jù)層面的改進(jìn)方法,即采用不同的抽樣方法對原有的非平衡數(shù)據(jù)集進(jìn)行預(yù)處理,使處理后的數(shù)據(jù)集中稀有類與多數(shù)類的分布基本平衡,如簡單隨機(jī)抽樣、單邊選擇、SMOTE等。在非平衡數(shù)據(jù)分類問題的研究中,評價(jià)指標(biāo)的選取也是至關(guān)重要的,評價(jià)指標(biāo)不能單獨(dú)考慮某一類的分類準(zhǔn)確率,而要綜合考慮稀有類與多數(shù)類的分類效果,如AUC值、G統(tǒng)計(jì)量、F統(tǒng)計(jì)量、ROC曲線等。其中,最直觀的方式是采用ROC曲線,ROC曲線完整地顯示了分類器在不同參數(shù)或閾值條件下對稀有類與多數(shù)類分類錯(cuò)誤的所有可能的組合。隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的不斷發(fā)展與完善,用于分類的模型算法越來越多,分類技術(shù)也日趨成熟,如判別分析、Logistic模型、KNN算法、決策樹、支持向量機(jī)等。在實(shí)際問題中,這些分類算法都得到了廣泛的應(yīng)用,也取得了不錯(cuò)的分類效果。本文選取解釋性較強(qiáng)、穩(wěn)健性較高的Logistic模型作為研究對象,以UCI數(shù)據(jù)庫為研究樣本,并對數(shù)據(jù)樣本施以平衡化的五折交叉驗(yàn)證技術(shù),分析Logistic模型對不同程度非平衡數(shù)據(jù)的敏感性。研究表明:(1)Logistic模型在分類預(yù)測中會受到非平衡數(shù)據(jù)的影響,且數(shù)據(jù)非平衡程度越高,logistic模型對稀有類的識別能力越差。(2)相對于ROS、RUS和SMOTE等其他修正方法,OSS方法的改進(jìn)效果不明顯且不穩(wěn)定;相對于復(fù)雜抽樣,ROS和RUS這類簡單隨機(jī)抽樣方法的修正效果更優(yōu)。(3)在模型評估方面,構(gòu)造平衡化的五折交叉驗(yàn)證,發(fā)現(xiàn)相對于Acc+和G統(tǒng)計(jì)量,AUC值不適宜于非平衡數(shù)據(jù)條件下的模型選擇,因?yàn)樵诜瞧胶鈹?shù)據(jù)條件下,它既不能有效地區(qū)分四種修正方法之優(yōu)劣,而且修正前后的差異亦不能辯。
【圖文】:

聲干擾,噪聲數(shù)據(jù),樣本


對平衡數(shù)據(jù)集而言,噪聲數(shù)據(jù)的存在并不會影響各類數(shù)據(jù)的識別。而在非逡逑平衡數(shù)據(jù)集中,由于稀有類數(shù)據(jù)規(guī)模較小,噪聲數(shù)據(jù)會嚴(yán)重影響分類器對稀有逡逑類的識別能力,如圖2-2所示,當(dāng)稀有類樣本(^)出現(xiàn)在多數(shù)類樣本(公)逡逑中和多數(shù)類樣本(5)出現(xiàn)在稀有類樣本(^)中時(shí)都會產(chǎn)生噪聲現(xiàn)象。研究逡逑表明,噪聲數(shù)據(jù)對稀有類的影響要遠(yuǎn)遠(yuǎn)大于多數(shù)類(Weiss邋G,邋2004),即公中逡逑的兩個(gè)噪聲數(shù)據(jù)對多數(shù)類的判定邊界沒有影響,然而,由于^中出現(xiàn)兩個(gè)噪聲逡逑數(shù)據(jù),,學(xué)習(xí)器無法區(qū)分稀有類數(shù)據(jù)和噪聲數(shù)據(jù),不能根據(jù)稀有類的數(shù)據(jù)信息對逡逑邊界作出判定。因此,在對非平衡數(shù)據(jù)集進(jìn)行分類時(shí),應(yīng)當(dāng)去除噪聲數(shù)據(jù)。逡逑12逡逑

示意圖,訓(xùn)練集,特征子集,示意圖


特征構(gòu)成一個(gè)新的特征集,送樣不僅可W簡化特征空間,也可W根據(jù)選擇的有逡逑效特征解決分類問題。一個(gè)完整的特征選擇過程大致可W分為四個(gè)階段:生成逡逑特征子集、評價(jià)特征子集、終止條件、結(jié)果驗(yàn)證(如圖3-4所示)。生成特征逡逑20逡逑
【學(xué)位授予單位】:東北財(cái)經(jīng)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:C81

【相似文獻(xiàn)】

相關(guān)期刊論文 前7條

1 馮力;;經(jīng)濟(jì)周期的logistic預(yù)測漠型[J];統(tǒng)計(jì)與咨詢;2005年06期

2 王忠純;;LOGISTIC方程迭代過程圖解演示[J];物理通報(bào);1999年07期

3 任常茂;具有反饋控制的Logistic擴(kuò)散系統(tǒng)周期解的存在與穩(wěn)定[J];荊州師專學(xué)報(bào);1996年05期

4 程亞煥;;具有污染和捕獲影響的一類廣義Logistic種群的生存分析[J];通化師范學(xué)院學(xué)報(bào);2006年04期

5 魏艷華;王丙參;李艷穎;;Logistic分布參數(shù)的漸進(jìn)置信區(qū)間估計(jì)[J];樂山師范學(xué)院學(xué)報(bào);2012年05期

6 萬維明;張南南;馬永峰;;一類具有連續(xù)時(shí)滯和非線性出生率的Logistic人口模型的定性分析[J];大連交通大學(xué)學(xué)報(bào);2011年03期

7 石曉軍;;Logistic違約率模型最優(yōu)樣本配比與分界點(diǎn)的模擬分析[J];數(shù)理統(tǒng)計(jì)與管理;2006年06期

相關(guān)博士學(xué)位論文 前2條

1 徐猛;N人雪堆博弈模型的第三種策略引入及其影響探究[D];浙江大學(xué);2017年

2 黃毅敏;主輔制造商協(xié)同生產(chǎn)系統(tǒng)博弈模型研究[D];天津大學(xué);2016年

相關(guān)碩士學(xué)位論文 前10條

1 郭楠楠;一類帶有Logistic項(xiàng)的多物種生物趨化模型解的整體有界性[D];東南大學(xué);2015年

2 王微廣;基于Logistic分布的GARCH族模型在期貨中的應(yīng)用[D];西安建筑科技大學(xué);2016年

3 馮月平;Logistic財(cái)務(wù)預(yù)警回歸模型的構(gòu)建與檢驗(yàn)[D];青島理工大學(xué);2010年

4 胡丹丹;幾種數(shù)據(jù)類型下兩參數(shù)Logistic分布參數(shù)的近似極大似然估計(jì)[D];上海師范大學(xué);2017年

5 王浩;胃癌術(shù)后嚴(yán)重并發(fā)癥的多因素Logistic風(fēng)險(xiǎn)模型的建立及死亡危險(xiǎn)因素分析[D];青島大學(xué);2008年

6 田凱;Logistic可加部分線性模型的漸近正態(tài)性[D];廣西大學(xué);2017年

7 徐步霄;社會階層對不誠實(shí)行為的影響:一個(gè)有中介的調(diào)節(jié)模型[D];華中師范大學(xué);2017年

8 康凱;基于Skewed-T Realized GARCH模型的滬深300指數(shù)波動(dòng)性研究[D];天津商業(yè)大學(xué);2017年

9 張保中;各種分類方法在垃圾短信識別中的應(yīng)用[D];華中師范大學(xué);2017年

10 覃利華;若干個(gè)雙險(xiǎn)種風(fēng)險(xiǎn)模型破產(chǎn)問題的研究[D];廣西大學(xué);2017年



本文編號:2674709

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2674709.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f5f50***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com