天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Logistic模型對非平衡數(shù)據(jù)的敏感性:測度、修正與比較

發(fā)布時間:2020-05-21 18:24
【摘要】:近年來,非平衡數(shù)據(jù)分類問題已成為機器學習和數(shù)據(jù)挖掘領域的一個研究熱點。非平衡數(shù)據(jù)集是指數(shù)據(jù)集中某一類或某些類的樣本量與其他類相差懸殊,其中樣本量較少的稱為稀有類,而樣本量較多的稱為多數(shù)類。由于數(shù)據(jù)集的非平衡性,使得傳統(tǒng)分類算法對稀有類的識別能力大大減弱。在實際問題中,遺漏或錯分稀有類往往會造成嚴重的損失,因此,人們更加關注稀有類的分類準確率。針對上述問題,解決非平衡數(shù)據(jù)分類問題的新方法應運而生,這些方法主要可以分為兩種,一種是基于算法層面的改進方法,即在傳統(tǒng)分類算法的基礎上進行相應地改進,使改進后的新算法在分類過程中不但關注整體的分類效果,而且更加注重稀有類的分類效果,進而提高稀有類的分類準確率,如代價敏感學習、集成學習、單類學習、特征選擇和訓練集劃分等;另一種是基于數(shù)據(jù)層面的改進方法,即采用不同的抽樣方法對原有的非平衡數(shù)據(jù)集進行預處理,使處理后的數(shù)據(jù)集中稀有類與多數(shù)類的分布基本平衡,如簡單隨機抽樣、單邊選擇、SMOTE等。在非平衡數(shù)據(jù)分類問題的研究中,評價指標的選取也是至關重要的,評價指標不能單獨考慮某一類的分類準確率,而要綜合考慮稀有類與多數(shù)類的分類效果,如AUC值、G統(tǒng)計量、F統(tǒng)計量、ROC曲線等。其中,最直觀的方式是采用ROC曲線,ROC曲線完整地顯示了分類器在不同參數(shù)或閾值條件下對稀有類與多數(shù)類分類錯誤的所有可能的組合。隨著機器學習和數(shù)據(jù)挖掘的不斷發(fā)展與完善,用于分類的模型算法越來越多,分類技術也日趨成熟,如判別分析、Logistic模型、KNN算法、決策樹、支持向量機等。在實際問題中,這些分類算法都得到了廣泛的應用,也取得了不錯的分類效果。本文選取解釋性較強、穩(wěn)健性較高的Logistic模型作為研究對象,以UCI數(shù)據(jù)庫為研究樣本,并對數(shù)據(jù)樣本施以平衡化的五折交叉驗證技術,分析Logistic模型對不同程度非平衡數(shù)據(jù)的敏感性。研究表明:(1)Logistic模型在分類預測中會受到非平衡數(shù)據(jù)的影響,且數(shù)據(jù)非平衡程度越高,logistic模型對稀有類的識別能力越差。(2)相對于ROS、RUS和SMOTE等其他修正方法,OSS方法的改進效果不明顯且不穩(wěn)定;相對于復雜抽樣,ROS和RUS這類簡單隨機抽樣方法的修正效果更優(yōu)。(3)在模型評估方面,構造平衡化的五折交叉驗證,發(fā)現(xiàn)相對于Acc+和G統(tǒng)計量,AUC值不適宜于非平衡數(shù)據(jù)條件下的模型選擇,因為在非平衡數(shù)據(jù)條件下,它既不能有效地區(qū)分四種修正方法之優(yōu)劣,而且修正前后的差異亦不能辯。
【圖文】:

聲干擾,噪聲數(shù)據(jù),樣本


對平衡數(shù)據(jù)集而言,噪聲數(shù)據(jù)的存在并不會影響各類數(shù)據(jù)的識別。而在非逡逑平衡數(shù)據(jù)集中,由于稀有類數(shù)據(jù)規(guī)模較小,噪聲數(shù)據(jù)會嚴重影響分類器對稀有逡逑類的識別能力,如圖2-2所示,當稀有類樣本(^)出現(xiàn)在多數(shù)類樣本(公)逡逑中和多數(shù)類樣本(5)出現(xiàn)在稀有類樣本(^)中時都會產(chǎn)生噪聲現(xiàn)象。研究逡逑表明,噪聲數(shù)據(jù)對稀有類的影響要遠遠大于多數(shù)類(Weiss邋G,邋2004),即公中逡逑的兩個噪聲數(shù)據(jù)對多數(shù)類的判定邊界沒有影響,然而,由于^中出現(xiàn)兩個噪聲逡逑數(shù)據(jù),,學習器無法區(qū)分稀有類數(shù)據(jù)和噪聲數(shù)據(jù),不能根據(jù)稀有類的數(shù)據(jù)信息對逡逑邊界作出判定。因此,在對非平衡數(shù)據(jù)集進行分類時,應當去除噪聲數(shù)據(jù)。逡逑12逡逑

示意圖,訓練集,特征子集,示意圖


特征構成一個新的特征集,送樣不僅可W簡化特征空間,也可W根據(jù)選擇的有逡逑效特征解決分類問題。一個完整的特征選擇過程大致可W分為四個階段:生成逡逑特征子集、評價特征子集、終止條件、結果驗證(如圖3-4所示)。生成特征逡逑20逡逑
【學位授予單位】:東北財經(jīng)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:C81

【相似文獻】

相關期刊論文 前7條

1 馮力;;經(jīng)濟周期的logistic預測漠型[J];統(tǒng)計與咨詢;2005年06期

2 王忠純;;LOGISTIC方程迭代過程圖解演示[J];物理通報;1999年07期

3 任常茂;具有反饋控制的Logistic擴散系統(tǒng)周期解的存在與穩(wěn)定[J];荊州師專學報;1996年05期

4 程亞煥;;具有污染和捕獲影響的一類廣義Logistic種群的生存分析[J];通化師范學院學報;2006年04期

5 魏艷華;王丙參;李艷穎;;Logistic分布參數(shù)的漸進置信區(qū)間估計[J];樂山師范學院學報;2012年05期

6 萬維明;張南南;馬永峰;;一類具有連續(xù)時滯和非線性出生率的Logistic人口模型的定性分析[J];大連交通大學學報;2011年03期

7 石曉軍;;Logistic違約率模型最優(yōu)樣本配比與分界點的模擬分析[J];數(shù)理統(tǒng)計與管理;2006年06期

相關博士學位論文 前2條

1 徐猛;N人雪堆博弈模型的第三種策略引入及其影響探究[D];浙江大學;2017年

2 黃毅敏;主輔制造商協(xié)同生產(chǎn)系統(tǒng)博弈模型研究[D];天津大學;2016年

相關碩士學位論文 前10條

1 郭楠楠;一類帶有Logistic項的多物種生物趨化模型解的整體有界性[D];東南大學;2015年

2 王微廣;基于Logistic分布的GARCH族模型在期貨中的應用[D];西安建筑科技大學;2016年

3 馮月平;Logistic財務預警回歸模型的構建與檢驗[D];青島理工大學;2010年

4 胡丹丹;幾種數(shù)據(jù)類型下兩參數(shù)Logistic分布參數(shù)的近似極大似然估計[D];上海師范大學;2017年

5 王浩;胃癌術后嚴重并發(fā)癥的多因素Logistic風險模型的建立及死亡危險因素分析[D];青島大學;2008年

6 田凱;Logistic可加部分線性模型的漸近正態(tài)性[D];廣西大學;2017年

7 徐步霄;社會階層對不誠實行為的影響:一個有中介的調節(jié)模型[D];華中師范大學;2017年

8 康凱;基于Skewed-T Realized GARCH模型的滬深300指數(shù)波動性研究[D];天津商業(yè)大學;2017年

9 張保中;各種分類方法在垃圾短信識別中的應用[D];華中師范大學;2017年

10 覃利華;若干個雙險種風險模型破產(chǎn)問題的研究[D];廣西大學;2017年



本文編號:2674709

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2674709.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f5f50***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com