基于Logistic算法與數(shù)據(jù)采樣的不平衡分類數(shù)據(jù)的研究
發(fā)布時(shí)間:2022-10-15 20:34
隨著經(jīng)濟(jì)及科技的發(fā)展,當(dāng)今處于信息爆炸的時(shí)代,大數(shù)據(jù)處處存在,其中分類數(shù)據(jù)尤為常見。在分類數(shù)據(jù)中,以往的方法大都關(guān)注平衡數(shù)據(jù)的分類問(wèn)題,其中有線性判別分析、二次判別分析、支持向量機(jī)、Logistic模型及boosting等。這些分類方法都是基于不同類別樣本數(shù)平衡的前提假設(shè)下進(jìn)行訓(xùn)練學(xué)習(xí),對(duì)于不平衡分類,其整體的較高預(yù)測(cè)準(zhǔn)確度往往歸功于多數(shù)類的精度,而忽略了少數(shù)類的分類精確度。因此,傳統(tǒng)的分類方法不能直接應(yīng)用來(lái)處理不平衡數(shù)據(jù)。本文針對(duì)不平衡二分類問(wèn)題,基于Logistic模型,從算法和數(shù)據(jù)采樣兩個(gè)層面來(lái)提出改進(jìn)的Logistic分類方法,以此來(lái)達(dá)到提高少數(shù)類分類準(zhǔn)確率的目的。普通Logistic分類通常選擇α=0.5作為閾值,為了處理不平衡數(shù)據(jù),本文提出對(duì)閥值α進(jìn)行自適應(yīng)的選擇以達(dá)到提升少數(shù)類分類準(zhǔn)確率的目的。數(shù)據(jù)采樣層面的想法是對(duì)多數(shù)類進(jìn)行分層采樣,再應(yīng)用Logistic方法、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法對(duì)生成新的近似平衡的子集數(shù)據(jù)進(jìn)行分類。最后,應(yīng)用本文所建議的方法來(lái)分析信用卡違約數(shù)據(jù),實(shí)際數(shù)據(jù)結(jié)果證實(shí)本文所提的方法能夠有效的提高不平衡數(shù)據(jù)的分類性能。
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SVM高維線性不可分
旋轉(zhuǎn)映射后的線性可分
平面二分類情形
【參考文獻(xiàn)】:
期刊論文
[1]面向類不平衡的邏輯回歸方法[J]. 郭華平,董亞?wèn)|,鄔長(zhǎng)安,范明. 模式識(shí)別與人工智能. 2015(08)
[2]加權(quán)最大夾角間隔核心集向量機(jī)的不平衡數(shù)據(jù)分類[J]. 魯淑霞,李黎敏. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2014(03)
[3]改進(jìn)隨機(jī)子空間與決策樹相結(jié)合的不平衡數(shù)據(jù)分類方法[J]. 胡小生. 佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2013(05)
[4]聚類邊界過(guò)采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2013(06)
[5]集成降采樣不平衡數(shù)據(jù)分類方法研究[J]. 郭麗娟,倪子偉,江弋,鄒權(quán). 計(jì)算機(jī)科學(xué)與探索. 2013(07)
[6]不平衡數(shù)據(jù)的無(wú)監(jiān)督特征選擇方法[J]. 蔣盛益,王連喜. 小型微型計(jì)算機(jī)系統(tǒng). 2013(01)
[7]基于Boosting的不平衡數(shù)據(jù)分類算法研究[J]. 李秋潔,茅耀斌,王執(zhí)銓. 計(jì)算機(jī)科學(xué). 2011(12)
[8]改進(jìn)的SVM解決背景知識(shí)數(shù)據(jù)中的類不平衡[J]. 王偉,薛安榮,劉峰. 計(jì)算機(jī)應(yīng)用研究. 2011(08)
[9]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[10]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法的研究[J]. 劉海濤,黃敏,朱啟兵,王聰. 計(jì)算機(jī)應(yīng)用研究. 2009(08)
碩士論文
[1]綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D]. 閆欣.東北電力大學(xué) 2016
[2]面向不平衡分類的邏輯回歸算法[D]. 董亞?wèn)|.鄭州大學(xué) 2015
[3]基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類[D]. 宋海燕.西安電子科技大學(xué) 2014
[4]基于非平衡數(shù)據(jù)分類的貸款違約預(yù)測(cè)研究[D]. 周麗峰.中南大學(xué) 2013
[5]基于組合抽樣技術(shù)的集成學(xué)習(xí)算法研究與應(yīng)用[D]. 劉國(guó)強(qiáng).中國(guó)海洋大學(xué) 2011
[6]不平衡數(shù)據(jù)集分類的Random-SMOTE方法研究[D]. 董燕杰.大連理工大學(xué) 2009
本文編號(hào):3691995
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SVM高維線性不可分
旋轉(zhuǎn)映射后的線性可分
平面二分類情形
【參考文獻(xiàn)】:
期刊論文
[1]面向類不平衡的邏輯回歸方法[J]. 郭華平,董亞?wèn)|,鄔長(zhǎng)安,范明. 模式識(shí)別與人工智能. 2015(08)
[2]加權(quán)最大夾角間隔核心集向量機(jī)的不平衡數(shù)據(jù)分類[J]. 魯淑霞,李黎敏. 山東大學(xué)學(xué)報(bào)(工學(xué)版). 2014(03)
[3]改進(jìn)隨機(jī)子空間與決策樹相結(jié)合的不平衡數(shù)據(jù)分類方法[J]. 胡小生. 佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào)(自然科學(xué)版). 2013(05)
[4]聚類邊界過(guò)采樣不平衡數(shù)據(jù)分類方法[J]. 樓曉俊,孫雨軒,劉海濤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2013(06)
[5]集成降采樣不平衡數(shù)據(jù)分類方法研究[J]. 郭麗娟,倪子偉,江弋,鄒權(quán). 計(jì)算機(jī)科學(xué)與探索. 2013(07)
[6]不平衡數(shù)據(jù)的無(wú)監(jiān)督特征選擇方法[J]. 蔣盛益,王連喜. 小型微型計(jì)算機(jī)系統(tǒng). 2013(01)
[7]基于Boosting的不平衡數(shù)據(jù)分類算法研究[J]. 李秋潔,茅耀斌,王執(zhí)銓. 計(jì)算機(jī)科學(xué). 2011(12)
[8]改進(jìn)的SVM解決背景知識(shí)數(shù)據(jù)中的類不平衡[J]. 王偉,薛安榮,劉峰. 計(jì)算機(jī)應(yīng)用研究. 2011(08)
[9]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[10]基于支持向量機(jī)的不平衡數(shù)據(jù)分類算法的研究[J]. 劉海濤,黃敏,朱啟兵,王聰. 計(jì)算機(jī)應(yīng)用研究. 2009(08)
碩士論文
[1]綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究[D]. 閆欣.東北電力大學(xué) 2016
[2]面向不平衡分類的邏輯回歸算法[D]. 董亞?wèn)|.鄭州大學(xué) 2015
[3]基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類[D]. 宋海燕.西安電子科技大學(xué) 2014
[4]基于非平衡數(shù)據(jù)分類的貸款違約預(yù)測(cè)研究[D]. 周麗峰.中南大學(xué) 2013
[5]基于組合抽樣技術(shù)的集成學(xué)習(xí)算法研究與應(yīng)用[D]. 劉國(guó)強(qiáng).中國(guó)海洋大學(xué) 2011
[6]不平衡數(shù)據(jù)集分類的Random-SMOTE方法研究[D]. 董燕杰.大連理工大學(xué) 2009
本文編號(hào):3691995
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3691995.html
最近更新
教材專著