風(fēng)險用戶識別中的高維不平衡數(shù)據(jù)分類研究
發(fā)布時間:2021-01-18 06:41
隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)的高維性和不平衡性成為常態(tài),經(jīng)典分類算法在處理這樣的高維不平衡數(shù)據(jù)時效果不理想,主要表現(xiàn)在分類結(jié)果向多數(shù)類樣本傾斜。但是在實際分類問題中,少數(shù)類樣本往往是關(guān)注的重點。因此如何在高維不平衡數(shù)據(jù)分類問題中提高少數(shù)類樣本的分類能力已經(jīng)成為當(dāng)前研究的熱點問題。現(xiàn)有對高維不平衡數(shù)據(jù)的研究主要從數(shù)據(jù)、特征和算法等三個層面進行,本文首先對這三個方面的研究現(xiàn)狀及相關(guān)理論背景進行介紹,然后通過對京東大數(shù)據(jù)競賽基于移動網(wǎng)絡(luò)通訊行為的風(fēng)險用戶識別數(shù)據(jù)進行研究發(fā)現(xiàn),由于距離度量的引入使得傳統(tǒng)數(shù)據(jù)平衡化方法難以在高維不平衡數(shù)據(jù)上發(fā)揮作用,而且數(shù)據(jù)的高維性帶來了大量無關(guān)特征和冗余特征,使得經(jīng)典分類模型在高維不平衡數(shù)據(jù)分類問題上表現(xiàn)不佳。為了解決以上問題,本文提出了基于Filter-Embedded模式的二階段特征選擇復(fù)合lightGBM模型。首先在特征層面針對Filter模式特征選擇方法精度低和Embedded模式特征選擇方法計算復(fù)雜度高的問題提出了基于Filter-Embedded模式的二階段特征選擇方法,即先通過mRMR算法進行Filter階段的特征選擇,刪除部分冗余特征和無關(guān)特征,然后...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
Filter階段特征選擇結(jié)果評價指標(biāo)折線圖
圖 4.3 特征重要度累積貢獻率圖看出,僅僅需要 260 個特征就可以取到模型子決策分特征屬于低重要度特征和零重要度特征,這部分特響模型分類結(jié)果,不利于模型訓(xùn)練,需要對此進行
標(biāo)準化后特征重要度top12的特征
【參考文獻】:
期刊論文
[1]新的基于代價敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類方法NIBoost[J]. 王莉,陳紅梅,王生武. 計算機應(yīng)用. 2019(03)
[2]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[3]基于CPD-SMOTE的類不平衡數(shù)據(jù)分類算法研究[J]. 彭如香,楊濤,孔華鋒,姜國慶,凡友榮. 計算機應(yīng)用與軟件. 2018(12)
[4]基于SVM的高維不平衡數(shù)據(jù)集分類算法[J]. 趙小強,張露. 南京大學(xué)學(xué)報(自然科學(xué)). 2018(02)
[5]基于客戶細分和AdaBoost的電子商務(wù)客戶流失預(yù)測研究[J]. 武小軍,孟蘇芳. 工業(yè)工程. 2017(02)
[6]基于代價敏感的AdaBoost算法改進[J]. 王學(xué)玲,王建林. 計算機應(yīng)用與軟件. 2013(10)
[7]一種基于混合重取樣策略的非均衡數(shù)據(jù)集分類算法[J]. 谷瓊,袁磊,寧彬,吳釗,華麗,李文新. 計算機工程與科學(xué). 2012(10)
[8]滾動軸承故障診斷中數(shù)據(jù)不均衡問題的研究[J]. 劉天羽,李國正. 計算機工程與科學(xué). 2010(05)
[9]不均衡數(shù)據(jù)集中基于Adaboost的過抽樣算法[J]. 韓慧,王文淵,毛炳寰. 計算機工程. 2007(10)
博士論文
[1]面向高維和不平衡數(shù)據(jù)分類的集成學(xué)習(xí)研究[D]. 尹華.武漢大學(xué) 2012
碩士論文
[1]非平衡數(shù)據(jù)集分類算法的改進和并行化研究[D]. 王莉.西南交通大學(xué) 2018
[2]面向高維大數(shù)據(jù)的特征選擇方法研究[D]. 張笑朋.太原理工大學(xué) 2018
[3]面向高維不平衡數(shù)據(jù)的特征選擇算法研究[D]. 王國權(quán).哈爾濱工業(yè)大學(xué) 2017
[4]大規(guī)模不均衡數(shù)據(jù)分類方法研究[D]. 浮盼盼.遼寧師范大學(xué) 2014
[5]不平衡數(shù)據(jù)集分類的Random-SMOTE方法研究[D]. 董燕杰.大連理工大學(xué) 2009
本文編號:2984481
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
Filter階段特征選擇結(jié)果評價指標(biāo)折線圖
圖 4.3 特征重要度累積貢獻率圖看出,僅僅需要 260 個特征就可以取到模型子決策分特征屬于低重要度特征和零重要度特征,這部分特響模型分類結(jié)果,不利于模型訓(xùn)練,需要對此進行
標(biāo)準化后特征重要度top12的特征
【參考文獻】:
期刊論文
[1]新的基于代價敏感集成學(xué)習(xí)的非平衡數(shù)據(jù)集分類方法NIBoost[J]. 王莉,陳紅梅,王生武. 計算機應(yīng)用. 2019(03)
[2]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[3]基于CPD-SMOTE的類不平衡數(shù)據(jù)分類算法研究[J]. 彭如香,楊濤,孔華鋒,姜國慶,凡友榮. 計算機應(yīng)用與軟件. 2018(12)
[4]基于SVM的高維不平衡數(shù)據(jù)集分類算法[J]. 趙小強,張露. 南京大學(xué)學(xué)報(自然科學(xué)). 2018(02)
[5]基于客戶細分和AdaBoost的電子商務(wù)客戶流失預(yù)測研究[J]. 武小軍,孟蘇芳. 工業(yè)工程. 2017(02)
[6]基于代價敏感的AdaBoost算法改進[J]. 王學(xué)玲,王建林. 計算機應(yīng)用與軟件. 2013(10)
[7]一種基于混合重取樣策略的非均衡數(shù)據(jù)集分類算法[J]. 谷瓊,袁磊,寧彬,吳釗,華麗,李文新. 計算機工程與科學(xué). 2012(10)
[8]滾動軸承故障診斷中數(shù)據(jù)不均衡問題的研究[J]. 劉天羽,李國正. 計算機工程與科學(xué). 2010(05)
[9]不均衡數(shù)據(jù)集中基于Adaboost的過抽樣算法[J]. 韓慧,王文淵,毛炳寰. 計算機工程. 2007(10)
博士論文
[1]面向高維和不平衡數(shù)據(jù)分類的集成學(xué)習(xí)研究[D]. 尹華.武漢大學(xué) 2012
碩士論文
[1]非平衡數(shù)據(jù)集分類算法的改進和并行化研究[D]. 王莉.西南交通大學(xué) 2018
[2]面向高維大數(shù)據(jù)的特征選擇方法研究[D]. 張笑朋.太原理工大學(xué) 2018
[3]面向高維不平衡數(shù)據(jù)的特征選擇算法研究[D]. 王國權(quán).哈爾濱工業(yè)大學(xué) 2017
[4]大規(guī)模不均衡數(shù)據(jù)分類方法研究[D]. 浮盼盼.遼寧師范大學(xué) 2014
[5]不平衡數(shù)據(jù)集分類的Random-SMOTE方法研究[D]. 董燕杰.大連理工大學(xué) 2009
本文編號:2984481
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2984481.html
最近更新
教材專著