面向不平衡分類的邏輯回歸算法
發(fā)布時間:2021-05-13 21:01
類分布不平衡的數(shù)據(jù)集在現(xiàn)實生活中大量存在,傳統(tǒng)的成熟分類算法大多建立在數(shù)據(jù)集類分布大致平衡這一假設(shè)上,而對于類分布不平衡的數(shù)據(jù)集往往取得較差的分類效果。而且,在不平衡分類問題中往往少數(shù)類比多數(shù)類具有更重要的意義,因此不能僅僅使用準確率來評估不平衡分類算法的性能,對于不平衡分類問題可用召回率、g-mean值以及f-measure值等評估指標對不平衡分類算法進行評估。邏輯回歸算法是數(shù)據(jù)挖掘中常用的分類方法,尤其對于兩類分類問題。邏輯回歸算法最明顯的優(yōu)勢就是它是基于概率的分類算法并且很容易被擴展到多類問題,但是邏輯回歸并不適應(yīng)于不平衡分類問題,因為其目標函數(shù)是最大化每個實例被正確分類的概率的對數(shù)之和,而不考慮該實例是少數(shù)類還是多數(shù)類,這樣會導(dǎo)致將更多的少數(shù)類實例誤分為多數(shù)類。因此在邏輯回歸的基礎(chǔ)處上,本文根據(jù)類分布不平衡數(shù)據(jù)集的特點,結(jié)合傳統(tǒng)的邏輯回歸算法和三個不平衡分類問題的評價指標召回率、g-mean值以及f-measure值提出了三種適合于不平衡分類的目標函數(shù)LRM(Logistic and Recall based Metric)、GBM(G-mean based Metric)和F...
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:48 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 本文的主要貢獻
1.3 本文的組織架構(gòu)
2 相關(guān)知識
2.1 不平衡數(shù)據(jù)集及不平衡數(shù)據(jù)分類方法
2.1.1 不平衡數(shù)據(jù)集
2.1.2 不平衡數(shù)據(jù)分類方法
2.2 邏輯回歸原理
2.3 最優(yōu)化方法
2.3.1 最速下降法
2.3.2 牛頓法
2.3.3 擬牛頓法
2.4 本章小結(jié)
3 目標函數(shù)的設(shè)計
3.1 基于recall的目標函數(shù)
3.2 基于g-mean的目標函數(shù)
3.3 基于f-measure的目標函數(shù)
3.4 本章小結(jié)
4 面向不平衡分類的邏輯回歸算法
4.1 算法描述
4.2 本章小結(jié)
5 實驗
5.1 實驗數(shù)據(jù)
5.2 實驗設(shè)置
5.3 評價指標
5.4 實驗結(jié)果與分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 下一步工作
參考文獻
致謝
個人簡介
1 個人簡歷
2 發(fā)表的學(xué)術(shù)論文及著作權(quán)
【參考文獻】:
期刊論文
[1]一種面向非平衡數(shù)據(jù)集分類問題的組合選擇方法[J]. 職為梅,郭華平,張銀峰,范明. 小型微型計算機系統(tǒng). 2014(04)
[2]基于密度估計的邏輯回歸模型[J]. 毛毅,陳穩(wěn)霖,郭寶龍,陳一昕. 自動化學(xué)報. 2014(01)
[3]多標簽代價敏感分類集成學(xué)習(xí)算法[J]. 付忠良. 自動化學(xué)報. 2014(06)
[4]AdaBoost算法研究進展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動化學(xué)報. 2013(06)
[5]基于支持向量機的不平衡數(shù)據(jù)分類的改進欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(自然科學(xué)版). 2012(06)
[6]非平衡數(shù)據(jù)集分類方法探討[J]. 職為梅,郭華平,范明,葉陽東. 計算機科學(xué). 2012(S1)
[7]基于改進SMOTE的非平衡數(shù)據(jù)集分類研究[J]. 王超學(xué),潘正茂,董麗麗,馬春森,張星. 計算機工程與應(yīng)用. 2013(02)
[8]不平衡多分類問題的連續(xù)AdaBoost算法研究[J]. 付忠良. 計算機研究與發(fā)展. 2011(12)
[9]不平衡數(shù)據(jù)采樣方法的對比學(xué)習(xí)[J]. 王曉娟,郭躬德. 微計算機信息. 2011(12)
[10]一種基于重取樣的代價敏感學(xué)習(xí)算法[J]. 谷瓊,袁磊,寧彬,熊啟軍,華麗,李文新. 計算機工程與科學(xué). 2011(09)
博士論文
[1]擬牛頓法及其收斂性[D]. 周偉軍.湖南大學(xué) 2006
碩士論文
[1]基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D]. 劉力銀.電子科技大學(xué) 2013
本文編號:3184697
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:48 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 本文的主要貢獻
1.3 本文的組織架構(gòu)
2 相關(guān)知識
2.1 不平衡數(shù)據(jù)集及不平衡數(shù)據(jù)分類方法
2.1.1 不平衡數(shù)據(jù)集
2.1.2 不平衡數(shù)據(jù)分類方法
2.2 邏輯回歸原理
2.3 最優(yōu)化方法
2.3.1 最速下降法
2.3.2 牛頓法
2.3.3 擬牛頓法
2.4 本章小結(jié)
3 目標函數(shù)的設(shè)計
3.1 基于recall的目標函數(shù)
3.2 基于g-mean的目標函數(shù)
3.3 基于f-measure的目標函數(shù)
3.4 本章小結(jié)
4 面向不平衡分類的邏輯回歸算法
4.1 算法描述
4.2 本章小結(jié)
5 實驗
5.1 實驗數(shù)據(jù)
5.2 實驗設(shè)置
5.3 評價指標
5.4 實驗結(jié)果與分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 下一步工作
參考文獻
致謝
個人簡介
1 個人簡歷
2 發(fā)表的學(xué)術(shù)論文及著作權(quán)
【參考文獻】:
期刊論文
[1]一種面向非平衡數(shù)據(jù)集分類問題的組合選擇方法[J]. 職為梅,郭華平,張銀峰,范明. 小型微型計算機系統(tǒng). 2014(04)
[2]基于密度估計的邏輯回歸模型[J]. 毛毅,陳穩(wěn)霖,郭寶龍,陳一昕. 自動化學(xué)報. 2014(01)
[3]多標簽代價敏感分類集成學(xué)習(xí)算法[J]. 付忠良. 自動化學(xué)報. 2014(06)
[4]AdaBoost算法研究進展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動化學(xué)報. 2013(06)
[5]基于支持向量機的不平衡數(shù)據(jù)分類的改進欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(自然科學(xué)版). 2012(06)
[6]非平衡數(shù)據(jù)集分類方法探討[J]. 職為梅,郭華平,范明,葉陽東. 計算機科學(xué). 2012(S1)
[7]基于改進SMOTE的非平衡數(shù)據(jù)集分類研究[J]. 王超學(xué),潘正茂,董麗麗,馬春森,張星. 計算機工程與應(yīng)用. 2013(02)
[8]不平衡多分類問題的連續(xù)AdaBoost算法研究[J]. 付忠良. 計算機研究與發(fā)展. 2011(12)
[9]不平衡數(shù)據(jù)采樣方法的對比學(xué)習(xí)[J]. 王曉娟,郭躬德. 微計算機信息. 2011(12)
[10]一種基于重取樣的代價敏感學(xué)習(xí)算法[J]. 谷瓊,袁磊,寧彬,熊啟軍,華麗,李文新. 計算機工程與科學(xué). 2011(09)
博士論文
[1]擬牛頓法及其收斂性[D]. 周偉軍.湖南大學(xué) 2006
碩士論文
[1]基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D]. 劉力銀.電子科技大學(xué) 2013
本文編號:3184697
本文鏈接:http://sikaile.net/shekelunwen/ljx/3184697.html
最近更新
教材專著