基于重采樣的代價(jià)敏感學(xué)習(xí)在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
發(fā)布時(shí)間:2022-02-19 16:50
網(wǎng)絡(luò)貸款數(shù)據(jù)集具有申請量大而獲批少的特征,是典型的不平衡數(shù)據(jù)集。利用機(jī)器學(xué)習(xí)方法,預(yù)先篩選出可能給予貸款的用戶,可大大減少后續(xù)人工審核的工作量,加快貸款用戶的響應(yīng)速度,具有較好的應(yīng)用價(jià)值。對不平衡數(shù)據(jù)集的研究集中在數(shù)據(jù)層面和算法層面,本文在數(shù)據(jù)層面對隨機(jī)平衡采樣算法進(jìn)行改進(jìn),在算法層面提出改進(jìn)的代價(jià)敏感決策樹算法,最后對算法層面和數(shù)據(jù)層面的改進(jìn)算法進(jìn)行融合,提出以最小誤分類總代價(jià)為目標(biāo)的新算法,并將提出的方法用于貸款用戶分類研究中,論文的主要工作和貢獻(xiàn)如下:1.不平衡數(shù)據(jù)集的重采樣算法:本文在隨機(jī)平衡采樣算法的基礎(chǔ)上,提出改進(jìn)的隨機(jī)平衡采樣算法,該算法先根據(jù)樣本點(diǎn)的位置,將所有樣本點(diǎn)分為三類:安全點(diǎn)、邊界點(diǎn)和噪聲點(diǎn),之后移除噪聲點(diǎn)和邊界點(diǎn)中的多數(shù)類樣本,這樣不同類樣本間的分類邊界更清晰,并針對不同類型的樣本采用不同的采樣方式;再同時(shí)對多數(shù)類樣本進(jìn)行欠采樣、少數(shù)類樣本進(jìn)行過采樣,使樣本集中各類別樣本數(shù)目基本一致。在網(wǎng)絡(luò)貸款分類中,與隨機(jī)平衡采樣算法相比,該算法提高了少數(shù)類樣本的分類準(zhǔn)確率。2.不平衡數(shù)據(jù)集的代價(jià)敏感學(xué)習(xí)算法:本文在代價(jià)敏感決策樹敏感函數(shù)的計(jì)算中加入類分布,以減弱正負(fù)類樣本...
【文章來源】:華南理工大學(xué)廣東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 問題的提出
1.1.1 選題的研究背景
1.1.2 選題的目的及意義
1.2 國內(nèi)外研究綜述
1.2.1 網(wǎng)絡(luò)貸款國外研究綜述
1.2.2 類別不平衡問題國內(nèi)外研究綜述
1.3 本文的主要研究內(nèi)容
1.4 本文的結(jié)構(gòu)安排
第二章 分類算法
2.1 常用的分類算法
2.1.1 決策樹
2.1.2 邏輯回歸
2.1.3 支持向量機(jī)
2.2 分類器性能評估
2.2.1 分類器常用的數(shù)值評價(jià)指標(biāo)
2.2.2 分類器常用的可視化評價(jià)指標(biāo)
2.3 類別不平衡分類問題
2.3.1 類別不平衡分類問題的難點(diǎn)
2.3.2 類別不平衡分類問題的常用解決辦法
2.4 代價(jià)敏感分類問題
2.4.1 代價(jià)敏感分類問題的定義
2.4.2 代價(jià)敏感問題的常用解決辦法
2.4.3 代價(jià)敏感學(xué)習(xí)的評價(jià)指標(biāo)
2.4.4 典型的代價(jià)敏感學(xué)習(xí)算法
2.5 本章小結(jié)
第三章 樣本重采樣算法
3.1 改進(jìn)的隨機(jī)平衡采樣算法
3.1.1 隨機(jī)平衡采樣算法
3.1.2 改進(jìn)的隨機(jī)平衡采樣算法
3.1.3 改進(jìn)的隨機(jī)平衡采樣Bagging集成算法
3.2 基于IRBSBagging算法的仿真實(shí)驗(yàn)
3.2.1 以決策樹作為基分類器
3.2.2 以LR作為基分類器
3.2.3 以SVM作為基分類器
3.2.4 實(shí)驗(yàn)結(jié)果分析
3.3 基于IRBSBagging算法的貸款用戶分類應(yīng)用
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第四章 代價(jià)敏感學(xué)習(xí)
4.1 改進(jìn)的代價(jià)敏感決策樹算法
4.1.1 代價(jià)敏感決策樹算法
4.1.2 加入類分布的代價(jià)敏感決策樹算法
4.1.3 改進(jìn)的代價(jià)敏感決策樹的集成算法
4.2 基于IID3cs算法的仿真實(shí)驗(yàn)
4.2.1 Sick數(shù)據(jù)集實(shí)驗(yàn)
4.2.2 Hepatitis數(shù)據(jù)集實(shí)驗(yàn)
4.2.3 Ionosphere數(shù)據(jù)集實(shí)驗(yàn)
4.2.4 BankMarketing數(shù)據(jù)集實(shí)驗(yàn)
4.2.5 實(shí)驗(yàn)結(jié)果分析
4.3 基于IID3cs算法在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第五章 基于重采樣的代價(jià)敏感學(xué)習(xí)
5.1 基于重采樣的代價(jià)敏感學(xué)習(xí)的仿真實(shí)驗(yàn)
5.1.1 Sick數(shù)據(jù)集
5.1.2 Hepatitis數(shù)據(jù)集
5.1.3 Ionosphere數(shù)據(jù)集
5.1.4 BankMarketing數(shù)據(jù)集
5.2 基于重采樣的代價(jià)敏感學(xué)習(xí)在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)的隨機(jī)平衡采樣bagging算法分類研究[J]. 季夢遙,袁磊. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[2]基于不平衡樣本的互聯(lián)網(wǎng)個(gè)人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計(jì)與信息論壇. 2017(02)
[3]代價(jià)敏感學(xué)習(xí)中的損失函數(shù)設(shè)計(jì)[J]. 李秋潔,趙亞琴,顧洲. 控制理論與應(yīng)用. 2015(05)
[4]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計(jì)算機(jī)應(yīng)用研究. 2014(05)
[5]不平衡多分類問題的連續(xù)AdaBoost算法研究[J]. 付忠良. 計(jì)算機(jī)研究與發(fā)展. 2011(12)
[6]基于代價(jià)敏感決策樹的客戶價(jià)值細(xì)分(英文)[J]. 鄒鵬,莫佳卉,江亦華,葉強(qiáng). 管理科學(xué). 2011(02)
[7]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[8]多種個(gè)人信用評分模型在中國應(yīng)用的比較研究[J]. 石慶焱,靳云匯. 統(tǒng)計(jì)研究. 2004(06)
[9]淺析房地產(chǎn)消費(fèi)信貸現(xiàn)狀[J]. 仲莉紅. 建筑經(jīng)濟(jì). 2003(10)
碩士論文
[1]基于網(wǎng)絡(luò)信貸數(shù)據(jù)的分類器構(gòu)造[D]. 尹超.中國科學(xué)技術(shù)大學(xué) 2016
本文編號:3633264
【文章來源】:華南理工大學(xué)廣東省211工程院校985工程院校教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 問題的提出
1.1.1 選題的研究背景
1.1.2 選題的目的及意義
1.2 國內(nèi)外研究綜述
1.2.1 網(wǎng)絡(luò)貸款國外研究綜述
1.2.2 類別不平衡問題國內(nèi)外研究綜述
1.3 本文的主要研究內(nèi)容
1.4 本文的結(jié)構(gòu)安排
第二章 分類算法
2.1 常用的分類算法
2.1.1 決策樹
2.1.2 邏輯回歸
2.1.3 支持向量機(jī)
2.2 分類器性能評估
2.2.1 分類器常用的數(shù)值評價(jià)指標(biāo)
2.2.2 分類器常用的可視化評價(jià)指標(biāo)
2.3 類別不平衡分類問題
2.3.1 類別不平衡分類問題的難點(diǎn)
2.3.2 類別不平衡分類問題的常用解決辦法
2.4 代價(jià)敏感分類問題
2.4.1 代價(jià)敏感分類問題的定義
2.4.2 代價(jià)敏感問題的常用解決辦法
2.4.3 代價(jià)敏感學(xué)習(xí)的評價(jià)指標(biāo)
2.4.4 典型的代價(jià)敏感學(xué)習(xí)算法
2.5 本章小結(jié)
第三章 樣本重采樣算法
3.1 改進(jìn)的隨機(jī)平衡采樣算法
3.1.1 隨機(jī)平衡采樣算法
3.1.2 改進(jìn)的隨機(jī)平衡采樣算法
3.1.3 改進(jìn)的隨機(jī)平衡采樣Bagging集成算法
3.2 基于IRBSBagging算法的仿真實(shí)驗(yàn)
3.2.1 以決策樹作為基分類器
3.2.2 以LR作為基分類器
3.2.3 以SVM作為基分類器
3.2.4 實(shí)驗(yàn)結(jié)果分析
3.3 基于IRBSBagging算法的貸款用戶分類應(yīng)用
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 實(shí)驗(yàn)結(jié)果及分析
3.4 本章小結(jié)
第四章 代價(jià)敏感學(xué)習(xí)
4.1 改進(jìn)的代價(jià)敏感決策樹算法
4.1.1 代價(jià)敏感決策樹算法
4.1.2 加入類分布的代價(jià)敏感決策樹算法
4.1.3 改進(jìn)的代價(jià)敏感決策樹的集成算法
4.2 基于IID3cs算法的仿真實(shí)驗(yàn)
4.2.1 Sick數(shù)據(jù)集實(shí)驗(yàn)
4.2.2 Hepatitis數(shù)據(jù)集實(shí)驗(yàn)
4.2.3 Ionosphere數(shù)據(jù)集實(shí)驗(yàn)
4.2.4 BankMarketing數(shù)據(jù)集實(shí)驗(yàn)
4.2.5 實(shí)驗(yàn)結(jié)果分析
4.3 基于IID3cs算法在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
第五章 基于重采樣的代價(jià)敏感學(xué)習(xí)
5.1 基于重采樣的代價(jià)敏感學(xué)習(xí)的仿真實(shí)驗(yàn)
5.1.1 Sick數(shù)據(jù)集
5.1.2 Hepatitis數(shù)據(jù)集
5.1.3 Ionosphere數(shù)據(jù)集
5.1.4 BankMarketing數(shù)據(jù)集
5.2 基于重采樣的代價(jià)敏感學(xué)習(xí)在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
5.3 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]不平衡數(shù)據(jù)的隨機(jī)平衡采樣bagging算法分類研究[J]. 季夢遙,袁磊. 貴州大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[2]基于不平衡樣本的互聯(lián)網(wǎng)個(gè)人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計(jì)與信息論壇. 2017(02)
[3]代價(jià)敏感學(xué)習(xí)中的損失函數(shù)設(shè)計(jì)[J]. 李秋潔,趙亞琴,顧洲. 控制理論與應(yīng)用. 2015(05)
[4]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍. 計(jì)算機(jī)應(yīng)用研究. 2014(05)
[5]不平衡多分類問題的連續(xù)AdaBoost算法研究[J]. 付忠良. 計(jì)算機(jī)研究與發(fā)展. 2011(12)
[6]基于代價(jià)敏感決策樹的客戶價(jià)值細(xì)分(英文)[J]. 鄒鵬,莫佳卉,江亦華,葉強(qiáng). 管理科學(xué). 2011(02)
[7]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武. 計(jì)算機(jī)科學(xué). 2010(10)
[8]多種個(gè)人信用評分模型在中國應(yīng)用的比較研究[J]. 石慶焱,靳云匯. 統(tǒng)計(jì)研究. 2004(06)
[9]淺析房地產(chǎn)消費(fèi)信貸現(xiàn)狀[J]. 仲莉紅. 建筑經(jīng)濟(jì). 2003(10)
碩士論文
[1]基于網(wǎng)絡(luò)信貸數(shù)據(jù)的分類器構(gòu)造[D]. 尹超.中國科學(xué)技術(shù)大學(xué) 2016
本文編號:3633264
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3633264.html
最近更新
教材專著