基于智能特征選擇和集成學(xué)習(xí)的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測
發(fā)布時(shí)間:2022-02-11 16:29
大數(shù)據(jù)、人工智能技術(shù)的研究和應(yīng)用正在不斷加速金融產(chǎn)業(yè)的發(fā)展。許多金融信貸機(jī)構(gòu)已經(jīng)將數(shù)據(jù)挖掘技術(shù)應(yīng)用于信用貸款風(fēng)險(xiǎn)預(yù)測、信用評(píng)分,從海量的客戶數(shù)據(jù)中抽取可以識(shí)別客戶風(fēng)險(xiǎn)的有效信息,進(jìn)一步實(shí)現(xiàn)精細(xì)化的信貸審批和額度分配。由于客戶數(shù)據(jù)存在高維度、類別極度不均衡、稀疏等問題。目前,信貸風(fēng)險(xiǎn)預(yù)測的研究主要集中在特征工程和信用評(píng)估模型上。特征工程可以從原始數(shù)據(jù)中構(gòu)造出特征數(shù)據(jù),評(píng)估模型將客戶的特征數(shù)據(jù)進(jìn)行模式識(shí)別。本文從特征工程-模型構(gòu)建的角度出發(fā),對(duì)高維的客戶數(shù)據(jù)進(jìn)行特征選擇,并利用特征選擇后的數(shù)據(jù)建立基于集成學(xué)習(xí)的風(fēng)險(xiǎn)預(yù)測模型;谥悄芴卣鬟x擇的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測包含以下創(chuàng)新研究:(1)針對(duì)客戶數(shù)據(jù)存在高維度且特征冗余等問題,提出一種改進(jìn)的基于頭腦風(fēng)暴優(yōu)化算法的特征選擇方法。由于傳統(tǒng)特征選擇方法性能不佳,且現(xiàn)有的智能算法優(yōu)化效率低、收斂慢。因此,本文通過整合頭腦風(fēng)暴優(yōu)化算法的空間探索能力和強(qiáng)化學(xué)習(xí)對(duì)規(guī)則的推理能力,定義適合特征選擇問題的動(dòng)作-狀態(tài)函數(shù),設(shè)計(jì)兩種特征子集搜索方法:全局強(qiáng)化搜索和局部變鄰域搜索,并執(zhí)行基于動(dòng)態(tài)更新概率的特征選擇方式。(2)針對(duì)客戶數(shù)據(jù)存在類別極度不均衡、稀疏且存...
【文章來源】:深圳大學(xué)廣東省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
研究方案框架圖
基于智能特征選擇和集成學(xué)習(xí)的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測7第2章研究綜述由于本文采用特征工程-模型構(gòu)建的研究架構(gòu),且將特征選擇作為特征工程的主要研究手段。因此本章講對(duì)特征選擇方法,包括經(jīng)典的特征選擇和基于智能優(yōu)化算法的特征選擇方法進(jìn)行綜述。除此之外,鑒于互聯(lián)網(wǎng)信貸風(fēng)險(xiǎn)預(yù)測問題可歸納為分類問題,本章對(duì)互聯(lián)網(wǎng)信貸風(fēng)險(xiǎn)預(yù)測的分類算法進(jìn)行綜述。2.1特征選擇方法綜述2.1.1經(jīng)典的特征選擇方法圖2特征選擇的基本流程在風(fēng)險(xiǎn)預(yù)測業(yè)務(wù)中,數(shù)據(jù)的維數(shù)越來越高,給現(xiàn)有的模式識(shí)別帶來了嚴(yán)峻的挑戰(zhàn),如維度詛咒:過多的特征使得學(xué)習(xí)模型更容易過度擬合和表現(xiàn)不佳。為了解決維度災(zāi)難,學(xué)術(shù)界們研究了降維方法。特征選擇(FeatureSelection,F(xiàn)S)是一種廣泛應(yīng)用的降維方法,其目的是通過減少不相關(guān)和冗余的特征來獲得一個(gè)緊湊的數(shù)據(jù)結(jié)構(gòu)[19]。它也被視為從原始特征中選擇子集的過程[20]。從傳統(tǒng)的角度定義,給定m個(gè)原始特征,從中挑選n(m>n,且n>0)個(gè)特征的特征子集。因此,遍歷特征子集的復(fù)雜度為2"1。隨著數(shù)據(jù)維度的增加,問題的復(fù)雜性也隨之增大,搜索空間呈指數(shù)上升,尋找最優(yōu)特征子集的難度也隨之增大。特征選擇是一個(gè)NP難題,主要體現(xiàn)在搜索空間大,多項(xiàng)式有限時(shí)間復(fù)雜度內(nèi)無法求得最優(yōu)解[13]。特征選擇還存在特征交互現(xiàn)象:特征之間可以有雙向、三向或復(fù)雜的多通道交互,一個(gè)與目標(biāo)概念本身相關(guān)性較弱的特征,如果與一些互補(bǔ)特征結(jié)合使用,可以顯著提高學(xué)習(xí)器性能。相反,當(dāng)與一些互斥特征一起使用時(shí),單獨(dú)相關(guān)的特征可能變得多余,移除或選擇這些特征可能會(huì)錯(cuò)過最佳特征子集[12]。學(xué)術(shù)界對(duì)于特征選擇的一般過程定義為圖2。其中,子集評(píng)估(特征評(píng)估)和子集生成(搜索策略)是兩個(gè)關(guān)鍵的部分[21],即探索定義域空間以找到最佳特征子集?
基于智能特征選擇和集成學(xué)習(xí)的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測10頭腦風(fēng)暴優(yōu)化(BSO)等。一般地,基于智能優(yōu)化算法的特征選擇方法流程如圖3所示,由于智能優(yōu)化算法的種群交流和個(gè)體更新方式是影響特征選擇性能的主要因素,因此研究者們把研究的重點(diǎn)轉(zhuǎn)為探索更優(yōu)的更新策略和探索機(jī)制。由于不同的智能優(yōu)化算法方法有不同的種群交流機(jī)制和個(gè)體更新方式,因此本小節(jié)綜述主流的方法并且針對(duì)優(yōu)缺點(diǎn)進(jìn)行論述,給出選擇合適的智能優(yōu)化算法的原因。在實(shí)際操作過程當(dāng)中,常用的搜索方案的編碼有兩類:連續(xù)型和離散型。假設(shè)原始數(shù)據(jù)集的特征個(gè)數(shù)為m,期望所選特征子集尺寸為n。連續(xù)型編碼是指可行解的維度為n,且生成的特征集合是原始特征集合的不重復(fù)子集。離散型編碼的可行解維度為m,對(duì)于每個(gè)維度的特征,使用1來表示該特征被選擇,使用0來表示該特征不被選擇。由于智能優(yōu)化算法是一種在連續(xù)空間更新的方法,則使用預(yù)定的策略來決定0/1編碼,通常設(shè)定一個(gè)閾值,如果每個(gè)個(gè)體的在該維度上的向量值大于這個(gè)閾值,則該特征被編碼為1,反之編碼為0。連續(xù)型編碼能夠規(guī)定特征子集的尺寸,從而縮小的搜索空間和可行解的范圍,缺點(diǎn)是難以通過先驗(yàn)知識(shí)找到最佳特征子集尺寸,可能導(dǎo)致無法找到全局最優(yōu)解。因此,離散型編碼的智能優(yōu)化算法方法更加靈活,也避免了錯(cuò)過最優(yōu)解的困境,因此成為學(xué)者們普遍采用的方法[12]。圖3基于智能優(yōu)化算法的特征選擇方法基本流程遺傳優(yōu)化算法:遺傳算法很可能是第一種廣泛應(yīng)用于特征選擇問題的智能優(yōu)化技術(shù),其使用二進(jìn)制字符串的自然表示形式,其中1表示相應(yīng)的特征被選擇,0表示該特征不被選擇。為了提高性能,人們對(duì)GAs提出了許多新的改進(jìn),主要集中在搜索機(jī)制、表示和適應(yīng)度函數(shù)上。一些早期的工作[38][39]通過研究種群大孝變異、交叉和繁殖
【參考文獻(xiàn)】:
期刊論文
[1]基于強(qiáng)化學(xué)習(xí)的特征選擇算法[J]. 朱振國,趙凱旋,劉民康. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[2]數(shù)據(jù)驅(qū)動(dòng)的發(fā)展式頭腦風(fēng)暴優(yōu)化算法綜述[J]. 程適,陳俊風(fēng),孫奕菲,史玉回. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版). 2018(03)
[3]阿里巴巴和京東個(gè)人信用評(píng)分體系差異性研究[J]. 劉奕雄. 金融經(jīng)濟(jì). 2017(14)
[4]美國ZestFinance公司大數(shù)據(jù)征信實(shí)踐[J]. 劉新海,丁偉. 征信. 2015(08)
[5]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
博士論文
[1]醫(yī)療保險(xiǎn)大數(shù)據(jù)中的欺詐檢測關(guān)鍵問題研究[D]. 高永昌.山東大學(xué) 2018
[2]基于判別分析和期望違約率方法的信用風(fēng)險(xiǎn)度量及管理研究[D]. 張玲.湖南大學(xué) 2005
碩士論文
[1]數(shù)據(jù)挖掘技術(shù)在征信數(shù)據(jù)中的應(yīng)用研究[D]. 陳逸杰.南京郵電大學(xué) 2019
[2]基于非均衡數(shù)據(jù)處理和特征選擇的信貸風(fēng)險(xiǎn)評(píng)估算法研究[D]. 李霜.西北大學(xué) 2019
[3]基于XGBoost的互聯(lián)網(wǎng)金融貸前逾期識(shí)別與模型表達(dá)[D]. 陳文豪.哈爾濱工業(yè)大學(xué) 2019
[4]對(duì)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)的研究[D]. 楊陽.上海外國語大學(xué) 2019
[5]基于集成學(xué)習(xí)的信用卡欺詐識(shí)別方法研究[D]. 鄧景熹.蘭州大學(xué) 2019
[6]汽車保險(xiǎn)欺詐索賠的關(guān)聯(lián)分析[D]. 杜小雨.蘭州大學(xué) 2019
[7]基于圖特征的欺詐檢測方法研究與應(yīng)用[D]. 施朝浩.浙江大學(xué) 2019
[8]基于集成學(xué)習(xí)的信用風(fēng)險(xiǎn)預(yù)測研究[D]. 張亞琴.蘭州大學(xué) 2019
[9]組合模型在網(wǎng)絡(luò)借貸反欺詐中的應(yīng)用研究[D]. 李學(xué)燕.對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[10]基于離群點(diǎn)分析技術(shù)的醫(yī)保欺詐檢測模型的研究與實(shí)現(xiàn)[D]. 王煜.東南大學(xué) 2018
本文編號(hào):3620599
【文章來源】:深圳大學(xué)廣東省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
研究方案框架圖
基于智能特征選擇和集成學(xué)習(xí)的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測7第2章研究綜述由于本文采用特征工程-模型構(gòu)建的研究架構(gòu),且將特征選擇作為特征工程的主要研究手段。因此本章講對(duì)特征選擇方法,包括經(jīng)典的特征選擇和基于智能優(yōu)化算法的特征選擇方法進(jìn)行綜述。除此之外,鑒于互聯(lián)網(wǎng)信貸風(fēng)險(xiǎn)預(yù)測問題可歸納為分類問題,本章對(duì)互聯(lián)網(wǎng)信貸風(fēng)險(xiǎn)預(yù)測的分類算法進(jìn)行綜述。2.1特征選擇方法綜述2.1.1經(jīng)典的特征選擇方法圖2特征選擇的基本流程在風(fēng)險(xiǎn)預(yù)測業(yè)務(wù)中,數(shù)據(jù)的維數(shù)越來越高,給現(xiàn)有的模式識(shí)別帶來了嚴(yán)峻的挑戰(zhàn),如維度詛咒:過多的特征使得學(xué)習(xí)模型更容易過度擬合和表現(xiàn)不佳。為了解決維度災(zāi)難,學(xué)術(shù)界們研究了降維方法。特征選擇(FeatureSelection,F(xiàn)S)是一種廣泛應(yīng)用的降維方法,其目的是通過減少不相關(guān)和冗余的特征來獲得一個(gè)緊湊的數(shù)據(jù)結(jié)構(gòu)[19]。它也被視為從原始特征中選擇子集的過程[20]。從傳統(tǒng)的角度定義,給定m個(gè)原始特征,從中挑選n(m>n,且n>0)個(gè)特征的特征子集。因此,遍歷特征子集的復(fù)雜度為2"1。隨著數(shù)據(jù)維度的增加,問題的復(fù)雜性也隨之增大,搜索空間呈指數(shù)上升,尋找最優(yōu)特征子集的難度也隨之增大。特征選擇是一個(gè)NP難題,主要體現(xiàn)在搜索空間大,多項(xiàng)式有限時(shí)間復(fù)雜度內(nèi)無法求得最優(yōu)解[13]。特征選擇還存在特征交互現(xiàn)象:特征之間可以有雙向、三向或復(fù)雜的多通道交互,一個(gè)與目標(biāo)概念本身相關(guān)性較弱的特征,如果與一些互補(bǔ)特征結(jié)合使用,可以顯著提高學(xué)習(xí)器性能。相反,當(dāng)與一些互斥特征一起使用時(shí),單獨(dú)相關(guān)的特征可能變得多余,移除或選擇這些特征可能會(huì)錯(cuò)過最佳特征子集[12]。學(xué)術(shù)界對(duì)于特征選擇的一般過程定義為圖2。其中,子集評(píng)估(特征評(píng)估)和子集生成(搜索策略)是兩個(gè)關(guān)鍵的部分[21],即探索定義域空間以找到最佳特征子集?
基于智能特征選擇和集成學(xué)習(xí)的互聯(lián)網(wǎng)金融信貸風(fēng)險(xiǎn)預(yù)測10頭腦風(fēng)暴優(yōu)化(BSO)等。一般地,基于智能優(yōu)化算法的特征選擇方法流程如圖3所示,由于智能優(yōu)化算法的種群交流和個(gè)體更新方式是影響特征選擇性能的主要因素,因此研究者們把研究的重點(diǎn)轉(zhuǎn)為探索更優(yōu)的更新策略和探索機(jī)制。由于不同的智能優(yōu)化算法方法有不同的種群交流機(jī)制和個(gè)體更新方式,因此本小節(jié)綜述主流的方法并且針對(duì)優(yōu)缺點(diǎn)進(jìn)行論述,給出選擇合適的智能優(yōu)化算法的原因。在實(shí)際操作過程當(dāng)中,常用的搜索方案的編碼有兩類:連續(xù)型和離散型。假設(shè)原始數(shù)據(jù)集的特征個(gè)數(shù)為m,期望所選特征子集尺寸為n。連續(xù)型編碼是指可行解的維度為n,且生成的特征集合是原始特征集合的不重復(fù)子集。離散型編碼的可行解維度為m,對(duì)于每個(gè)維度的特征,使用1來表示該特征被選擇,使用0來表示該特征不被選擇。由于智能優(yōu)化算法是一種在連續(xù)空間更新的方法,則使用預(yù)定的策略來決定0/1編碼,通常設(shè)定一個(gè)閾值,如果每個(gè)個(gè)體的在該維度上的向量值大于這個(gè)閾值,則該特征被編碼為1,反之編碼為0。連續(xù)型編碼能夠規(guī)定特征子集的尺寸,從而縮小的搜索空間和可行解的范圍,缺點(diǎn)是難以通過先驗(yàn)知識(shí)找到最佳特征子集尺寸,可能導(dǎo)致無法找到全局最優(yōu)解。因此,離散型編碼的智能優(yōu)化算法方法更加靈活,也避免了錯(cuò)過最優(yōu)解的困境,因此成為學(xué)者們普遍采用的方法[12]。圖3基于智能優(yōu)化算法的特征選擇方法基本流程遺傳優(yōu)化算法:遺傳算法很可能是第一種廣泛應(yīng)用于特征選擇問題的智能優(yōu)化技術(shù),其使用二進(jìn)制字符串的自然表示形式,其中1表示相應(yīng)的特征被選擇,0表示該特征不被選擇。為了提高性能,人們對(duì)GAs提出了許多新的改進(jìn),主要集中在搜索機(jī)制、表示和適應(yīng)度函數(shù)上。一些早期的工作[38][39]通過研究種群大孝變異、交叉和繁殖
【參考文獻(xiàn)】:
期刊論文
[1]基于強(qiáng)化學(xué)習(xí)的特征選擇算法[J]. 朱振國,趙凱旋,劉民康. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(10)
[2]數(shù)據(jù)驅(qū)動(dòng)的發(fā)展式頭腦風(fēng)暴優(yōu)化算法綜述[J]. 程適,陳俊風(fēng),孫奕菲,史玉回. 鄭州大學(xué)學(xué)報(bào)(工學(xué)版). 2018(03)
[3]阿里巴巴和京東個(gè)人信用評(píng)分體系差異性研究[J]. 劉奕雄. 金融經(jīng)濟(jì). 2017(14)
[4]美國ZestFinance公司大數(shù)據(jù)征信實(shí)踐[J]. 劉新海,丁偉. 征信. 2015(08)
[5]特征選擇方法綜述[J]. 姚旭,王曉丹,張玉璽,權(quán)文. 控制與決策. 2012(02)
博士論文
[1]醫(yī)療保險(xiǎn)大數(shù)據(jù)中的欺詐檢測關(guān)鍵問題研究[D]. 高永昌.山東大學(xué) 2018
[2]基于判別分析和期望違約率方法的信用風(fēng)險(xiǎn)度量及管理研究[D]. 張玲.湖南大學(xué) 2005
碩士論文
[1]數(shù)據(jù)挖掘技術(shù)在征信數(shù)據(jù)中的應(yīng)用研究[D]. 陳逸杰.南京郵電大學(xué) 2019
[2]基于非均衡數(shù)據(jù)處理和特征選擇的信貸風(fēng)險(xiǎn)評(píng)估算法研究[D]. 李霜.西北大學(xué) 2019
[3]基于XGBoost的互聯(lián)網(wǎng)金融貸前逾期識(shí)別與模型表達(dá)[D]. 陳文豪.哈爾濱工業(yè)大學(xué) 2019
[4]對(duì)P2P網(wǎng)貸平臺(tái)信用風(fēng)險(xiǎn)的研究[D]. 楊陽.上海外國語大學(xué) 2019
[5]基于集成學(xué)習(xí)的信用卡欺詐識(shí)別方法研究[D]. 鄧景熹.蘭州大學(xué) 2019
[6]汽車保險(xiǎn)欺詐索賠的關(guān)聯(lián)分析[D]. 杜小雨.蘭州大學(xué) 2019
[7]基于圖特征的欺詐檢測方法研究與應(yīng)用[D]. 施朝浩.浙江大學(xué) 2019
[8]基于集成學(xué)習(xí)的信用風(fēng)險(xiǎn)預(yù)測研究[D]. 張亞琴.蘭州大學(xué) 2019
[9]組合模型在網(wǎng)絡(luò)借貸反欺詐中的應(yīng)用研究[D]. 李學(xué)燕.對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué) 2018
[10]基于離群點(diǎn)分析技術(shù)的醫(yī)保欺詐檢測模型的研究與實(shí)現(xiàn)[D]. 王煜.東南大學(xué) 2018
本文編號(hào):3620599
本文鏈接:http://sikaile.net/guanlilunwen/bankxd/3620599.html
最近更新
教材專著