個(gè)人信用自動(dòng)化評(píng)估方法的研究和應(yīng)用
發(fā)布時(shí)間:2021-06-08 08:02
隨著計(jì)算機(jī)、數(shù)據(jù)庫(kù)和移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各行業(yè)中累積的數(shù)據(jù)量和形態(tài)越來(lái)越豐富。征信不再局限于傳統(tǒng)的金融領(lǐng)域,逐步向多行業(yè),大流量,小實(shí)體的方式轉(zhuǎn)變。運(yùn)動(dòng),社交,交易,通訊等數(shù)據(jù)都有可能被采集到征信系統(tǒng)中,給傳統(tǒng)征信業(yè)務(wù)帶來(lái)巨大挑戰(zhàn)。從模型角度,大量數(shù)據(jù)集的并入,導(dǎo)致樣本指標(biāo)非常稀疏,模型穩(wěn)定性不足。從系統(tǒng)角度,各類數(shù)據(jù)形態(tài)的整合,以及針對(duì)不同場(chǎng)景的模型靈活配置,大量用戶的業(yè)務(wù)并發(fā),都對(duì)系統(tǒng)提出了更高的要求。本文從模型和系統(tǒng)兩方面著手,對(duì)傳統(tǒng)征信的自動(dòng)化評(píng)估方法進(jìn)行了改進(jìn)。為了有效解決數(shù)據(jù)稀疏性的問題,先根據(jù)指標(biāo)覆蓋度對(duì)用戶進(jìn)行分群,再根據(jù)不同分群提煉的模型進(jìn)行組合,提煉出基于用戶分群的組合模型算法。并結(jié)合自動(dòng)化決策系統(tǒng),靈活采集和調(diào)用大量的征信數(shù)據(jù)集,同時(shí)支持用戶在無(wú)需編碼的情況下對(duì)整個(gè)信用決策流程進(jìn)行自定義設(shè)計(jì),減少人工介入,將采集、決策和監(jiān)控體系完整融合,使整個(gè)信用評(píng)估流程變得更準(zhǔn)確,更高效。理論上,借鑒了大量國(guó)內(nèi)外個(gè)人征信產(chǎn)品的案例,研究同類產(chǎn)品中的信用評(píng)估方法。包括基于專家評(píng)分法的信用評(píng)估理論,和基于邏輯回歸,樸素貝葉斯,決策樹,隨機(jī)森林等多種單一模型的信用評(píng)估理論等。但...
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1個(gè)人信用評(píng)估一般過程
上海交通大學(xué)工程碩士學(xué)位論文第二章個(gè)人信用評(píng)估理論研究11果輸入變量和輸出變量都為分類的,通常使用LOGISTIC回歸;如果輸入變量既有分類也有連續(xù)的,輸出變量為分類的,也可以使用LOGISTIC回歸;如果輸入變量既有分類變量也有連續(xù)變量,輸出變量為連續(xù)的,通常使用協(xié)方差分析[99]。以下是個(gè)人信用評(píng)估領(lǐng)域應(yīng)用較為廣泛的6種建模方法。2.3.1基于邏輯回歸算法邏輯回歸是銀行等金融機(jī)構(gòu)應(yīng)用最廣的信用評(píng)估模型。由于個(gè)人信用評(píng)估中的變量通常既包含連續(xù)值也包含分類值,比如年齡是連續(xù)變量,性別、學(xué)歷等都是分類變量,當(dāng)然也可以將連續(xù)變量轉(zhuǎn)換為分類變量。而模型評(píng)估的結(jié)果通常是判斷“是”或“否”,也可以認(rèn)為是發(fā)生一個(gè)事件的概率[26]。如果把事件發(fā)生的概率記為p,則可以得到以下LOGISTIC回歸函數(shù):(2-1)(2-2)如圖2-2所示,LOGISTIC函數(shù)具有S型分布,無(wú)論xi取任何值,是否發(fā)生的概率p均在0到1之間。這樣就完美的解釋了因變量和自變量之間的模型關(guān)系。圖2-2LOGISTIC函數(shù)曲線Fig.2-2Logisticregressioncurve為了方便計(jì)算,將公式2-1和2-2進(jìn)行變換可得:[25])(11)|1(iiixexyp[25])()(1)|0(iixxiieexyp[25]))|0()|1(ln(iiiiixxypxyp
上海交通大學(xué)工程碩士學(xué)位論文第二章個(gè)人信用評(píng)估理論研究14本的影響,可能會(huì)導(dǎo)致樹的結(jié)構(gòu)過于復(fù)雜,而在隨機(jī)森林中可以避免這樣的問題。隨機(jī)森林是在N個(gè)訓(xùn)練樣本集中,每次隨機(jī)抽取N個(gè)有放回的樣本子集,這樣在子集中就會(huì)存在重復(fù)的樣本,也會(huì)有些樣本被隨機(jī)排除在外,選取過程如圖2-3所示。圖2-3隨機(jī)森林樣本選擇Fig.2-3Selectionofrandomforest然后隨機(jī)森林根據(jù)每個(gè)生成的子集建立決策樹,當(dāng)有一個(gè)新的樣本需要預(yù)測(cè)時(shí),就將這個(gè)樣本通過每個(gè)決策樹進(jìn)行判斷,最后投票決定新樣子所屬的分類。為了進(jìn)一步加大每棵樹的差異性,減少特征屬性間的相關(guān)性,每次建立子決策樹的時(shí)候也只會(huì)隨機(jī)選取以一部分特征屬性,通常會(huì)選取總特征的平方根或log2(特征數(shù))+1,這樣構(gòu)建的每棵樹都能側(cè)重于區(qū)分不同的特征領(lǐng)域,提升整體分類的精度。2.4改進(jìn)的組合模型理論2.4.1傳統(tǒng)模型的不足現(xiàn)有的大部分征信產(chǎn)品都來(lái)源于傳統(tǒng)金融機(jī)構(gòu),其采集到的數(shù)據(jù)源往往比較規(guī)范,數(shù)據(jù)質(zhì)量非常高,指標(biāo)覆蓋度也很全面。但在互聯(lián)網(wǎng)金融爆發(fā)的趨勢(shì)下,征信數(shù)據(jù)源變得越來(lái)越廣泛,可能包含社交數(shù)據(jù),運(yùn)動(dòng)軌跡,設(shè)備信息,理財(cái)平臺(tái)等等,但幾乎沒有一個(gè)樣本可以采集到這里所有的數(shù)據(jù)源,導(dǎo)致指標(biāo)的稀疏度嚴(yán)重上升。傳統(tǒng)征信體系中的專家評(píng)分卡或單一模型理論比較適用于指標(biāo)覆蓋度較高的情況,當(dāng)各樣本間的指標(biāo)覆蓋度差異較大時(shí),由于各類數(shù)據(jù)集對(duì)模型的擬合效
【參考文獻(xiàn)】:
期刊論文
[1]基于少量標(biāo)注數(shù)據(jù)的半監(jiān)督K-means算法[J]. 曹奇敏,劉鴻霞. 電腦編程技巧與維護(hù). 2017(13)
[2]基于醫(yī)療數(shù)據(jù)的K-means算法優(yōu)化研究[J]. 宋欣霞,金衛(wèi). 中國(guó)數(shù)字醫(yī)學(xué). 2016(08)
[3]對(duì)數(shù)據(jù)挖掘中K-means聚類算法的改進(jìn)研究[J]. 韓龍. 無(wú)線互聯(lián)科技. 2013(02)
博士論文
[1]個(gè)人信用風(fēng)險(xiǎn)評(píng)估理論與方法的拓展研究[D]. 帥理.電子科技大學(xué) 2015
[2]中國(guó)個(gè)人信用管理體系建設(shè)研究[D]. 孫亞南.中國(guó)人民大學(xué) 2008
碩士論文
[1]基于BP優(yōu)化算法的個(gè)人信用評(píng)價(jià)模型研究[D]. 周兵.中南林業(yè)科技大學(xué) 2015
[2]基于BP神經(jīng)網(wǎng)絡(luò)的P2P信貸個(gè)人信用評(píng)價(jià)模型研究[D]. 張瀾覺.云南財(cái)經(jīng)大學(xué) 2015
[3]多種分類模型在個(gè)人信用評(píng)估中的應(yīng)用[D]. 楊蘊(yùn)涵.重慶大學(xué) 2015
[4]個(gè)人信用評(píng)分組合模型研究[D]. 張飛.電子科技大學(xué) 2015
[5]基于模糊神經(jīng)網(wǎng)絡(luò)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估[D]. 張佳維.內(nèi)蒙古大學(xué) 2014
[6]基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行個(gè)人信用評(píng)分模型研究[D]. 周軒.湖南大學(xué) 2014
[7]基于稀疏貝葉斯學(xué)習(xí)的個(gè)人信用評(píng)估[D]. 王會(huì)軍.西南財(cái)經(jīng)大學(xué) 2014
[8]我國(guó)個(gè)人信用評(píng)分體系建設(shè)研究[D]. 胡萍娥.北京化工大學(xué) 2013
[9]網(wǎng)絡(luò)交易中的個(gè)人信用評(píng)價(jià)研究[D]. 楊靜.黑龍江大學(xué) 2013
[10]我國(guó)個(gè)人信用體系建設(shè)研究[D]. 林雅婕.中國(guó)政法大學(xué) 2013
本文編號(hào):3218010
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1個(gè)人信用評(píng)估一般過程
上海交通大學(xué)工程碩士學(xué)位論文第二章個(gè)人信用評(píng)估理論研究11果輸入變量和輸出變量都為分類的,通常使用LOGISTIC回歸;如果輸入變量既有分類也有連續(xù)的,輸出變量為分類的,也可以使用LOGISTIC回歸;如果輸入變量既有分類變量也有連續(xù)變量,輸出變量為連續(xù)的,通常使用協(xié)方差分析[99]。以下是個(gè)人信用評(píng)估領(lǐng)域應(yīng)用較為廣泛的6種建模方法。2.3.1基于邏輯回歸算法邏輯回歸是銀行等金融機(jī)構(gòu)應(yīng)用最廣的信用評(píng)估模型。由于個(gè)人信用評(píng)估中的變量通常既包含連續(xù)值也包含分類值,比如年齡是連續(xù)變量,性別、學(xué)歷等都是分類變量,當(dāng)然也可以將連續(xù)變量轉(zhuǎn)換為分類變量。而模型評(píng)估的結(jié)果通常是判斷“是”或“否”,也可以認(rèn)為是發(fā)生一個(gè)事件的概率[26]。如果把事件發(fā)生的概率記為p,則可以得到以下LOGISTIC回歸函數(shù):(2-1)(2-2)如圖2-2所示,LOGISTIC函數(shù)具有S型分布,無(wú)論xi取任何值,是否發(fā)生的概率p均在0到1之間。這樣就完美的解釋了因變量和自變量之間的模型關(guān)系。圖2-2LOGISTIC函數(shù)曲線Fig.2-2Logisticregressioncurve為了方便計(jì)算,將公式2-1和2-2進(jìn)行變換可得:[25])(11)|1(iiixexyp[25])()(1)|0(iixxiieexyp[25]))|0()|1(ln(iiiiixxypxyp
上海交通大學(xué)工程碩士學(xué)位論文第二章個(gè)人信用評(píng)估理論研究14本的影響,可能會(huì)導(dǎo)致樹的結(jié)構(gòu)過于復(fù)雜,而在隨機(jī)森林中可以避免這樣的問題。隨機(jī)森林是在N個(gè)訓(xùn)練樣本集中,每次隨機(jī)抽取N個(gè)有放回的樣本子集,這樣在子集中就會(huì)存在重復(fù)的樣本,也會(huì)有些樣本被隨機(jī)排除在外,選取過程如圖2-3所示。圖2-3隨機(jī)森林樣本選擇Fig.2-3Selectionofrandomforest然后隨機(jī)森林根據(jù)每個(gè)生成的子集建立決策樹,當(dāng)有一個(gè)新的樣本需要預(yù)測(cè)時(shí),就將這個(gè)樣本通過每個(gè)決策樹進(jìn)行判斷,最后投票決定新樣子所屬的分類。為了進(jìn)一步加大每棵樹的差異性,減少特征屬性間的相關(guān)性,每次建立子決策樹的時(shí)候也只會(huì)隨機(jī)選取以一部分特征屬性,通常會(huì)選取總特征的平方根或log2(特征數(shù))+1,這樣構(gòu)建的每棵樹都能側(cè)重于區(qū)分不同的特征領(lǐng)域,提升整體分類的精度。2.4改進(jìn)的組合模型理論2.4.1傳統(tǒng)模型的不足現(xiàn)有的大部分征信產(chǎn)品都來(lái)源于傳統(tǒng)金融機(jī)構(gòu),其采集到的數(shù)據(jù)源往往比較規(guī)范,數(shù)據(jù)質(zhì)量非常高,指標(biāo)覆蓋度也很全面。但在互聯(lián)網(wǎng)金融爆發(fā)的趨勢(shì)下,征信數(shù)據(jù)源變得越來(lái)越廣泛,可能包含社交數(shù)據(jù),運(yùn)動(dòng)軌跡,設(shè)備信息,理財(cái)平臺(tái)等等,但幾乎沒有一個(gè)樣本可以采集到這里所有的數(shù)據(jù)源,導(dǎo)致指標(biāo)的稀疏度嚴(yán)重上升。傳統(tǒng)征信體系中的專家評(píng)分卡或單一模型理論比較適用于指標(biāo)覆蓋度較高的情況,當(dāng)各樣本間的指標(biāo)覆蓋度差異較大時(shí),由于各類數(shù)據(jù)集對(duì)模型的擬合效
【參考文獻(xiàn)】:
期刊論文
[1]基于少量標(biāo)注數(shù)據(jù)的半監(jiān)督K-means算法[J]. 曹奇敏,劉鴻霞. 電腦編程技巧與維護(hù). 2017(13)
[2]基于醫(yī)療數(shù)據(jù)的K-means算法優(yōu)化研究[J]. 宋欣霞,金衛(wèi). 中國(guó)數(shù)字醫(yī)學(xué). 2016(08)
[3]對(duì)數(shù)據(jù)挖掘中K-means聚類算法的改進(jìn)研究[J]. 韓龍. 無(wú)線互聯(lián)科技. 2013(02)
博士論文
[1]個(gè)人信用風(fēng)險(xiǎn)評(píng)估理論與方法的拓展研究[D]. 帥理.電子科技大學(xué) 2015
[2]中國(guó)個(gè)人信用管理體系建設(shè)研究[D]. 孫亞南.中國(guó)人民大學(xué) 2008
碩士論文
[1]基于BP優(yōu)化算法的個(gè)人信用評(píng)價(jià)模型研究[D]. 周兵.中南林業(yè)科技大學(xué) 2015
[2]基于BP神經(jīng)網(wǎng)絡(luò)的P2P信貸個(gè)人信用評(píng)價(jià)模型研究[D]. 張瀾覺.云南財(cái)經(jīng)大學(xué) 2015
[3]多種分類模型在個(gè)人信用評(píng)估中的應(yīng)用[D]. 楊蘊(yùn)涵.重慶大學(xué) 2015
[4]個(gè)人信用評(píng)分組合模型研究[D]. 張飛.電子科技大學(xué) 2015
[5]基于模糊神經(jīng)網(wǎng)絡(luò)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估[D]. 張佳維.內(nèi)蒙古大學(xué) 2014
[6]基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行個(gè)人信用評(píng)分模型研究[D]. 周軒.湖南大學(xué) 2014
[7]基于稀疏貝葉斯學(xué)習(xí)的個(gè)人信用評(píng)估[D]. 王會(huì)軍.西南財(cái)經(jīng)大學(xué) 2014
[8]我國(guó)個(gè)人信用評(píng)分體系建設(shè)研究[D]. 胡萍娥.北京化工大學(xué) 2013
[9]網(wǎng)絡(luò)交易中的個(gè)人信用評(píng)價(jià)研究[D]. 楊靜.黑龍江大學(xué) 2013
[10]我國(guó)個(gè)人信用體系建設(shè)研究[D]. 林雅婕.中國(guó)政法大學(xué) 2013
本文編號(hào):3218010
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3218010.html
最近更新
教材專著