P2P網(wǎng)絡(luò)借貸融資成功的影響因素及預(yù)測(cè)研究
發(fā)布時(shí)間:2020-04-24 06:41
【摘要】:P2P網(wǎng)絡(luò)借貸行業(yè)自出現(xiàn)至今,經(jīng)過(guò)了數(shù)次的起伏,信用風(fēng)險(xiǎn)頻發(fā)成為了限制該行業(yè)健康發(fā)展的主要問(wèn)題,而在平臺(tái)、借款人與投資人三方之間存在的信息不對(duì)稱(chēng)問(wèn)題是造成信用風(fēng)險(xiǎn)的主要原因。部分研究已經(jīng)證明緩解網(wǎng)絡(luò)借貸交易行為中的信息不對(duì)稱(chēng),能夠明顯降低信用風(fēng)險(xiǎn)。而借款人處于絕對(duì)的信息優(yōu)勢(shì)地位,因此對(duì)借款人的披露信息展開(kāi)研究顯得尤為重要。本文在人人貸平臺(tái)真實(shí)交易數(shù)據(jù)的基礎(chǔ)上,對(duì)借款人的披露信息進(jìn)行了分析,同時(shí)對(duì)影響借貸成功與否的影響因素進(jìn)行了分析,并且運(yùn)用多種分類(lèi)模型對(duì)借貸結(jié)果展開(kāi)了預(yù)測(cè)研究:1、對(duì)原始交易數(shù)據(jù)集進(jìn)行了變量的選擇和整理,并去除缺失值和噪聲數(shù)據(jù)。在分析已有的研究基礎(chǔ)上,從訂單信息、借款人基本生理信息、經(jīng)濟(jì)能力、信用信息四個(gè)方面選取了硬信息的相關(guān)變量,此外以借款描述文本構(gòu)建語(yǔ)言特征和內(nèi)容主題特征變量作為軟信息補(bǔ)充。同時(shí)應(yīng)用多種可視化手段,對(duì)重要變量的數(shù)據(jù)分布進(jìn)行了描述性分析和直觀(guān)反映。2、以訂單狀態(tài)即借款成功與否為因變量,首先以硬信息變量為自變量進(jìn)行二分類(lèi)邏輯回歸分析,探究硬信息對(duì)借貸結(jié)果的影響。在結(jié)果基礎(chǔ)上建立硬信息控制變量,再將借款描述信息相關(guān)變量納入回歸模型探究其影響。另外運(yùn)用多種分類(lèi)模型分別分析了變量的重要性,結(jié)果發(fā)現(xiàn)借款人的信用信息對(duì)借款是否成功起到了顯著影響,對(duì)應(yīng)的信用額度這一變量的在各模型中均表現(xiàn)出較高的重要性。借款描述的語(yǔ)言特征和內(nèi)容主題均能對(duì)借款結(jié)果產(chǎn)生影響,且相關(guān)變量的重要性明顯。3、以7:3的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,選取部分硬信息變量作為原始變量,分別利用Logistic、神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)模型對(duì)借貸成功與否進(jìn)行了預(yù)測(cè)研究。同時(shí)也比較分析了借款描述相關(guān)變量加入前后預(yù)測(cè)結(jié)果的變化情況。發(fā)現(xiàn)四種模型中,隨機(jī)森林的總體預(yù)測(cè)精度較高,Logistic和支持向量機(jī)的表現(xiàn)較為接近,而借款描述信息加入后,對(duì)各模型的預(yù)測(cè)結(jié)果均有提升作用,特別是對(duì)正樣本預(yù)測(cè)準(zhǔn)確度(TPR)得到了明顯改善,ROC曲線(xiàn)也充分體現(xiàn)了上述結(jié)論。4、分別在80%和60%兩種訓(xùn)練集占比情況下,對(duì)預(yù)測(cè)過(guò)程中各模型的表現(xiàn)情況和適用性進(jìn)行了穩(wěn)健性驗(yàn)證。結(jié)果表明,在混淆矩陣相應(yīng)的各項(xiàng)指標(biāo)評(píng)估下,數(shù)據(jù)集的規(guī)模并未對(duì)模型表現(xiàn)的優(yōu)劣情況產(chǎn)生影響,同時(shí)也進(jìn)一步驗(yàn)證了借款描述信息對(duì)預(yù)測(cè)結(jié)果所起的優(yōu)化作用。
【圖文】:
圖 2.1 神經(jīng)網(wǎng)絡(luò)模型構(gòu)造Fig 2.1 Construction of Neural Network Model機(jī)森林模型 P2P 借貸結(jié)果進(jìn)行預(yù)測(cè),本質(zhì)上可以將其看作一個(gè)分類(lèi)問(wèn)題,而類(lèi)模型的一個(gè)重要衡量指標(biāo),而采用集成方法的預(yù)測(cè)模型具有更好隨機(jī)森林則是眾多基于隨機(jī)化的集成方法中,最為前沿的一種。機(jī)森林(Random Forest ,R-F)是 2001 年由 Breiman[44]在分類(lèi)樹(shù)的合得出的分類(lèi)器算法,是一種組合預(yù)測(cè)模型。隨機(jī)森林的內(nèi)嵌模型色則在于隨機(jī)。表現(xiàn)在兩方面:第一,訓(xùn)練樣本是對(duì)原始樣本的重訓(xùn)練樣本具有隨機(jī)性;第二,每棵決策樹(shù)的建立過(guò)程具有隨機(jī)性。對(duì)輸入變量全體的各個(gè)隨機(jī)候選變量子集進(jìn)行最優(yōu)篩選,得到的最前最佳分組的輸入變量[45]。機(jī)森林的基本思想就是對(duì)原始樣本數(shù)據(jù)集進(jìn)行 bootstrap 重抽樣,次抽取的樣本分別建立分類(lèi)器,從而根據(jù)產(chǎn)生的多種分類(lèi)結(jié)果對(duì)未
圖 2.2 隨機(jī)森林流程圖Fig 2.2 Flow Chart of Random Forest采用 bootstrap 重抽樣法從訓(xùn)練集 D 抽取出 k 個(gè)樣本 Di,樣本量大小一接著按照抽樣結(jié)果分別構(gòu)造出 k 棵決策樹(shù),得到 k 種相應(yīng)的輸出結(jié)果;最后分類(lèi)結(jié)果之間進(jìn)行投票選擇,得到最終的最優(yōu)分類(lèi)結(jié)果。2.2.4 支持向量機(jī)模型支持向量機(jī)(Support Vector Machine,SVM)最早于 1995 年由 Cortes 和 V提出,是一種按照監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類(lèi)的廣義線(xiàn)性分類(lèi)器[47],于解決非線(xiàn)性、小樣本和高維度問(wèn)題,在分類(lèi)和回歸中廣泛應(yīng)用。支持向量機(jī)是眾多機(jī)器學(xué)習(xí)算法中眾多分類(lèi)算法中的一種,,主要解決如樣本進(jìn)行分類(lèi)的問(wèn)題。該方法對(duì)學(xué)習(xí)機(jī)泛化能力的提高是通過(guò)追求結(jié)構(gòu)化風(fēng)小實(shí)現(xiàn)的,并盡可能地降低經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,從而實(shí)現(xiàn)在統(tǒng)計(jì)樣本量較少依然能夠獲得良好的統(tǒng)計(jì)規(guī)律,即將這種二分類(lèi)模型定義為特性空間中間隔的線(xiàn)性分類(lèi)器,而間隔最大的求解最終將轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題。圖 2.3 是對(duì)最大間隔線(xiàn)性分類(lèi)器的一個(gè)示例展示。下圖中直線(xiàn)w x + b
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:F724.6;F832.4
【圖文】:
圖 2.1 神經(jīng)網(wǎng)絡(luò)模型構(gòu)造Fig 2.1 Construction of Neural Network Model機(jī)森林模型 P2P 借貸結(jié)果進(jìn)行預(yù)測(cè),本質(zhì)上可以將其看作一個(gè)分類(lèi)問(wèn)題,而類(lèi)模型的一個(gè)重要衡量指標(biāo),而采用集成方法的預(yù)測(cè)模型具有更好隨機(jī)森林則是眾多基于隨機(jī)化的集成方法中,最為前沿的一種。機(jī)森林(Random Forest ,R-F)是 2001 年由 Breiman[44]在分類(lèi)樹(shù)的合得出的分類(lèi)器算法,是一種組合預(yù)測(cè)模型。隨機(jī)森林的內(nèi)嵌模型色則在于隨機(jī)。表現(xiàn)在兩方面:第一,訓(xùn)練樣本是對(duì)原始樣本的重訓(xùn)練樣本具有隨機(jī)性;第二,每棵決策樹(shù)的建立過(guò)程具有隨機(jī)性。對(duì)輸入變量全體的各個(gè)隨機(jī)候選變量子集進(jìn)行最優(yōu)篩選,得到的最前最佳分組的輸入變量[45]。機(jī)森林的基本思想就是對(duì)原始樣本數(shù)據(jù)集進(jìn)行 bootstrap 重抽樣,次抽取的樣本分別建立分類(lèi)器,從而根據(jù)產(chǎn)生的多種分類(lèi)結(jié)果對(duì)未
圖 2.2 隨機(jī)森林流程圖Fig 2.2 Flow Chart of Random Forest采用 bootstrap 重抽樣法從訓(xùn)練集 D 抽取出 k 個(gè)樣本 Di,樣本量大小一接著按照抽樣結(jié)果分別構(gòu)造出 k 棵決策樹(shù),得到 k 種相應(yīng)的輸出結(jié)果;最后分類(lèi)結(jié)果之間進(jìn)行投票選擇,得到最終的最優(yōu)分類(lèi)結(jié)果。2.2.4 支持向量機(jī)模型支持向量機(jī)(Support Vector Machine,SVM)最早于 1995 年由 Cortes 和 V提出,是一種按照監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類(lèi)的廣義線(xiàn)性分類(lèi)器[47],于解決非線(xiàn)性、小樣本和高維度問(wèn)題,在分類(lèi)和回歸中廣泛應(yīng)用。支持向量機(jī)是眾多機(jī)器學(xué)習(xí)算法中眾多分類(lèi)算法中的一種,,主要解決如樣本進(jìn)行分類(lèi)的問(wèn)題。該方法對(duì)學(xué)習(xí)機(jī)泛化能力的提高是通過(guò)追求結(jié)構(gòu)化風(fēng)小實(shí)現(xiàn)的,并盡可能地降低經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍,從而實(shí)現(xiàn)在統(tǒng)計(jì)樣本量較少依然能夠獲得良好的統(tǒng)計(jì)規(guī)律,即將這種二分類(lèi)模型定義為特性空間中間隔的線(xiàn)性分類(lèi)器,而間隔最大的求解最終將轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問(wèn)題。圖 2.3 是對(duì)最大間隔線(xiàn)性分類(lèi)器的一個(gè)示例展示。下圖中直線(xiàn)w x + b
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:F724.6;F832.4
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 陳詩(shī)旖;;基于P2P網(wǎng)貸行業(yè)現(xiàn)狀的互聯(lián)網(wǎng)金融監(jiān)管未來(lái)發(fā)展趨勢(shì)研究[J];現(xiàn)代商貿(mào)工業(yè);2019年03期
2 蔣s
本文編號(hào):2638647
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2638647.html
最近更新
教材專(zhuān)著