基于移動電信數(shù)據(jù)個人征信模型研究
本文選題:征信模型 + 電信數(shù)據(jù) ; 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:隨著社會經(jīng)濟的不斷發(fā)展,信用評價對個人獲得更加便捷的服務(wù)和社會運行成本降低都有著積極意義。我國個人征信起步晚,目前信用記錄覆蓋率較低,但需求旺盛。電信數(shù)據(jù)包含了個人身份信息、消費記錄、欠費違約等和信用評價相關(guān)度高的數(shù)據(jù),具有質(zhì)量高、用戶多和維度豐富等特點,適合用于個人信用評價。但該方面研究工作較少,因此本文對利用電信數(shù)據(jù)做信用評價進行了探索分析。本文首先對常用征信模型進行了分析比較;诮y(tǒng)計學(xué)的模型有邏輯回歸、支持向量機和決策樹等,基于智能方法的有神經(jīng)網(wǎng)絡(luò)等。本文對上述模型都進行了理論分析和推導(dǎo),并給出了在實際應(yīng)用中常見問題比如過擬合等的解決方案。然后對電信數(shù)據(jù)進行理解分析,參考FICO(Fair IsaacCompany)模型并利用相關(guān)分析等方法選取了建模需要的特征數(shù)據(jù)。隨后對數(shù)據(jù)進行了清洗與預(yù)處理包括,填補空缺值、剔除異常值、數(shù)據(jù)離散化和歸一化。預(yù)處理之后分析數(shù)據(jù)發(fā)現(xiàn)部分特征間存在多重共線性,不符合邏輯回歸模型的假設(shè)前提,所以對此采用了主成分分析處理,通過降維解決共線性問題。預(yù)處理完畢后,對電信數(shù)據(jù)進行探索分析,更深入的去認識特征的分布規(guī)律和與征信的關(guān)系。單個模型去做信用評價有時效果有限,本文將機器學(xué)習中集成的思想引入,構(gòu)建基于隨機森林的個人征信模型。結(jié)合原始電信數(shù)據(jù)有冗余信息和類別不平衡特點,在單顆決策樹的基礎(chǔ)上引入分類別有重復(fù)采樣并隨機選擇特征子集,訓(xùn)練多個具有差異的決策樹,然后將其組合起來預(yù)測輸出。模型訓(xùn)練后測試表明其預(yù)測精度、準確率、召回率和F1均優(yōu)于常用征信模型。
[Abstract]:With the development of social economy, credit evaluation has a positive significance for individuals to obtain more convenient services and reduce social operating costs. Our country personal credit investigation starts late, the credit record coverage rate is low at present, but the demand is exuberant. Telecommunication data includes personal identity information, consumption record, default of payment and credit evaluation. It has the characteristics of high quality, multiple users and rich dimensions. It is suitable for personal credit evaluation. However, there is little research work in this field, so this paper explores and analyzes the credit evaluation using telecommunication data. In this paper, the common credit model is analyzed and compared. The models based on statistics include logical regression, support vector machine and decision tree, and neural networks based on intelligent methods. In this paper, the above models are theoretically analyzed and deduced, and the solutions of common problems such as over-fitting in practical application are given. Then the telecom data is understood and analyzed, and the characteristic data of modeling is selected by referring to the FICO(Fair Isaac Company model and using correlation analysis and other methods. Then the data is cleaned and preprocessed, including filling the vacancy value, eliminating the outlier value, discretization and normalization of the data. After preprocessing, it is found that there is multiple collinearity among some features, which does not accord with the premise of logical regression model, so principal component analysis (PCA) is used to solve the problem of collinearity through dimension reduction. After preprocessing, the telecom data is explored and analyzed to understand the distribution law of the characteristics and the relationship between the characteristics and credit information. The effect of a single model to do credit evaluation is sometimes limited. This paper introduces the idea of integration in machine learning to construct a personal credit model based on random forest. Combined with the redundant information and class imbalance of the original telecommunication data, this paper introduces subcategory repeated sampling and random selection of feature subsets on the basis of a single decision tree, and trains multiple decision trees with differences. Then combine it to predict the output. The model training test shows that its prediction accuracy, accuracy, recall rate and F1 are better than those of common credit model.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:F626;TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 鐘楚男;對銀行優(yōu)先建立個人征信制度的建議[J];中國信用卡;2001年07期
2 張敏;國外個人征信工作經(jīng)驗的啟示[J];中國信用卡;2002年02期
3 盧小龍;朱建強;朱杰;林鴻;寧翔;;個人征信系統(tǒng)總體框架的設(shè)計[J];金融電子化;2005年03期
4 張杏英;;個人征信系統(tǒng)試運行存在三方面問題 完善系統(tǒng)運行須多管齊下[J];金融電子化;2005年09期
5 方家平;;手機欠費納入個人征信應(yīng)該緩行[J];IT時代周刊;2007年Z1期
6 ;央行:個人征信不良信息超過5年應(yīng)當刪除[J];金融科技時代;2013年03期
7 王征宇 ,張俠 ,華新雷 ,馬恩華;關(guān)于發(fā)展我國個人征信數(shù)據(jù)系統(tǒng)的一些思考和建議[J];中國金融電腦;2004年05期
8 胡小明;;信用系統(tǒng)定位研究[J];電子政務(wù);2010年04期
9 ;央行考察個人征信項目工作[J];金融電子化;2004年01期
10 王雪玉;;新版?zhèn)人征信報告上線,告別終身不良記錄[J];金融科技時代;2012年12期
相關(guān)會議論文 前10條
1 錢林曉;王一濤;;對應(yīng)試教育條件下學(xué)生學(xué)習行為的模型分析[A];2005年中國教育經(jīng)濟學(xué)年會會議論文集[C];2005年
2 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
3 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學(xué)討論會論文集[C];2008年
4 張?zhí)忑?梁龍;王康;李華;;隨機森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計量學(xué)[C];2014年
5 高林;劉喜梅;;多模型中權(quán)值確定的新方法及其應(yīng)用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
6 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
7 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計學(xué)年會會議論文集[C];2011年
8 朱萍;劉偉澤;萬立濱;;基于實證研究的知識管理路線、方法和模型分析[A];航空工業(yè)檔案學(xué)會七屆四次理事會暨2013年度優(yōu)秀論文交流會論文集[C];2013年
9 潘潔;周宗放;;全流通下KMV模型中的違約點修正及實證研究[A];中國企業(yè)運籌學(xué)[C];2009年
10 肖田元;;仿真是基于模型的活動[A];新觀點新學(xué)說學(xué)術(shù)沙龍文集37:仿真是基于模型的實驗嗎[C];2009年
相關(guān)重要報紙文章 前10條
1 本報記者 張夏楠;個人征信“看上去很美”[N];華夏時報;2014年
2 巴曙松 陳華良;個人征信 不僅是個人的問題[N];中國證券報;2005年
3 孫瑞灼;“手機欠費納入個人征信”應(yīng)建立申訴制度[N];中國企業(yè)報;2007年
4 賈磊;個人征信求全更應(yīng)求真[N];經(jīng)濟參考報;2006年
5 葉雷;立法未行的個人征信是變相“霸王條款”[N];人民代表報;2007年
6 孫瑞灼;立法規(guī)范要與個人征信同行[N];法制日報;2010年
7 牛明霞 作者單位 農(nóng)總行信貸管理部;個人征信信息:居民第二張“身份證”[N];中國城鄉(xiāng)金融報;2007年
8 實習記者 孫書堯;個人征信新規(guī)運行 消費者更安心[N];消費日報;2012年
9 本報記者 張世豪;我省明年有望實現(xiàn)個人征信互聯(lián)網(wǎng)查詢[N];鄭州日報;2013年
10 賈磊;個人征信亟待提高含金量[N];中國經(jīng)濟導(dǎo)報;2006年
相關(guān)博士學(xué)位論文 前10條
1 艾茜;個人征信法律制度研究[D];中國政法大學(xué);2006年
2 李瑜;多選題認知診斷測驗編制及多策略的多選題認知診斷模型的開發(fā)[D];江西師范大學(xué);2014年
3 康慧燕;復(fù)雜網(wǎng)絡(luò)上帶有潛伏期的傳染病動力學(xué)模型研究[D];上海大學(xué);2015年
4 郭瑋;基于多因素集成的疏散場模型研究[D];北京化工大學(xué);2015年
5 張?zhí)祢?產(chǎn)漂流性卵小型魚類的生態(tài)位建模及分析[D];中國農(nóng)業(yè)大學(xué);2016年
6 張會敏;基于小域估計的貧困指標測度方法與模型研究[D];天津財經(jīng)大學(xué);2015年
7 宋澤芳;基于投資者情緒效應(yīng)的均值—方差關(guān)系模型研究[D];廣州大學(xué);2016年
8 徐帆;籠養(yǎng)食蟹猴自發(fā)抑郁模型的創(chuàng)建與驗證[D];重慶醫(yī)科大學(xué);2015年
9 畢仁貴;考慮相關(guān)性的不確定凸集模型與非概率可靠性分析方法[D];湖南大學(xué);2015年
10 盧偉;小時步長森林碳循環(huán)模型(BEPS)參數(shù)優(yōu)化及應(yīng)用研究[D];東北林業(yè)大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 唐亞平;基于移動電信數(shù)據(jù)個人征信模型研究[D];北京郵電大學(xué);2017年
2 李衛(wèi);個人征信與信息主體權(quán)利保護研究[D];華中師范大學(xué);2017年
3 劉正陽;個人征信中個人信用權(quán)保護研究[D];華東政法大學(xué);2016年
4 朱才廣;我國個人征信發(fā)展模式研究[D];暨南大學(xué);2016年
5 朱莎;我國個人征信信息主體權(quán)益保護研究[D];上海交通大學(xué);2015年
6 張斌;互聯(lián)網(wǎng)條件下個人征信市場化的法律規(guī)制[D];西南財經(jīng)大學(xué);2016年
7 侯萌;大數(shù)據(jù)背景下的個人征信研究[D];對外經(jīng)濟貿(mào)易大學(xué);2016年
8 趙克非;大數(shù)據(jù)下的個人征信體系研究[D];浙江大學(xué);2017年
9 李思雷;論我國個人征信權(quán)利結(jié)構(gòu)[D];西南政法大學(xué);2016年
10 黃艷菲;個人征信中信用權(quán)保護研究[D];華僑大學(xué);2017年
,本文編號:1825785
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/1825785.html