基于社交網(wǎng)絡數(shù)據(jù)的信用評價數(shù)據(jù)清洗算法及快速實現(xiàn)
發(fā)布時間:2022-07-13 17:06
隨著互聯(lián)網(wǎng)金融的快速發(fā)展,其作為傳統(tǒng)金融業(yè)的有益補充,為低收入和中等收入群體提供了相對有效的金融服務。但由于缺乏信用評價方法,信用風險仍然是互聯(lián)網(wǎng)金融業(yè)的主要風險來源。對自然人信用模型的構建及信用評價是降低信用風險的有效手段。隨著在線社交工具的廣泛使用,越來越多的人類個體行為被忠實地記錄下來,形成了龐大的社交網(wǎng)絡數(shù)據(jù)庫。這些數(shù)據(jù)記錄的是真實的人類活動,是對現(xiàn)實人群社交的部分映射,使得社交網(wǎng)絡數(shù)據(jù)用來衡量用戶的信用水平變得可能。本文我們主要進行了兩方面的研究工作。首先在社交數(shù)據(jù)作為個人信用評價模型的補充數(shù)據(jù)的研究當中,網(wǎng)絡中往往存在著社交足跡不足或無法代表普通真實用戶的異常節(jié)點,這些節(jié)點的存在影響著信用評價的排序結果。因此我們根據(jù)用戶的度分布,活躍度以及用戶行為時間間隔來建立一套用于社交數(shù)據(jù)個人信用評價的數(shù)據(jù)清洗模型,并對清洗前后的數(shù)據(jù)集進行信用評價排序,觀察清洗模型對結果產生的影響。其次我們對整個清洗模型進行了用例測試,找出整個清洗環(huán)節(jié)中最為耗時的部分并對其進行并行加速。在本文的第一章中我們對當前社交數(shù)據(jù)用于個人信用評價的研究背景及現(xiàn)狀進行了介紹,并引出其中仍存在的問題以及我們要展開的...
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.3 研究內容
1.4 研究創(chuàng)新點
2 相關理論及算法
2.1 社交網(wǎng)絡的基本概念
2.1.1 描述社交網(wǎng)絡的基本量
2.1.2 社交網(wǎng)絡中的冪律特性
2.2 基于社交數(shù)據(jù)的信用評價模型
2.2.1 基于神經網(wǎng)絡的個人信用評價模型
2.2.2 基于邏輯回歸的個人信用評價模型
2.3 并行加速方法
2.4 基于python的爬蟲相關技術
2.4.1 Anconada開發(fā)環(huán)境及工具包
2.4.2 scrapy分布式爬蟲架構
2.5 擬合分布的ks檢驗
3 社交網(wǎng)絡數(shù)據(jù)獲取與描述
3.1 數(shù)據(jù)抽樣方法
3.2 數(shù)據(jù)獲取
3.3 數(shù)據(jù)獲取過程中的難點解決方案
3.4 數(shù)據(jù)收斂性驗證
3.5 數(shù)據(jù)描述
3.6 本章小結
4 用于信用評價的社交網(wǎng)絡數(shù)據(jù)清洗規(guī)則及測試
4.1 清洗模型的建立
4.1.1 明星用戶與水軍用戶的清洗規(guī)則
4.1.2 活躍度異常用戶清洗規(guī)則
4.1.3 機械用戶清洗規(guī)則
4.2 個人信用評價實驗結果及分析
4.3 本章小結
5 清洗模型中參數(shù)的快速計算方法研究
5.1 基于python的加速方法
5.1.1 numba靜態(tài)編譯技術
5.1.2 multiprocessing進程并行模塊
5.2 計算耗時分析
5.3 計算時耗的并行加速處理
5.3.1 度分布的加速計算
5.3.2 活躍度的加速計算
5.3.3 時間間隔的加速計算
5.4 本章小結
6 結論與展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]在線用戶追評行為時間序列關聯(lián)特征實證研究——以京東商城手機評論數(shù)據(jù)為例[J]. 張艷豐,彭麗徽,洪闖. 情報理論與實踐. 2019(03)
[2]社交網(wǎng)絡水軍用戶的動態(tài)行為分析及在線檢測[J]. 李巖,鄧勝春,林劍. 計算機工程. 2019(08)
[3]社交網(wǎng)絡異常用戶識別技術綜述[J]. 仲麗君,楊文忠,袁婷婷,向進勇. 計算機工程與應用. 2018(16)
[4]基于鄰接矩陣的網(wǎng)絡拓撲辨識算法[J]. 郭帥文,燕躍豪,蔣建東,馬夢茹,鮑薇. 電力系統(tǒng)保護與控制. 2018(12)
[5]Logistic回歸算法研究與實現(xiàn)[J]. 滕文. 信息技術. 2018(05)
[6]冪律特性在新浪微博個性化推薦中的應用研究[J]. 羅斌,陳翔. 計算機工程與科學. 2018(04)
[7]社交網(wǎng)絡中考慮節(jié)點度的演化博弈[J]. 劉亞州,王靜,潘曉中,付偉. 計算機應用. 2018(04)
[8]大數(shù)據(jù)背景下我國互聯(lián)網(wǎng)征信問題研究——以芝麻信用為例[J]. 余麗霞,鄭潔. 金融發(fā)展研究. 2017(09)
[9]可視圖復雜網(wǎng)絡度分布擬合比較研究[J]. 張蓉,鄒勇. 華東師范大學學報(自然科學版). 2017(02)
[10]基于隨機抽樣法的多群核數(shù)據(jù)不確定性影響分析[J]. 潘昕懌,蘭兵,韓向臻,胡文超,攸國順,王昆鵬,張春明. 強激光與粒子束. 2017(04)
博士論文
[1]人類行為動力學的實證及生成機制研究[D]. 鮑媛媛.北京郵電大學 2012
碩士論文
[1]復雜網(wǎng)絡動力學[D]. 紀鵬.江南大學 2011
本文編號:3660430
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 國內外研究現(xiàn)狀
1.3 研究內容
1.4 研究創(chuàng)新點
2 相關理論及算法
2.1 社交網(wǎng)絡的基本概念
2.1.1 描述社交網(wǎng)絡的基本量
2.1.2 社交網(wǎng)絡中的冪律特性
2.2 基于社交數(shù)據(jù)的信用評價模型
2.2.1 基于神經網(wǎng)絡的個人信用評價模型
2.2.2 基于邏輯回歸的個人信用評價模型
2.3 并行加速方法
2.4 基于python的爬蟲相關技術
2.4.1 Anconada開發(fā)環(huán)境及工具包
2.4.2 scrapy分布式爬蟲架構
2.5 擬合分布的ks檢驗
3 社交網(wǎng)絡數(shù)據(jù)獲取與描述
3.1 數(shù)據(jù)抽樣方法
3.2 數(shù)據(jù)獲取
3.3 數(shù)據(jù)獲取過程中的難點解決方案
3.4 數(shù)據(jù)收斂性驗證
3.5 數(shù)據(jù)描述
3.6 本章小結
4 用于信用評價的社交網(wǎng)絡數(shù)據(jù)清洗規(guī)則及測試
4.1 清洗模型的建立
4.1.1 明星用戶與水軍用戶的清洗規(guī)則
4.1.2 活躍度異常用戶清洗規(guī)則
4.1.3 機械用戶清洗規(guī)則
4.2 個人信用評價實驗結果及分析
4.3 本章小結
5 清洗模型中參數(shù)的快速計算方法研究
5.1 基于python的加速方法
5.1.1 numba靜態(tài)編譯技術
5.1.2 multiprocessing進程并行模塊
5.2 計算耗時分析
5.3 計算時耗的并行加速處理
5.3.1 度分布的加速計算
5.3.2 活躍度的加速計算
5.3.3 時間間隔的加速計算
5.4 本章小結
6 結論與展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]在線用戶追評行為時間序列關聯(lián)特征實證研究——以京東商城手機評論數(shù)據(jù)為例[J]. 張艷豐,彭麗徽,洪闖. 情報理論與實踐. 2019(03)
[2]社交網(wǎng)絡水軍用戶的動態(tài)行為分析及在線檢測[J]. 李巖,鄧勝春,林劍. 計算機工程. 2019(08)
[3]社交網(wǎng)絡異常用戶識別技術綜述[J]. 仲麗君,楊文忠,袁婷婷,向進勇. 計算機工程與應用. 2018(16)
[4]基于鄰接矩陣的網(wǎng)絡拓撲辨識算法[J]. 郭帥文,燕躍豪,蔣建東,馬夢茹,鮑薇. 電力系統(tǒng)保護與控制. 2018(12)
[5]Logistic回歸算法研究與實現(xiàn)[J]. 滕文. 信息技術. 2018(05)
[6]冪律特性在新浪微博個性化推薦中的應用研究[J]. 羅斌,陳翔. 計算機工程與科學. 2018(04)
[7]社交網(wǎng)絡中考慮節(jié)點度的演化博弈[J]. 劉亞州,王靜,潘曉中,付偉. 計算機應用. 2018(04)
[8]大數(shù)據(jù)背景下我國互聯(lián)網(wǎng)征信問題研究——以芝麻信用為例[J]. 余麗霞,鄭潔. 金融發(fā)展研究. 2017(09)
[9]可視圖復雜網(wǎng)絡度分布擬合比較研究[J]. 張蓉,鄒勇. 華東師范大學學報(自然科學版). 2017(02)
[10]基于隨機抽樣法的多群核數(shù)據(jù)不確定性影響分析[J]. 潘昕懌,蘭兵,韓向臻,胡文超,攸國順,王昆鵬,張春明. 強激光與粒子束. 2017(04)
博士論文
[1]人類行為動力學的實證及生成機制研究[D]. 鮑媛媛.北京郵電大學 2012
碩士論文
[1]復雜網(wǎng)絡動力學[D]. 紀鵬.江南大學 2011
本文編號:3660430
本文鏈接:http://sikaile.net/jingjilunwen/huobiyinxinglunwen/3660430.html
教材專著