基于梯度提升決策樹組合模型的二手車金融用戶畫像系統(tǒng)
發(fā)布時間:2023-08-26 05:58
中國線上二手車交易起步較晚,且國內信用體系尚待完善。目前國內二手車的金融用戶篩選主要使用規(guī)則模型系統(tǒng),通過人工撥打電話,近期瀏覽內容等較為初級的手段判斷用戶的金融意向高低。該模型系統(tǒng)覆蓋面小,適用條件生硬,服務效率低下,不能適應越來越頻繁的業(yè)務變化,因此需要一個更加完善,更加高效的金融用戶畫像系統(tǒng)。針對現狀,本文采用模型結構簡單,非線性效果優(yōu)良,可解釋性高的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),以及邏輯簡單,執(zhí)行迅速的邏輯回歸(Logistic Regression,LR)模型的組合模型。通過分析挖掘用戶在平臺近段時間的瀏覽日志數據,預測未來一周內用戶金融成交的概率。更加高效,更加全面的服務二手車用戶。本文完成的主要工作如下:(1)海量數據處理與效率優(yōu)化:使用Spark分布式集群進行數據處理,提升數據處理速度,避免本地內存占用。使用寬窄表轉換,時間區(qū)間標志位,Spark常駐內存策略提升處理性能;(2)不均衡數據處理:提出一種新的基于業(yè)務邏輯的樣本擴充方法,對稀少正樣本進行擴充。對負樣本則采用隨機降采樣,均衡正負樣本比例;(3)特征工...
【文章頁數】:92 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國內外研究進展
1.2.1 大數據處理工具的發(fā)展
1.2.2 不均衡數據處理的發(fā)展
1.2.3 樹模型的進展
1.3 本文主要研究內容
1.4 論文的結構安排
第2章 樹模型和集成學習關鍵技術分析
2.1 決策樹模型
2.1.1 決策樹模型的概念
2.1.2 決策樹的三種算法及其原理
2.1.3 決策樹三種算法的對比
2.2 集成學習
2.2.1 集成學習概念
2.2.2 Bagging算法原理(以基學習器為決策樹舉例)
2.2.3 Boost算法原理(以前向分步算法舉例,基學習器為決策樹)
2.2.4 梯度提升決策樹的概念和算法原理
2.3 梯度提升決策樹和邏輯回歸組合模型
2.4 本章小結
第3章 金融用戶畫像系統(tǒng)的設計與實現
3.1 引言
3.2 數據處理與樣本擴充
3.2.1 Spark SQL簡介
3.2.2 數據清洗與處理
3.2.3 基于userid+basetime的樣本擴充
3.3 特征工程與效率優(yōu)化
3.3.1 埋點特征處理
3.3.2 價格特征處理
3.3.3 時間效率優(yōu)化
3.3.4 空間效率優(yōu)化
3.4 模型構建
3.4.1 GBDT模型的輸入數據
3.4.2 GBDT模型訓練
3.4.3 LR模型的輸入數據
3.4.4 LR模型訓練
3.4.5 GBDT+LR模型整體建模流程
3.5 本章小結
第4章 模型效果與分析
4.1 線上環(huán)境與數據
4.1.1 線上環(huán)境
4.1.2 線上數據
4.2 模型A/B測試
4.2.1 A/B測試的原理和意義
4.2.2 A/B測試方案設計
4.3 評價指標
4.4 模型對比結果與分析
4.4.1 第一階段新舊模型對比分析
4.4.2 第二階段新舊模型對比分析
4.4.3 新模型一二階段對比
4.4.4 整體分析
4.5 本章小結
第5章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
作者簡歷及攻讀學位期間發(fā)表的學術論文與研究成果
本文編號:3844087
【文章頁數】:92 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.2 國內外研究進展
1.2.1 大數據處理工具的發(fā)展
1.2.2 不均衡數據處理的發(fā)展
1.2.3 樹模型的進展
1.3 本文主要研究內容
1.4 論文的結構安排
第2章 樹模型和集成學習關鍵技術分析
2.1 決策樹模型
2.1.1 決策樹模型的概念
2.1.2 決策樹的三種算法及其原理
2.1.3 決策樹三種算法的對比
2.2 集成學習
2.2.1 集成學習概念
2.2.2 Bagging算法原理(以基學習器為決策樹舉例)
2.2.3 Boost算法原理(以前向分步算法舉例,基學習器為決策樹)
2.2.4 梯度提升決策樹的概念和算法原理
2.3 梯度提升決策樹和邏輯回歸組合模型
2.4 本章小結
第3章 金融用戶畫像系統(tǒng)的設計與實現
3.1 引言
3.2 數據處理與樣本擴充
3.2.1 Spark SQL簡介
3.2.2 數據清洗與處理
3.2.3 基于userid+basetime的樣本擴充
3.3 特征工程與效率優(yōu)化
3.3.1 埋點特征處理
3.3.2 價格特征處理
3.3.3 時間效率優(yōu)化
3.3.4 空間效率優(yōu)化
3.4 模型構建
3.4.1 GBDT模型的輸入數據
3.4.2 GBDT模型訓練
3.4.3 LR模型的輸入數據
3.4.4 LR模型訓練
3.4.5 GBDT+LR模型整體建模流程
3.5 本章小結
第4章 模型效果與分析
4.1 線上環(huán)境與數據
4.1.1 線上環(huán)境
4.1.2 線上數據
4.2 模型A/B測試
4.2.1 A/B測試的原理和意義
4.2.2 A/B測試方案設計
4.3 評價指標
4.4 模型對比結果與分析
4.4.1 第一階段新舊模型對比分析
4.4.2 第二階段新舊模型對比分析
4.4.3 新模型一二階段對比
4.4.4 整體分析
4.5 本章小結
第5章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
作者簡歷及攻讀學位期間發(fā)表的學術論文與研究成果
本文編號:3844087
本文鏈接:http://sikaile.net/guanlilunwen/huobilw/3844087.html