基于Lasso和RBF的客戶流失預測模型研究
發(fā)布時間:2021-09-04 12:47
日益趨于飽和的市場導致企業(yè)擴大其市場份額變得愈發(fā)困難,企業(yè)客戶的增長要消耗企業(yè)更多的成本。因此,如何穩(wěn)定存量客戶已然成為企業(yè)的關注目標。存量老客戶的流失,不僅給企業(yè)帶來巨大的經濟損失,還能減弱企業(yè)的社會影響力。因此,提前對企業(yè)客戶進行流失預測,提出有針對性的營銷策略,將成為挽留客戶、保持業(yè)務穩(wěn)定發(fā)展的主要抓手,F如今,大數據分析技術得到了廣泛應用,企業(yè)利用其數據資產指導經營決策成為必然。在客戶流失預測過程中,通過對特征維度高、特征動態(tài)變化且數據不均衡等復雜大數據場景進行建模分析,準確地預測客戶流失的傾向,以為企業(yè)營銷策略提供有效依據。論文提出基于Lasso回歸的RBF優(yōu)化模型,結合客戶生命周期,建立客戶流失預測模型,并基于某銀行公開數據集和某地州電信企業(yè)的脫敏數據集對模型進行驗證。論文主要工作包括:1.針對客戶數據信息中流失客戶與非流失客戶數據嚴重不平衡、客戶數據特征維度高、特征值動態(tài)變化等問題,提出基于Lasso回歸的RBF優(yōu)化模型L-RBF。該模型利用混合采樣方式平衡數據集,從而提高目標識別率;為提高模型的靈活性、通用性和預測效果,進一步構建了RBF神經網絡算法參數模型。通過與Lo...
【文章來源】:重慶郵電大學重慶市
【文章頁數】:85 頁
【學位級別】:碩士
【部分圖文】:
客戶流失預測分析完整框架圖
據的基本結構形式、處理方式都不相同[39]。此外,數據通常都是不完整的(可能缺少某些使用者感興趣的數據屬性或屬性值)、不一致的(可能包含代碼或者數據源名稱的差異)、極易丟失或者受到噪聲(可能是錯誤或異常值)的侵擾的。因此,在面對這種來自多個異種類型數據源的復雜數據集時,如果不對這些數據進行高質量的預處理,則這些低質量的數據將嚴重地導致低質量的數據挖掘結果,甚至可能無法有效地進行建模分析。所以在進行分析建模前首先需要對數據進行預處理,這是保證結果正確性的非常重要的一步。數據預處理步驟如圖2.2所示:圖2.2數據與處理過程圖1.數據集成:將多張關聯數據信息表的數據合并成一個一致的數據集存儲。2.數據清理:將錯誤的、冗余的、缺失的、噪音的數據信息進行清除。3.數據規(guī)約:通過數據聚集、刪除冗余特征等方式來大幅降低數據的規(guī)模。4.數據變換:把業(yè)務的原始數據轉換成一種適合數據分析的形式。本文中對數據互斥的屬性采用二進制碼替換。為了消除不同業(yè)務數據值之間因單位不同導致的量綱問題,本文采用z-score[38]對量綱數據進行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數據集的均值和方差。2.1.2特征提取特征提取作為數據分析技術應用中一個重要的研究問題。特征提取的主要目的是從原始的數據中選取出與表示樣本特性的相關數據信息。由于互聯網的快速發(fā)展以及產品業(yè)務的高速擴張,每一個數據都可以從任意一個角度增加新的特征標簽。在設計和構建模型的過程中,過大特征維度的數據,不僅大大增加了數據預處理的
重慶郵電大學碩士學位論文第2章相關理論與技術分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術來快速搜索該假定對象的鄰域,可快速發(fā)現任意形狀的簇,能夠有效地排除噪聲點和離群點。這類非線性密度聚類算法一般假設類別可以通過樣本分布的密集程度進行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個樣本周圍不遠處一定范圍內會有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個定義:1.E鄰域:給定樣本點半徑為Eps內的區(qū)域稱為該樣本點的E鄰域;2.核心點:如果存在給定一個樣本點,并且在E鄰域內的樣本點數大于等于MinPts,則稱該樣本點為核心點(Corepoint);3.邊界對象:樣本點的E鄰域內包含的樣本數小于MinPts,但它又在其他核心點的鄰域內,則稱該樣本點為邊界點(Borderpoint);4.噪音點:既不是核心點也不是邊界點的樣本點;5.k-距離:給定數據集Ρ=pi,i=0,1,…,n,n為樣本點數。對于任意點pi,按式(2.5)計算點pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點之間的歐式距離,距離按照從小到大的順序排序,假設排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻】:
期刊論文
[1]中國貨幣政策的有效性評估——基于皮爾森相關系數的分析[J]. 陳志方. 中國商論. 2020(06)
[2]人力資源是企業(yè)的核心競爭力[J]. 王怡人. 現代營銷(信息版). 2019(07)
[3]基于決策樹模型分類多時相早稻信息提取研究[J]. 呂紅梅,李栩濱. 福建地質. 2019(02)
[4]運營商自營廳的轉型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關系管理在企業(yè)營銷管理中的應用[J]. 孟佳鑫. 智富時代. 2019(03)
[6]改進多分類支持向量機的配電網故障識別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測量與儀器學報. 2019(01)
[7]全媒體時代現場報道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國內4G用戶已達11.5億戶[J]. 電子技術與軟件工程. 2018(22)
[9]BP和RBF神經網絡在函數逼近上的對比與研究[J]. 張志勰,虞旦. 工業(yè)控制計算機. 2018(05)
[10]客戶流失管理研究現狀及展望[J]. 張珠香,駱念蓓. 計算機系統(tǒng)應用. 2017(12)
碩士論文
[1]基于數據挖掘的運營商用戶流失預測研究與應用[D]. 林小榕.北京交通大學 2019
[2]基于少數類樣本重組的不平衡數據分類研究[D]. 李軒.湖南大學 2016
[3]基于數據倉庫的客戶關系管理系統(tǒng)研究[D]. 徐璐.南昌大學 2015
[4]電信客戶生命周期價值模型及在客戶細分中的應用研究[D]. 鄧潔君.四川大學 2007
[5]帶彈性網的稀疏主成分分析[D]. 張勇進.華中科技大學 2006
本文編號:3383293
【文章來源】:重慶郵電大學重慶市
【文章頁數】:85 頁
【學位級別】:碩士
【部分圖文】:
客戶流失預測分析完整框架圖
據的基本結構形式、處理方式都不相同[39]。此外,數據通常都是不完整的(可能缺少某些使用者感興趣的數據屬性或屬性值)、不一致的(可能包含代碼或者數據源名稱的差異)、極易丟失或者受到噪聲(可能是錯誤或異常值)的侵擾的。因此,在面對這種來自多個異種類型數據源的復雜數據集時,如果不對這些數據進行高質量的預處理,則這些低質量的數據將嚴重地導致低質量的數據挖掘結果,甚至可能無法有效地進行建模分析。所以在進行分析建模前首先需要對數據進行預處理,這是保證結果正確性的非常重要的一步。數據預處理步驟如圖2.2所示:圖2.2數據與處理過程圖1.數據集成:將多張關聯數據信息表的數據合并成一個一致的數據集存儲。2.數據清理:將錯誤的、冗余的、缺失的、噪音的數據信息進行清除。3.數據規(guī)約:通過數據聚集、刪除冗余特征等方式來大幅降低數據的規(guī)模。4.數據變換:把業(yè)務的原始數據轉換成一種適合數據分析的形式。本文中對數據互斥的屬性采用二進制碼替換。為了消除不同業(yè)務數據值之間因單位不同導致的量綱問題,本文采用z-score[38]對量綱數據進行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數據集的均值和方差。2.1.2特征提取特征提取作為數據分析技術應用中一個重要的研究問題。特征提取的主要目的是從原始的數據中選取出與表示樣本特性的相關數據信息。由于互聯網的快速發(fā)展以及產品業(yè)務的高速擴張,每一個數據都可以從任意一個角度增加新的特征標簽。在設計和構建模型的過程中,過大特征維度的數據,不僅大大增加了數據預處理的
重慶郵電大學碩士學位論文第2章相關理論與技術分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術來快速搜索該假定對象的鄰域,可快速發(fā)現任意形狀的簇,能夠有效地排除噪聲點和離群點。這類非線性密度聚類算法一般假設類別可以通過樣本分布的密集程度進行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個樣本周圍不遠處一定范圍內會有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個定義:1.E鄰域:給定樣本點半徑為Eps內的區(qū)域稱為該樣本點的E鄰域;2.核心點:如果存在給定一個樣本點,并且在E鄰域內的樣本點數大于等于MinPts,則稱該樣本點為核心點(Corepoint);3.邊界對象:樣本點的E鄰域內包含的樣本數小于MinPts,但它又在其他核心點的鄰域內,則稱該樣本點為邊界點(Borderpoint);4.噪音點:既不是核心點也不是邊界點的樣本點;5.k-距離:給定數據集Ρ=pi,i=0,1,…,n,n為樣本點數。對于任意點pi,按式(2.5)計算點pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點之間的歐式距離,距離按照從小到大的順序排序,假設排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻】:
期刊論文
[1]中國貨幣政策的有效性評估——基于皮爾森相關系數的分析[J]. 陳志方. 中國商論. 2020(06)
[2]人力資源是企業(yè)的核心競爭力[J]. 王怡人. 現代營銷(信息版). 2019(07)
[3]基于決策樹模型分類多時相早稻信息提取研究[J]. 呂紅梅,李栩濱. 福建地質. 2019(02)
[4]運營商自營廳的轉型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關系管理在企業(yè)營銷管理中的應用[J]. 孟佳鑫. 智富時代. 2019(03)
[6]改進多分類支持向量機的配電網故障識別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測量與儀器學報. 2019(01)
[7]全媒體時代現場報道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國內4G用戶已達11.5億戶[J]. 電子技術與軟件工程. 2018(22)
[9]BP和RBF神經網絡在函數逼近上的對比與研究[J]. 張志勰,虞旦. 工業(yè)控制計算機. 2018(05)
[10]客戶流失管理研究現狀及展望[J]. 張珠香,駱念蓓. 計算機系統(tǒng)應用. 2017(12)
碩士論文
[1]基于數據挖掘的運營商用戶流失預測研究與應用[D]. 林小榕.北京交通大學 2019
[2]基于少數類樣本重組的不平衡數據分類研究[D]. 李軒.湖南大學 2016
[3]基于數據倉庫的客戶關系管理系統(tǒng)研究[D]. 徐璐.南昌大學 2015
[4]電信客戶生命周期價值模型及在客戶細分中的應用研究[D]. 鄧潔君.四川大學 2007
[5]帶彈性網的稀疏主成分分析[D]. 張勇進.華中科技大學 2006
本文編號:3383293
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3383293.html
最近更新
教材專著