基于Lasso和RBF的客戶流失預(yù)測模型研究
發(fā)布時間:2021-09-04 12:47
日益趨于飽和的市場導致企業(yè)擴大其市場份額變得愈發(fā)困難,企業(yè)客戶的增長要消耗企業(yè)更多的成本。因此,如何穩(wěn)定存量客戶已然成為企業(yè)的關(guān)注目標。存量老客戶的流失,不僅給企業(yè)帶來巨大的經(jīng)濟損失,還能減弱企業(yè)的社會影響力。因此,提前對企業(yè)客戶進行流失預(yù)測,提出有針對性的營銷策略,將成為挽留客戶、保持業(yè)務(wù)穩(wěn)定發(fā)展的主要抓手,F(xiàn)如今,大數(shù)據(jù)分析技術(shù)得到了廣泛應(yīng)用,企業(yè)利用其數(shù)據(jù)資產(chǎn)指導經(jīng)營決策成為必然。在客戶流失預(yù)測過程中,通過對特征維度高、特征動態(tài)變化且數(shù)據(jù)不均衡等復雜大數(shù)據(jù)場景進行建模分析,準確地預(yù)測客戶流失的傾向,以為企業(yè)營銷策略提供有效依據(jù)。論文提出基于Lasso回歸的RBF優(yōu)化模型,結(jié)合客戶生命周期,建立客戶流失預(yù)測模型,并基于某銀行公開數(shù)據(jù)集和某地州電信企業(yè)的脫敏數(shù)據(jù)集對模型進行驗證。論文主要工作包括:1.針對客戶數(shù)據(jù)信息中流失客戶與非流失客戶數(shù)據(jù)嚴重不平衡、客戶數(shù)據(jù)特征維度高、特征值動態(tài)變化等問題,提出基于Lasso回歸的RBF優(yōu)化模型L-RBF。該模型利用混合采樣方式平衡數(shù)據(jù)集,從而提高目標識別率;為提高模型的靈活性、通用性和預(yù)測效果,進一步構(gòu)建了RBF神經(jīng)網(wǎng)絡(luò)算法參數(shù)模型。通過與Lo...
【文章來源】:重慶郵電大學重慶市
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【部分圖文】:
客戶流失預(yù)測分析完整框架圖
據(jù)的基本結(jié)構(gòu)形式、處理方式都不相同[39]。此外,數(shù)據(jù)通常都是不完整的(可能缺少某些使用者感興趣的數(shù)據(jù)屬性或?qū)傩灾担、不一致的(可能包含代碼或者數(shù)據(jù)源名稱的差異)、極易丟失或者受到噪聲(可能是錯誤或異常值)的侵擾的。因此,在面對這種來自多個異種類型數(shù)據(jù)源的復雜數(shù)據(jù)集時,如果不對這些數(shù)據(jù)進行高質(zhì)量的預(yù)處理,則這些低質(zhì)量的數(shù)據(jù)將嚴重地導致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果,甚至可能無法有效地進行建模分析。所以在進行分析建模前首先需要對數(shù)據(jù)進行預(yù)處理,這是保證結(jié)果正確性的非常重要的一步。數(shù)據(jù)預(yù)處理步驟如圖2.2所示:圖2.2數(shù)據(jù)與處理過程圖1.數(shù)據(jù)集成:將多張關(guān)聯(lián)數(shù)據(jù)信息表的數(shù)據(jù)合并成一個一致的數(shù)據(jù)集存儲。2.數(shù)據(jù)清理:將錯誤的、冗余的、缺失的、噪音的數(shù)據(jù)信息進行清除。3.數(shù)據(jù)規(guī)約:通過數(shù)據(jù)聚集、刪除冗余特征等方式來大幅降低數(shù)據(jù)的規(guī)模。4.數(shù)據(jù)變換:把業(yè)務(wù)的原始數(shù)據(jù)轉(zhuǎn)換成一種適合數(shù)據(jù)分析的形式。本文中對數(shù)據(jù)互斥的屬性采用二進制碼替換。為了消除不同業(yè)務(wù)數(shù)據(jù)值之間因單位不同導致的量綱問題,本文采用z-score[38]對量綱數(shù)據(jù)進行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數(shù)據(jù)集的均值和方差。2.1.2特征提取特征提取作為數(shù)據(jù)分析技術(shù)應(yīng)用中一個重要的研究問題。特征提取的主要目的是從原始的數(shù)據(jù)中選取出與表示樣本特性的相關(guān)數(shù)據(jù)信息。由于互聯(lián)網(wǎng)的快速發(fā)展以及產(chǎn)品業(yè)務(wù)的高速擴張,每一個數(shù)據(jù)都可以從任意一個角度增加新的特征標簽。在設(shè)計和構(gòu)建模型的過程中,過大特征維度的數(shù)據(jù),不僅大大增加了數(shù)據(jù)預(yù)處理的
重慶郵電大學碩士學位論文第2章相關(guān)理論與技術(shù)分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術(shù)來快速搜索該假定對象的鄰域,可快速發(fā)現(xiàn)任意形狀的簇,能夠有效地排除噪聲點和離群點。這類非線性密度聚類算法一般假設(shè)類別可以通過樣本分布的密集程度進行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個樣本周圍不遠處一定范圍內(nèi)會有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個定義:1.E鄰域:給定樣本點半徑為Eps內(nèi)的區(qū)域稱為該樣本點的E鄰域;2.核心點:如果存在給定一個樣本點,并且在E鄰域內(nèi)的樣本點數(shù)大于等于MinPts,則稱該樣本點為核心點(Corepoint);3.邊界對象:樣本點的E鄰域內(nèi)包含的樣本數(shù)小于MinPts,但它又在其他核心點的鄰域內(nèi),則稱該樣本點為邊界點(Borderpoint);4.噪音點:既不是核心點也不是邊界點的樣本點;5.k-距離:給定數(shù)據(jù)集Ρ=pi,i=0,1,…,n,n為樣本點數(shù)。對于任意點pi,按式(2.5)計算點pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點之間的歐式距離,距離按照從小到大的順序排序,假設(shè)排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻】:
期刊論文
[1]中國貨幣政策的有效性評估——基于皮爾森相關(guān)系數(shù)的分析[J]. 陳志方. 中國商論. 2020(06)
[2]人力資源是企業(yè)的核心競爭力[J]. 王怡人. 現(xiàn)代營銷(信息版). 2019(07)
[3]基于決策樹模型分類多時相早稻信息提取研究[J]. 呂紅梅,李栩濱. 福建地質(zhì). 2019(02)
[4]運營商自營廳的轉(zhuǎn)型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關(guān)系管理在企業(yè)營銷管理中的應(yīng)用[J]. 孟佳鑫. 智富時代. 2019(03)
[6]改進多分類支持向量機的配電網(wǎng)故障識別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測量與儀器學報. 2019(01)
[7]全媒體時代現(xiàn)場報道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國內(nèi)4G用戶已達11.5億戶[J]. 電子技術(shù)與軟件工程. 2018(22)
[9]BP和RBF神經(jīng)網(wǎng)絡(luò)在函數(shù)逼近上的對比與研究[J]. 張志勰,虞旦. 工業(yè)控制計算機. 2018(05)
[10]客戶流失管理研究現(xiàn)狀及展望[J]. 張珠香,駱念蓓. 計算機系統(tǒng)應(yīng)用. 2017(12)
碩士論文
[1]基于數(shù)據(jù)挖掘的運營商用戶流失預(yù)測研究與應(yīng)用[D]. 林小榕.北京交通大學 2019
[2]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學 2016
[3]基于數(shù)據(jù)倉庫的客戶關(guān)系管理系統(tǒng)研究[D]. 徐璐.南昌大學 2015
[4]電信客戶生命周期價值模型及在客戶細分中的應(yīng)用研究[D]. 鄧潔君.四川大學 2007
[5]帶彈性網(wǎng)的稀疏主成分分析[D]. 張勇進.華中科技大學 2006
本文編號:3383293
【文章來源】:重慶郵電大學重慶市
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【部分圖文】:
客戶流失預(yù)測分析完整框架圖
據(jù)的基本結(jié)構(gòu)形式、處理方式都不相同[39]。此外,數(shù)據(jù)通常都是不完整的(可能缺少某些使用者感興趣的數(shù)據(jù)屬性或?qū)傩灾担、不一致的(可能包含代碼或者數(shù)據(jù)源名稱的差異)、極易丟失或者受到噪聲(可能是錯誤或異常值)的侵擾的。因此,在面對這種來自多個異種類型數(shù)據(jù)源的復雜數(shù)據(jù)集時,如果不對這些數(shù)據(jù)進行高質(zhì)量的預(yù)處理,則這些低質(zhì)量的數(shù)據(jù)將嚴重地導致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果,甚至可能無法有效地進行建模分析。所以在進行分析建模前首先需要對數(shù)據(jù)進行預(yù)處理,這是保證結(jié)果正確性的非常重要的一步。數(shù)據(jù)預(yù)處理步驟如圖2.2所示:圖2.2數(shù)據(jù)與處理過程圖1.數(shù)據(jù)集成:將多張關(guān)聯(lián)數(shù)據(jù)信息表的數(shù)據(jù)合并成一個一致的數(shù)據(jù)集存儲。2.數(shù)據(jù)清理:將錯誤的、冗余的、缺失的、噪音的數(shù)據(jù)信息進行清除。3.數(shù)據(jù)規(guī)約:通過數(shù)據(jù)聚集、刪除冗余特征等方式來大幅降低數(shù)據(jù)的規(guī)模。4.數(shù)據(jù)變換:把業(yè)務(wù)的原始數(shù)據(jù)轉(zhuǎn)換成一種適合數(shù)據(jù)分析的形式。本文中對數(shù)據(jù)互斥的屬性采用二進制碼替換。為了消除不同業(yè)務(wù)數(shù)據(jù)值之間因單位不同導致的量綱問題,本文采用z-score[38]對量綱數(shù)據(jù)進行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數(shù)據(jù)集的均值和方差。2.1.2特征提取特征提取作為數(shù)據(jù)分析技術(shù)應(yīng)用中一個重要的研究問題。特征提取的主要目的是從原始的數(shù)據(jù)中選取出與表示樣本特性的相關(guān)數(shù)據(jù)信息。由于互聯(lián)網(wǎng)的快速發(fā)展以及產(chǎn)品業(yè)務(wù)的高速擴張,每一個數(shù)據(jù)都可以從任意一個角度增加新的特征標簽。在設(shè)計和構(gòu)建模型的過程中,過大特征維度的數(shù)據(jù),不僅大大增加了數(shù)據(jù)預(yù)處理的
重慶郵電大學碩士學位論文第2章相關(guān)理論與技術(shù)分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術(shù)來快速搜索該假定對象的鄰域,可快速發(fā)現(xiàn)任意形狀的簇,能夠有效地排除噪聲點和離群點。這類非線性密度聚類算法一般假設(shè)類別可以通過樣本分布的密集程度進行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個樣本周圍不遠處一定范圍內(nèi)會有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個定義:1.E鄰域:給定樣本點半徑為Eps內(nèi)的區(qū)域稱為該樣本點的E鄰域;2.核心點:如果存在給定一個樣本點,并且在E鄰域內(nèi)的樣本點數(shù)大于等于MinPts,則稱該樣本點為核心點(Corepoint);3.邊界對象:樣本點的E鄰域內(nèi)包含的樣本數(shù)小于MinPts,但它又在其他核心點的鄰域內(nèi),則稱該樣本點為邊界點(Borderpoint);4.噪音點:既不是核心點也不是邊界點的樣本點;5.k-距離:給定數(shù)據(jù)集Ρ=pi,i=0,1,…,n,n為樣本點數(shù)。對于任意點pi,按式(2.5)計算點pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點之間的歐式距離,距離按照從小到大的順序排序,假設(shè)排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻】:
期刊論文
[1]中國貨幣政策的有效性評估——基于皮爾森相關(guān)系數(shù)的分析[J]. 陳志方. 中國商論. 2020(06)
[2]人力資源是企業(yè)的核心競爭力[J]. 王怡人. 現(xiàn)代營銷(信息版). 2019(07)
[3]基于決策樹模型分類多時相早稻信息提取研究[J]. 呂紅梅,李栩濱. 福建地質(zhì). 2019(02)
[4]運營商自營廳的轉(zhuǎn)型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關(guān)系管理在企業(yè)營銷管理中的應(yīng)用[J]. 孟佳鑫. 智富時代. 2019(03)
[6]改進多分類支持向量機的配電網(wǎng)故障識別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測量與儀器學報. 2019(01)
[7]全媒體時代現(xiàn)場報道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國內(nèi)4G用戶已達11.5億戶[J]. 電子技術(shù)與軟件工程. 2018(22)
[9]BP和RBF神經(jīng)網(wǎng)絡(luò)在函數(shù)逼近上的對比與研究[J]. 張志勰,虞旦. 工業(yè)控制計算機. 2018(05)
[10]客戶流失管理研究現(xiàn)狀及展望[J]. 張珠香,駱念蓓. 計算機系統(tǒng)應(yīng)用. 2017(12)
碩士論文
[1]基于數(shù)據(jù)挖掘的運營商用戶流失預(yù)測研究與應(yīng)用[D]. 林小榕.北京交通大學 2019
[2]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學 2016
[3]基于數(shù)據(jù)倉庫的客戶關(guān)系管理系統(tǒng)研究[D]. 徐璐.南昌大學 2015
[4]電信客戶生命周期價值模型及在客戶細分中的應(yīng)用研究[D]. 鄧潔君.四川大學 2007
[5]帶彈性網(wǎng)的稀疏主成分分析[D]. 張勇進.華中科技大學 2006
本文編號:3383293
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3383293.html
最近更新
教材專著