基于多算法融合的電子商務(wù)客戶流失預(yù)測算法研究
發(fā)布時間:2021-03-09 18:22
針對電子商務(wù)客戶流失預(yù)測中存在的客戶特征多樣性、流失客戶比例失衡、采用單一算法易出現(xiàn)“過擬合”等一系列現(xiàn)象會影響預(yù)測效果問題,本文構(gòu)建了基于多算法融合的電子商務(wù)客戶流失預(yù)測算法模型。首先,為了解決客戶樣本在特征空間分布上的差異性,本文針對傳統(tǒng)K-means聚類中存在的初始中心點不穩(wěn)定、易陷入局部最優(yōu)和難以選取最佳聚類數(shù)等一系列問題,提出了一種基于K-means聚類的改進算法。該算法首先利用K-means++從數(shù)據(jù)中選擇K+m個距離盡可能遠的對象作為初始聚類中心,然后利用K-mediods選擇數(shù)據(jù)樣本的中位數(shù)更新聚類中心,為了進一步調(diào)整聚類的穩(wěn)定性,最后使用兩步聚類將聚類中心聚類為K個。通過對四個常用UCI標準數(shù)據(jù)集進行仿真實驗,發(fā)現(xiàn)對比K-means傳統(tǒng)聚類算法,該算法的預(yù)測準確率分別提高了6.88%、1.34%、0.57%和5.18%。結(jié)果表明該算法對于改善特征空間分布上的差異性是有效的。其次,為了改善數(shù)據(jù)不平衡會影響樣本分類準確率的問題,本文基于過采樣法和欠采樣法,提出了一種EasyEnsemble—Smote算法。該算法首先通過Smote算法,在分析少數(shù)類樣本特征的基礎(chǔ)上合成新樣...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘處理過程圖
第二章部分相關(guān)理論13(4)建立模型:將已處理好的數(shù)據(jù)應(yīng)用于數(shù)據(jù)挖掘中的各類算法中,選擇相應(yīng)的參數(shù)后并生成模型。(5)模型評估和解釋:使用數(shù)學(xué)方法,對模型的結(jié)果進行評估與比較,并選出結(jié)果相對較優(yōu)的模型。2.4.用于預(yù)測的數(shù)據(jù)挖掘算法預(yù)測是指計算機從歷史數(shù)據(jù)獲取知識并使用這些知識對未來數(shù)據(jù)進行合理預(yù)測的過程。隨著互聯(lián)網(wǎng)和計算機技術(shù)不斷的發(fā)展,各種預(yù)測算法也在不斷的出現(xiàn),本章主要介紹以下四種預(yù)測算法:2.4.1.決策樹算法決策樹(DecisionTree)[43-44]是機器學(xué)習(xí)中較為經(jīng)典的一種分類與預(yù)測的方法。本節(jié)會系統(tǒng)講述決策樹算法中用到的各種概念,并詳細介紹決策樹構(gòu)建過程的幾個步驟。(1)決策樹的基本概念決策樹的結(jié)構(gòu)圖如下圖2.2所示,它由結(jié)點和邊組成。結(jié)點根據(jù)象征意義又可以劃分為內(nèi)部結(jié)點和葉結(jié)點。前者表示數(shù)據(jù)中樣本特征,后者表示數(shù)據(jù)中樣本的類別。決策樹對樣本進行分類的過程可進行如下描述:從決策樹的根結(jié)點開始,根據(jù)樣本的特征進行決策樹分支的選擇,然后使用該方式逐漸向下迭代遞歸,若算法運行到?jīng)Q策樹的葉結(jié)點則遞歸結(jié)束,此時葉結(jié)點的標簽就是樣本的類別。圖2.2決策樹結(jié)構(gòu)圖
決策樹算法流程圖
【參考文獻】:
期刊論文
[1]一種影響空間下的快速K-means聚類算法[J]. 趙文沖,蔡江輝,趙旭俊,張繼福. 小型微型計算機系統(tǒng). 2016(09)
[2]基于K-均值和K-中心點算法的大數(shù)據(jù)集分析[J]. 郭晨晨,朱紅康. 太原師范學(xué)院學(xué)報(自然科學(xué)版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影響電子商務(wù)客戶流失因素分析[J]. 于小兵,王旭明. 數(shù)學(xué)的實踐與認識. 2014(21)
[5]多類類別不平衡學(xué)習(xí)算法:EasyEnsemble.M[J]. 李倩倩,劉胥影. 模式識別與人工智能. 2014(02)
[6]影響B(tài)2C電子商務(wù)企業(yè)客戶流失因素的實證分析[J]. 李婷婷. 對外經(jīng)貿(mào). 2014(01)
[7]消費者對B2C網(wǎng)站忠誠度研究——基于Ordered Logit模型[J]. 舒曼. 經(jīng)濟論壇. 2013(09)
[8]灰色關(guān)聯(lián)分析模型研究進展[J]. 劉思峰,蔡華,楊英杰,曹穎. 系統(tǒng)工程理論與實踐. 2013(08)
[9]融入個體活躍度的電子商務(wù)客戶流失預(yù)測模型[J]. 琚春華,盧琦蓓,郭飛鵬. 系統(tǒng)工程理論與實踐. 2013(01)
[10]B2C電子商務(wù)客戶流失原因評估研究[J]. 于小兵,曹杰,張夢男. 模糊系統(tǒng)與數(shù)學(xué). 2012(06)
碩士論文
[1]BP神經(jīng)網(wǎng)絡(luò)的改進研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[2]BP神經(jīng)網(wǎng)絡(luò)算法改進及應(yīng)用研究[D]. 黃麗.重慶師范大學(xué) 2008
本文編號:3073269
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:83 頁
【學(xué)位級別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘處理過程圖
第二章部分相關(guān)理論13(4)建立模型:將已處理好的數(shù)據(jù)應(yīng)用于數(shù)據(jù)挖掘中的各類算法中,選擇相應(yīng)的參數(shù)后并生成模型。(5)模型評估和解釋:使用數(shù)學(xué)方法,對模型的結(jié)果進行評估與比較,并選出結(jié)果相對較優(yōu)的模型。2.4.用于預(yù)測的數(shù)據(jù)挖掘算法預(yù)測是指計算機從歷史數(shù)據(jù)獲取知識并使用這些知識對未來數(shù)據(jù)進行合理預(yù)測的過程。隨著互聯(lián)網(wǎng)和計算機技術(shù)不斷的發(fā)展,各種預(yù)測算法也在不斷的出現(xiàn),本章主要介紹以下四種預(yù)測算法:2.4.1.決策樹算法決策樹(DecisionTree)[43-44]是機器學(xué)習(xí)中較為經(jīng)典的一種分類與預(yù)測的方法。本節(jié)會系統(tǒng)講述決策樹算法中用到的各種概念,并詳細介紹決策樹構(gòu)建過程的幾個步驟。(1)決策樹的基本概念決策樹的結(jié)構(gòu)圖如下圖2.2所示,它由結(jié)點和邊組成。結(jié)點根據(jù)象征意義又可以劃分為內(nèi)部結(jié)點和葉結(jié)點。前者表示數(shù)據(jù)中樣本特征,后者表示數(shù)據(jù)中樣本的類別。決策樹對樣本進行分類的過程可進行如下描述:從決策樹的根結(jié)點開始,根據(jù)樣本的特征進行決策樹分支的選擇,然后使用該方式逐漸向下迭代遞歸,若算法運行到?jīng)Q策樹的葉結(jié)點則遞歸結(jié)束,此時葉結(jié)點的標簽就是樣本的類別。圖2.2決策樹結(jié)構(gòu)圖
決策樹算法流程圖
【參考文獻】:
期刊論文
[1]一種影響空間下的快速K-means聚類算法[J]. 趙文沖,蔡江輝,趙旭俊,張繼福. 小型微型計算機系統(tǒng). 2016(09)
[2]基于K-均值和K-中心點算法的大數(shù)據(jù)集分析[J]. 郭晨晨,朱紅康. 太原師范學(xué)院學(xué)報(自然科學(xué)版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影響電子商務(wù)客戶流失因素分析[J]. 于小兵,王旭明. 數(shù)學(xué)的實踐與認識. 2014(21)
[5]多類類別不平衡學(xué)習(xí)算法:EasyEnsemble.M[J]. 李倩倩,劉胥影. 模式識別與人工智能. 2014(02)
[6]影響B(tài)2C電子商務(wù)企業(yè)客戶流失因素的實證分析[J]. 李婷婷. 對外經(jīng)貿(mào). 2014(01)
[7]消費者對B2C網(wǎng)站忠誠度研究——基于Ordered Logit模型[J]. 舒曼. 經(jīng)濟論壇. 2013(09)
[8]灰色關(guān)聯(lián)分析模型研究進展[J]. 劉思峰,蔡華,楊英杰,曹穎. 系統(tǒng)工程理論與實踐. 2013(08)
[9]融入個體活躍度的電子商務(wù)客戶流失預(yù)測模型[J]. 琚春華,盧琦蓓,郭飛鵬. 系統(tǒng)工程理論與實踐. 2013(01)
[10]B2C電子商務(wù)客戶流失原因評估研究[J]. 于小兵,曹杰,張夢男. 模糊系統(tǒng)與數(shù)學(xué). 2012(06)
碩士論文
[1]BP神經(jīng)網(wǎng)絡(luò)的改進研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[2]BP神經(jīng)網(wǎng)絡(luò)算法改進及應(yīng)用研究[D]. 黃麗.重慶師范大學(xué) 2008
本文編號:3073269
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3073269.html
最近更新
教材專著