基于Xgboost方法的實體零售業(yè)銷售額預(yù)測研究
本文關(guān)鍵詞:基于Xgboost方法的實體零售業(yè)銷售額預(yù)測研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:可靠的銷售額預(yù)測能夠幫助商場管理者建立有效的員工日程安排,并幫助商場管理者發(fā)現(xiàn)影響客戶和團隊的重要因素,從而改進生產(chǎn)模式,提高商場的贏利能力。本論文以德國著名實體零售業(yè)Rossmanns公司1115家分店的日常銷售數(shù)據(jù)及店鋪信息數(shù)據(jù)為挖掘?qū)ο?采用探索性數(shù)據(jù)分析及可視化技術(shù),使用Python和R語言編程實現(xiàn),對比了Xgboost(Extreme Gradient Boosting)、隨機森林、GLMNET(Lasso and Elastic-Net Regularized Generalized Linear Models)以及LM(Linear Model)、TSLM(Time Series Linear Model)模型在銷售額預(yù)測上的性能,初步發(fā)現(xiàn)Xgboost方法在RMSPE(Root Mean Square Percentage Error)評價標準上取得較好的效果。為進一步提高Xgboost方法的銷售額預(yù)測精度和泛化性能,論文結(jié)合特征工程,采用集成學(xué)習(xí)方法,利用GLMNET和Xgboost模型擬合殘差,結(jié)合LM、TSLM在趨勢和季節(jié)性預(yù)測的優(yōu)點,建立Xgboost組合模型,并通過參數(shù)調(diào)優(yōu)提高其性能。通過實驗證明,得到的最終組合模型可提高銷售額預(yù)測的精度和泛化能力。基于Xgboost的組合模型不僅適用于對德國零售業(yè)銷售額的預(yù)測,還可以將此方法應(yīng)用于國內(nèi)零售實體業(yè)甚至電商平臺的銷售額預(yù)測,對于提高商店的運營模式、商品的價格、配貨方式及針對性的精準銷售具有重要的意義。
【關(guān)鍵詞】:銷售額預(yù)測 數(shù)據(jù)挖掘 機器學(xué)習(xí) Xgboost 集成學(xué)習(xí)
【學(xué)位授予單位】:南昌大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:F713.32;F274;TP301.6
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第1章 引言8-15
- 1.1 課題來源及內(nèi)容8
- 1.2 課題背景及其意義8-11
- 1.3 研究現(xiàn)狀11-12
- 1.4 研究內(nèi)容12-13
- 1.5 可行性分析及創(chuàng)新點13-14
- 1.6 全文組織結(jié)構(gòu)14-15
- 第2章 基礎(chǔ)算法綜述15-29
- 2.1 Boosting Tree提升樹算法推導(dǎo)15-21
- 2.1.1 學(xué)習(xí)目標函數(shù)15-17
- 2.1.2 梯度樹提升(Gradient Tree Boosting)17-20
- 2.1.3 Shrinkage和列二次采樣20-21
- 2.2 分割搜尋算法21-25
- 2.2.1 精確貪心算法21
- 2.2.2 近似算法21-22
- 2.2.3 加權(quán)分位數(shù)略圖22-23
- 2.2.4 稀疏感知分割搜索23-25
- 2.3 Xgboost系統(tǒng)設(shè)計與性能比較25-29
- 2.3.1 并行學(xué)習(xí)的列塊25
- 2.3.2 緩存感知訪問25-26
- 2.3.3 核外計算26
- 2.3.4 與傳統(tǒng)的GBDT算法的區(qū)別26-29
- 第3章 探索性數(shù)據(jù)分析與可視化29-57
- 3.1 探索性數(shù)據(jù)分析29-32
- 3.1.1 探索性數(shù)據(jù)分析的特點30-31
- 3.1.2 探索性數(shù)據(jù)分析內(nèi)容31
- 3.1.3 探索性數(shù)據(jù)分析的考察方法31-32
- 3.2 數(shù)據(jù)可視化32-34
- 3.2.1 數(shù)據(jù)可視化的意義33
- 3.2.2 數(shù)據(jù)挖掘與可視化技術(shù)33-34
- 3.3 探索性數(shù)據(jù)分析及可視化實現(xiàn)34-57
- 3.3.1 數(shù)據(jù)來源34-35
- 3.3.2 分類特征描述35-37
- 3.3.3 數(shù)據(jù)特征分析可視化37-57
- 第4章 特征工程57-71
- 4.1 特征提取58-63
- 4.1.1 數(shù)據(jù)清洗58-59
- 4.1.2 特征分類59-60
- 4.1.3 特征的預(yù)處理60-63
- 4.2 特征選擇63-67
- 4.3 特征構(gòu)建67
- 4.4 特征工程過程67-71
- 第5章 模型優(yōu)化與實驗對比71-88
- 5.1 實驗描述71-73
- 5.1.1 實驗條件71
- 5.1.2 評估標準71-73
- 5.2 模型參數(shù)及優(yōu)化73-82
- 5.2.1 Xgboost的模型參數(shù)73-77
- 5.2.2 偏置-方差的折衷77
- 5.2.3 控制過擬合77-78
- 5.2.4 處理不平衡數(shù)據(jù)78
- 5.2.5 超參數(shù)設(shè)置78-80
- 5.2.6 交叉驗證及獨熱編碼80-82
- 5.3 模型優(yōu)化與對比82-88
- 第6章 結(jié)論與展望88-89
- 6.1 結(jié)論88
- 6.2 進一步工作的方向88-89
- 致謝89-90
- 參考文獻90-92
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁漢寧;;雙層多示例集成學(xué)習(xí)[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2011年05期
2 俞揚;周志華;;集成學(xué)習(xí)中完全隨機學(xué)習(xí)策略研究[J];計算機工程;2006年17期
3 張滄生;崔麗娟;楊剛;倪志宏;;集成學(xué)習(xí)算法的比較研究[J];河北大學(xué)學(xué)報(自然科學(xué)版);2007年05期
4 陳凱;;基于聚類技術(shù)的集成學(xué)習(xí)差異性研究[J];南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報;2008年04期
5 李凱;崔麗娟;;集成學(xué)習(xí)算法的差異性及性能比較[J];計算機工程;2008年06期
6 潘志松;燕繼坤;;少數(shù)類的集成學(xué)習(xí)[J];南京航空航天大學(xué)學(xué)報;2009年04期
7 陳凱;馬景義;;一種選擇性SER-BagBoosting Trees集成學(xué)習(xí)研究[J];計算機科學(xué);2009年09期
8 陳全;趙文輝;李潔;江雨燕;;選擇性集成學(xué)習(xí)算法的研究[J];計算機技術(shù)與發(fā)展;2010年02期
9 張燕平;曹振田;趙姝;鄭堯軍;杜玲;竇蓉蓉;;一種新的決策樹選擇性集成學(xué)習(xí)方法[J];計算機工程與應(yīng)用;2010年17期
10 饒峰;;核機器集成學(xué)習(xí)算法的誤差分析[J];重慶文理學(xué)院學(xué)報(自然科學(xué)版);2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 關(guān)菁華;劉大有;賈海洋;;自適應(yīng)多分類器集成學(xué)習(xí)算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
2 劉伍穎;王挺;;一種多過濾器集成學(xué)習(xí)垃圾郵件過濾方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 葉紅云;倪志偉;陳恩紅;;一種混合型集成學(xué)習(xí)演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
4 李燁;蔡云澤;許曉鳴;;基于支持向量機集成的故障診斷[A];第16屆中國過程控制學(xué)術(shù)年會暨第4屆全國故障診斷與安全性學(xué)術(shù)會議論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 阿里木·賽買提(Alim.Samat);基于集成學(xué)習(xí)的全極化SAR圖像分類研究[D];南京大學(xué);2015年
2 王永明;集成回歸問題若干關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2015年
3 常征;基于混合集成學(xué)習(xí)的眼部與四肢交互動作建模與識別[D];北京科技大學(xué);2016年
4 張春霞;集成學(xué)習(xí)中有關(guān)算法的研究[D];西安交通大學(xué);2010年
5 劉天羽;基于特征選擇技術(shù)的集成學(xué)習(xí)方法及其應(yīng)用研究[D];上海大學(xué);2007年
6 尹華;面向高維和不平衡數(shù)據(jù)分類的集成學(xué)習(xí)研究[D];武漢大學(xué);2012年
7 王清;集成學(xué)習(xí)中若干關(guān)鍵問題的研究[D];復(fù)旦大學(xué);2011年
8 方育柯;集成學(xué)習(xí)理論研究及其在個性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年
9 侯勇;特征提取與集成學(xué)習(xí)算法的研究及應(yīng)用[D];北京科技大學(xué);2015年
10 李燁;基于支持向量機的集成學(xué)習(xí)研究[D];上海交通大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李震宇;基于集成學(xué)習(xí)的數(shù)字圖像隱寫定量分析[D];解放軍信息工程大學(xué);2014年
2 王希玲;基于選擇性集成學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測方法研究[D];青島科技大學(xué);2016年
3 陳范曙;基于信息整合的藥物相關(guān)信息挖掘方法研究[D];華東師范大學(xué);2016年
4 游攀利;基于集成SVM的文本分類方法研究[D];華中科技大學(xué);2014年
5 高慧珍;基于集成學(xué)習(xí)方法的多元統(tǒng)計過程異常診斷的研究[D];南京理工大學(xué);2016年
6 蘇濤;基于梯度提升樹的行為式驗證碼人機識別的研究[D];華中師范大學(xué);2016年
7 閻秋靜;基于集成學(xué)習(xí)的高光譜圖像分類[D];黑龍江大學(xué);2016年
8 陶杰;基于集成學(xué)習(xí)的短文本主客觀分類研究[D];安徽工業(yè)大學(xué);2016年
9 楊印衛(wèi);基于異態(tài)集成學(xué)習(xí)的刀具狀態(tài)監(jiān)測技術(shù)研究[D];天津大學(xué);2014年
10 徐燕會;基于神經(jīng)影像的進展型輕度認知功能障礙識別研究[D];安徽工業(yè)大學(xué);2016年
本文關(guān)鍵詞:基于Xgboost方法的實體零售業(yè)銷售額預(yù)測研究,由筆耕文化傳播整理發(fā)布。
本文編號:287341
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/287341.html