分類回歸方法優(yōu)化及在消費(fèi)行為分析預(yù)測中應(yīng)用
本文選題:決策樹 + 剪枝算法; 參考:《中國石油大學(xué)(北京)》2016年碩士論文
【摘要】:隨著計(jì)算機(jī)在商業(yè)領(lǐng)域廣泛應(yīng)用,積累了海量的個(gè)人消費(fèi)行為數(shù)據(jù)。研究消費(fèi)行為數(shù)據(jù),分析并預(yù)測消費(fèi)者的消費(fèi)需求和消費(fèi)傾向,對(duì)企業(yè)制定生產(chǎn)和營銷計(jì)劃具有重要指導(dǎo)作用。為了預(yù)測消費(fèi)者的消費(fèi)行為,挖掘消費(fèi)行為數(shù)據(jù)中的隱藏信息,主要進(jìn)行如下工作:首先,優(yōu)化分類回歸決策樹的生成方法,通過分析數(shù)據(jù)在屬性取值上的分布特性限定屬性的最大分割次數(shù);為屬性選取標(biāo)準(zhǔn)添加缺失數(shù)據(jù)懲罰因子,降低將缺失取值較多的屬性選取為分割節(jié)點(diǎn);同時(shí),將離散屬性的分裂標(biāo)準(zhǔn)由二分裂改為多分裂,從而獲取具有較高分類預(yù)測準(zhǔn)確率和較小規(guī)模的決策樹模型。其次,針對(duì)現(xiàn)有決策樹剪枝算法的缺點(diǎn),提出新的動(dòng)態(tài)結(jié)合決策樹的分類誤差和規(guī)模量的剪枝標(biāo)準(zhǔn),不需要獨(dú)立剪枝數(shù)據(jù)集,并綜合考慮決策樹的分類誤差和存儲(chǔ)規(guī)模,解決單一指標(biāo)剪枝出現(xiàn)偏向,獲得更加平衡的決策樹,提高決策樹模型的泛化能力。最后,將優(yōu)化改進(jìn)的分類回歸決策樹生成算法和決策樹剪枝算法應(yīng)用于劃分消費(fèi)群體和預(yù)測消費(fèi)者購買傾向。
[Abstract]:With the wide application of computer in the field of business, a large amount of personal consumer behavior data has been accumulated. The study of consumer behavior data and the analysis and prediction of consumer demand and propensity play an important role in guiding enterprises to formulate production and marketing plans. In order to predict the consumer's consumption behavior and mine the hidden information in the consumer behavior data, the main work is as follows: first, optimize the method of classification and regression decision tree generation. By analyzing the distribution of data on attribute values, limiting the maximum number of attribute segmentation, adding missing data penalty factor for attribute selection criteria, reducing the missing values of the attributes selected as the split node, at the same time, The split criterion of discrete attributes is changed from two-splitting to multi-splitting to obtain a decision tree model with higher classification accuracy and smaller scale. Secondly, aiming at the shortcomings of the existing decision tree pruning algorithms, a new pruning criterion for dynamic combination of decision tree classification error and scale is proposed, which does not need independent pruning data set, and considers the classification error and storage scale of decision tree synthetically. A more balanced decision tree is obtained by solving the deviation of single index pruning, and the generalization ability of decision tree model is improved. Finally, the improved classification and regression decision tree generation algorithm and the decision tree pruning algorithm are applied to partition consumer groups and predict consumer purchase tendency.
【學(xué)位授予單位】:中國石油大學(xué)(北京)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊貴軍;孟杰;王雙喜;;基于赤池信息準(zhǔn)則的分類回歸決策樹剪枝算法[J];計(jì)算機(jī)應(yīng)用;2014年S2期
2 梁鳳蘭;;優(yōu)化決策樹改進(jìn)挖掘算法仿真[J];計(jì)算機(jī)仿真;2013年11期
3 曾小青;徐秦;張丹;林大瀚;;基于消費(fèi)數(shù)據(jù)挖掘的多指標(biāo)客戶細(xì)分新方法[J];計(jì)算機(jī)應(yīng)用研究;2013年10期
4 孫娟;;智能參數(shù)學(xué)習(xí)的模糊決策樹算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年23期
5 常旭;李義杰;劉萬軍;;CDC與REP結(jié)合的決策樹剪枝優(yōu)化算法[J];計(jì)算機(jī)工程;2012年14期
6 陳毅文;馬繼偉;;電子商務(wù)中消費(fèi)者購買決策及其影響因素[J];心理科學(xué)進(jìn)展;2012年01期
7 姚亞夫;邢留濤;;決策樹C4.5連續(xù)屬性分割閾值算法改進(jìn)及其應(yīng)用[J];中南大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年12期
8 盧侃;;從Shannon信息論到認(rèn)知信息論[J];哈爾濱工程大學(xué)學(xué)報(bào);2011年08期
9 朱參世;張超;李響;;基于模糊分裂的概念自適應(yīng)增量決策樹分類算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年04期
10 李仁良;李義杰;;基于多策略的決策樹剪枝算法及其應(yīng)用[J];計(jì)算機(jī)仿真;2010年11期
相關(guān)碩士學(xué)位論文 前5條
1 陳新明;淘寶網(wǎng)數(shù)據(jù)平臺(tái)數(shù)據(jù)倉庫建設(shè)[D];大連理工大學(xué);2013年
2 黃雯;數(shù)據(jù)挖掘算法及其應(yīng)用研究[D];南京郵電大學(xué);2013年
3 許力梅;基于關(guān)聯(lián)規(guī)則的決策樹算法改進(jìn)及應(yīng)用[D];華南理工大學(xué);2011年
4 周海波;基于決策樹的分類算法研究[D];蘭州大學(xué);2009年
5 王黎明;決策樹學(xué)習(xí)及其剪枝算法研究[D];武漢理工大學(xué);2007年
,本文編號(hào):2002628
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2002628.html