基于數(shù)據(jù)挖掘的消費(fèi)者購買預(yù)測的研究
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘的消費(fèi)者購買預(yù)測的研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著電子商務(wù)的發(fā)展,網(wǎng)絡(luò)購物已經(jīng)成為一種主要的消費(fèi)模式,相比于線下,線上消費(fèi)具有價(jià)格低廉、品種繁多、比價(jià)方便、受營業(yè)時(shí)間、地域的影響更小等優(yōu)點(diǎn)。但恰恰是海量的商品信息,更多元的購買選擇,使得消費(fèi)者要從中搜尋到合適的商品需要花費(fèi)過多的時(shí)間和精力。與此同時(shí),電子商務(wù)平臺(tái)上的激烈競爭,使得商家們?yōu)榱烁玫刭N近消費(fèi)者的實(shí)際需要,細(xì)化了產(chǎn)品需求,這也使每種產(chǎn)品針對(duì)的用戶范圍更狹窄了。如何才能快速有效地從茫茫人海中定位出相應(yīng)的消費(fèi)者,并建立更有針對(duì)性的營銷方案,是電商們?cè)诮酉聛淼母偁幒桶l(fā)展中,不得不考慮的重要環(huán)節(jié)。而消費(fèi)者在電子商務(wù)平臺(tái)上產(chǎn)生了大量的行為數(shù)據(jù),使得分析消費(fèi)者的購買意圖和消費(fèi)習(xí)慣成為可能,從而實(shí)現(xiàn)一對(duì)一的的精準(zhǔn)推薦。本文采用天池大數(shù)據(jù)科研平臺(tái)提供的真實(shí)數(shù)據(jù),在用戶交互過的商品中,預(yù)測哪些商品短期內(nèi)將會(huì)被該用戶購買。模型的建立分為四步:第一步是數(shù)據(jù)的預(yù)處理。先探索數(shù)據(jù)的基本分布情況,對(duì)數(shù)據(jù)進(jìn)行初步處理。這一步為特征的提取方式以及算法的選取提供參考和依據(jù)。第二步是樣本的選取。樣本數(shù)據(jù)中,存在著正樣本數(shù)量過少,且正負(fù)樣本比例懸殊過大的問題。通過三次處理來解決:首先,通過滑窗構(gòu)造取樣增加正樣本的數(shù)量。然后,通過對(duì)交互行為時(shí)效性的分析,壓縮了預(yù)測期前選取交互樣本的時(shí)間窗口,降低了正負(fù)樣本比例。最后,對(duì)負(fù)樣本進(jìn)行不放回的隨機(jī)采樣,而正樣本全部入樣。第三步是特征工程。通過多種角度構(gòu)造出用戶(user)特征、商品(item)特征、商品類別(item_category)特征、用戶-商品交互(user-item)特征四大特征群。然后采用不同手段加工、擴(kuò)充已有的特征群:在簡單特征的基礎(chǔ)上,通過各種變換得到更適用于預(yù)測模型的二次特征;在單一特征的基礎(chǔ)上,通過各種特征的組合方式得到更能體現(xiàn)數(shù)據(jù)特點(diǎn)和業(yè)務(wù)需求的衍生特征。特征是預(yù)測模型的自變量,決定了預(yù)測模型預(yù)測效果的上限,通過嘗試不同的算法以及調(diào)試參數(shù),可以逼近這個(gè)理論上限。第四步是模型訓(xùn)練和預(yù)測。本文采用邏輯回歸和GBDT分別建立預(yù)測模型,通過測試集的驗(yàn)證比較,發(fā)現(xiàn)GBDT的預(yù)測效果更好。為了進(jìn)一步提升預(yù)測模型的性能,將邏輯回歸的結(jié)果作為新加入的特征,進(jìn)入GBDT模型中重新預(yù)測,發(fā)現(xiàn)預(yù)測效果有所提高。分析原因后,發(fā)現(xiàn)和GBDT本身就是基于回歸樹的強(qiáng)分類器的性質(zhì)有關(guān)。最后,本文闡述了該預(yù)測模型在電子商務(wù)推薦場景中的現(xiàn)實(shí)意義,并對(duì)該模型進(jìn)一步提升的方向進(jìn)行了較為詳細(xì)的討論。
【關(guān)鍵詞】:推薦系統(tǒng) 特征工程 邏輯回歸 GBDT 模型融合
【學(xué)位授予單位】:云南財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:F713.55
【目錄】:
- 摘要3-5
- Abstract5-10
- 第一章 引言10-22
- 第一節(jié) 選題背景10-11
- 第二節(jié) 研究目的和意義11
- 第三節(jié) 文獻(xiàn)綜述11-13
- 第四節(jié) 推薦系統(tǒng)發(fā)展概述13-21
- 一、基于人口統(tǒng)計(jì)學(xué)的推薦13
- 二、基于關(guān)聯(lián)規(guī)則的推薦系統(tǒng)13-15
- 三、基于協(xié)同過濾算法的推薦系統(tǒng)15-18
- 四、基于混合推薦策略構(gòu)建推薦模型18-19
- 五、推薦系統(tǒng)的發(fā)展趨勢19-21
- 第五節(jié) 論文的組織結(jié)構(gòu)21-22
- 第二章 數(shù)據(jù)處理22-32
- 第一節(jié) 數(shù)據(jù)源介紹22-23
- 第二節(jié) 數(shù)據(jù)探查23-27
- 一、用戶購買商品總數(shù)的分布23
- 二、商品銷售數(shù)量的分布23-24
- 四、商品交互過的用戶數(shù)量的分布24-25
- 五、用戶與商品交互的四種行為分布25
- 六、三種基本行為導(dǎo)致購買的轉(zhuǎn)化率25-26
- 七、交易量隨時(shí)間的分布26-27
- 第三節(jié) 數(shù)據(jù)清洗27-28
- 一、噪聲來源分析27
- 二、消除噪聲27-28
- 第四節(jié) 樣本選取28-32
- 一、正負(fù)樣本的設(shè)定28-30
- 二、對(duì)正負(fù)樣本比例不均衡的處理30-32
- 第三章 特征工程32-41
- 第一節(jié) 特征工程簡介32
- 第二節(jié) 特征工程的組成32-36
- 一、特征提取32-34
- 二、特征的選擇34-36
- 三、構(gòu)建特征體系的流程36
- 第三節(jié) 特征設(shè)計(jì)思路的補(bǔ)充36-38
- 一、構(gòu)建商品類別特征36-37
- 二、商品競爭力特征37
- 三、商品熱賣趨勢37
- 四、雙十二的影響37-38
- 第四節(jié) 特征構(gòu)造展示38-41
- 一、用戶特征38-39
- 二、商品特征39
- 三、商品類別特征39-40
- 四、用戶與商品的交互特征40-41
- 第四章 算法介紹41-45
- 第一節(jié) 邏輯回歸算法介紹41-43
- 第二節(jié) GBDT算法介紹43-45
- 第五章 實(shí)驗(yàn)結(jié)果與分析45-55
- 第一節(jié) 模型評(píng)價(jià)指標(biāo)45-47
- 一、混淆矩陣45-46
- 二、ROC曲線圖46-47
- 第二節(jié) 基于邏輯回歸的預(yù)測模型47-49
- 一、邏輯回歸的參數(shù)設(shè)置47
- 二、防止過擬合47-48
- 三、模型評(píng)價(jià)48-49
- 第三節(jié) 基于GDBT的預(yù)測模型49-51
- 一、GDBT參數(shù)設(shè)置49
- 二、模型評(píng)價(jià)49-51
- 第四節(jié) 兩種模型的比較51-52
- 一、預(yù)測效果的比較51-52
- 二、時(shí)間成本與運(yùn)算成本的比較52
- 三、可解釋性52
- 第五節(jié) 模型融合52-55
- 一、模型融合的方式52-53
- 二、模型評(píng)估53
- 三、模型比較53-55
- 第六章 總結(jié)55-59
- 第一節(jié) 模型在電子商務(wù)中的現(xiàn)實(shí)意義55-56
- 第二節(jié) 模型改進(jìn)56-59
- 參考文獻(xiàn)59-62
- 致謝62
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 周春平;;收入、收入滿意度對(duì)居民主觀幸福感影響實(shí)證研究——來自江蘇的證據(jù)[J];南京航空航天大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2013年01期
2 劉遵雄;黃志強(qiáng);鄭淑娟;張恒;;基于內(nèi)點(diǎn)法的稀疏邏輯回歸財(cái)務(wù)預(yù)警模型[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年06期
3 ;《信用風(fēng)險(xiǎn)評(píng)分卡研究》[J];銀行家;2014年02期
4 張秀蘭;;邏輯回歸模型下的企業(yè)財(cái)務(wù)預(yù)警實(shí)證研究[J];求索;2012年01期
5 劉遵雄;黃志強(qiáng);孫清;張恒;;SCAD懲罰邏輯回歸的財(cái)務(wù)預(yù)警模型[J];統(tǒng)計(jì)與信息論壇;2012年12期
6 邢秋菊,趙純勇,高克昌,郭躍;基于GIS的滑坡危險(xiǎn)性邏輯回歸評(píng)價(jià)研究[J];地理與地理信息科學(xué);2004年03期
7 林辰樂;呂翔濤;;影響城市低保受助者就業(yè)的政策因素分析——就業(yè)的雙項(xiàng)邏輯回歸模型及訪談實(shí)證研究[J];中國軟科學(xué);2012年08期
8 李霞;;基于邏輯回歸的電子企業(yè)員工工作滿意度研究[J];鄭州航空工業(yè)管理學(xué)院學(xué)報(bào);2010年01期
9 田永峰;王仕軍;;讓經(jīng)濟(jì)邏輯回歸文化自覺——亞當(dāng)·斯密理論體系中兩條主線關(guān)系的辨正[J];湖北經(jīng)濟(jì)學(xué)院學(xué)報(bào);2012年01期
10 趙路明;;ST公司有效利用盈余管理的實(shí)證研究[J];黑龍江科技信息;2007年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張道軍;邏輯回歸空間加權(quán)技術(shù)及其在礦產(chǎn)資源信息綜合中的應(yīng)用[D];中國地質(zhì)大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 粟武林;一種基于邏輯回歸的微博用戶可信度評(píng)估方法[D];河北大學(xué);2015年
2 胡俊;基于多元邏輯回歸和鄰域信息的高光譜遙感影像半監(jiān)督分類[D];中國礦業(yè)大學(xué);2015年
3 伊瑤瑤;基于Hadoop的數(shù)據(jù)挖掘技術(shù)研究[D];南京郵電大學(xué);2015年
4 張曉旭;基于復(fù)雜網(wǎng)絡(luò)理論的厄爾尼諾分析與預(yù)測[D];中國海洋大學(xué);2015年
5 喬寧;多元邏輯回歸在實(shí)時(shí)競價(jià)中的應(yīng)用研究[D];河北工業(yè)大學(xué);2015年
6 李雁林;小樣本低質(zhì)量數(shù)據(jù)下貸款需求分類模型研究[D];吉林大學(xué);2016年
7 代成雷;基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測[D];浙江大學(xué);2016年
8 馬姝;基于數(shù)據(jù)挖掘的消費(fèi)者購買預(yù)測的研究[D];云南財(cái)經(jīng)大學(xué);2016年
9 董純潔;基于實(shí)例與邏輯回歸的多標(biāo)簽分類模型[D];南京大學(xué);2013年
10 祁全昌;基于內(nèi)容廣告平臺(tái)的點(diǎn)擊率預(yù)估系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2012年
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘的消費(fèi)者購買預(yù)測的研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):251982
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/251982.html