基于模型組合算法的用戶個性化推薦研究
本文關鍵詞:基于模型組合算法的用戶個性化推薦研究
更多相關文章: 用戶購物行為 決策樹 隨機森林 梯度漸進回歸樹
【摘要】:隨著互聯(lián)網(wǎng)技術的發(fā)展,電子商務的迅猛發(fā)展,網(wǎng)絡購物行為已經(jīng)越來越普遍,國內(nèi)外的電子商務公司也從平臺時代真正走向數(shù)據(jù)時代,走向個性化推薦時代。對于B2C這種電子商務形式,平臺上的商品品牌數(shù)目紛繁復雜。用戶每日在網(wǎng)絡上的操作行為成指數(shù)增長,如何從龐大的數(shù)據(jù)中為用戶進行個性化推薦,如何進行客戶關系管理以及購物行為預測受到研究者的重視。 本文主要研究基于模型組合的機器學習方法以預測用戶的購買行為。針對基于用戶在天貓網(wǎng)站的購物行為數(shù)據(jù)庫,提取用戶品牌的相關特征,采用隨機森林和iGBDT (initial Gradient Boost Decision Tree)模型組合的機器學習的算法,預測用戶在下一個月的購買行為。 論文首先介紹特征的設計過程,利用對購物行為的分析設計出具有廣度的特征,優(yōu)化加工,利用隨機森林算法對每個特征進行重要性評估,對特征進行加工,優(yōu)化和完善。由于特征間相關程度較強,所以采用決策樹這種非線性的分類算法。由于決策樹存在容易過擬合等缺點,本文采用模型組合的方式,即隨機森林和梯度采樣(gradient boost)模型結合決策樹的方法,可以有效地利用本文提取的特征,得到較好的實驗效果。并在此基礎上分析兩種算法的優(yōu)劣性能。
【關鍵詞】:用戶購物行為 決策樹 隨機森林 梯度漸進回歸樹
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-5
- Abstract5-6
- 目錄6-10
- 第一章 緒論10-16
- 1.1 基于用戶網(wǎng)絡購物行為的預測推薦領域的研究背景和意義10-11
- 1.2 推薦預測領域的算法研究11-12
- 1.3 論文研究的主要思路和內(nèi)容12-16
- 第二章 數(shù)據(jù)預處理和特征設計16-20
- 2.1 原始數(shù)據(jù)16
- 2.2 數(shù)據(jù)預處理16-17
- 2.3 數(shù)據(jù)特征設計與提取17-18
- 2.4 本章小結18-20
- 第三章 隨機森林和梯度漸進回歸樹算法的研究與介紹20-32
- 3.1 隨機森林算法20-24
- 3.1.1 決策樹算法20-22
- 3.1.2 算法的隨機的特性22-23
- 3.1.3 隨機森林算法的生長23-24
- 3.1.4 隨機森林算法的分類生長24
- 3.2 梯度迭代決策樹算法(Gradient Boosting Decision Tree)24-29
- 3.2.1 梯度漸進回歸樹(Gradient boosting)介紹25-29
- 3.3 初始化的梯度漸進回歸樹算法(initialized Gradient Boosting Deci-sion tree)29
- 3.4 本章小結29-32
- 第四章 實驗結果與分析32-50
- 4.1 實驗工具與平臺介紹32
- 4.2 實驗過程32-34
- 4.3 實驗結果以及訓練模型的評估34-36
- 4.4 隨機森林的實驗結果36-39
- 4.4.1 抽樣數(shù)據(jù)上的實驗結果36-39
- 4.4.2 大數(shù)據(jù)的實驗結果39
- 4.5 梯度漸進回歸樹的實驗結果39-45
- 4.5.1 抽樣數(shù)據(jù)的實驗結果39-43
- 4.5.2 大數(shù)據(jù)的實驗結果43-45
- 4.6 隨機森林和GBRT的實驗結果對比與分析45-50
- 第五章 總結與展望50-52
- 5.1 工作總結與創(chuàng)新50
- 5.2 工作展望50-52
- 參考文獻52-56
- 致謝56-57
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉足華;熊惠霖;;基于隨機森林的目標檢測與定位[J];計算機工程;2012年13期
2 董師師;黃哲學;;隨機森林理論淺析[J];集成技術;2013年01期
3 王象剛;;基于K均值隨機森林快速算法及入侵檢測中的應用[J];科技通報;2013年08期
4 陳姝;彭小寧;;基于粒子濾波和在線隨機森林分類的目標跟蹤[J];江蘇大學學報(自然科學版);2014年02期
5 羅知林;陳挺;蔡皖東;;一個基于隨機森林的微博轉發(fā)預測算法[J];計算機科學;2014年04期
6 王麗婷;丁曉青;方馳;;基于隨機森林的人臉關鍵點精確定位方法[J];清華大學學報(自然科學版);2009年04期
7 李建更;高志坤;;隨機森林針對小樣本數(shù)據(jù)類權重設置[J];計算機工程與應用;2009年26期
8 張建;武東英;劉慧生;;基于隨機森林的流量分類方法[J];信息工程大學學報;2012年05期
9 吳華芹;;基于訓練集劃分的隨機森林算法[J];科技通報;2013年10期
10 張華偉;王明文;甘麗新;;基于隨機森林的文本分類模型研究[J];山東大學學報(理學版);2006年03期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應用[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學討論會論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機森林結合激光誘導擊穿光譜技術用于的鋼鐵分類[A];中國化學會第29屆學術年會摘要集——第19分會:化學信息學與化學計量學[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構效關系研究[A];第十一屆全國計算(機)化學學術會議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學中的應用[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應用[A];第八屆全國轉子動力學學術討論會論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年
8 張旺;范麗s,
本文編號:1027901
本文鏈接:http://sikaile.net/guanlilunwen/kehuguanxiguanli/1027901.html