基于機器學習的推薦技術研究
本文關鍵詞:基于機器學習的推薦技術研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,每天產(chǎn)生的數(shù)據(jù)量已經(jīng)與日俱增,傳統(tǒng)的搜索引擎已經(jīng)無法完全滿足當前的需求,推薦系統(tǒng)成為了互聯(lián)網(wǎng)時代的新寵,其是為了解決海量數(shù)據(jù)所帶來的挑戰(zhàn)以及給用戶更好的體驗而發(fā)展成一門交叉學科。推薦系統(tǒng)算法通常會包含機器學習算法,而云計算的廣泛應用也使得機器學習算法可以快速的部署與運算,為推薦系統(tǒng)的性能與效果提升提供了保障。本文對目前的機器學習算法與推薦系統(tǒng)進行了研究。采用天貓?zhí)詫氄鎸崝?shù)據(jù)集,并利用阿里巴巴的ODPS云計算平臺,基于混合技術與深度學習技術構建了兩套推薦系統(tǒng),并對隨機森林算法在不平衡數(shù)據(jù)條件下有針對性的進行了改善。本文主要工作如下:1.利用Ali Mobile Rec數(shù)據(jù)集與ODPS平臺構建了基于混合技術的推薦系統(tǒng),該系統(tǒng)使用了多種混合策略,包括特征混合技術、分級型混合推薦技術、瀑布型混合技術、加權混合推薦技術,最后利用多個模型進行融合,取得了較好的實驗效果,最終F1值為8.11%,并在此基礎上驗證了各混合技術的提升效果以及使用條件;2.利用Taobao Clothes Match數(shù)據(jù)集以及ODPS平臺構建了基于深度學習的搭配推薦系統(tǒng),該系統(tǒng)利用服裝的搭配套餐進行商品推薦,嘗試提取圖片中所蘊含的信息,利用卷積神經(jīng)網(wǎng)絡進行特征提取,并提出了基于卷積神經(jīng)網(wǎng)絡的排序修正算法,實驗獲得MAP值為4.6%,這表明該算法可以提高推薦系統(tǒng)的效果;3.針對推薦系統(tǒng)所使用的數(shù)據(jù)具有的正負樣本的不平衡性,對現(xiàn)有的基于不平衡樣本的隨機森林算法進行了進一步的改善。根據(jù)混合策略中的瀑布型混合技術對隨機森林樣本空間的采樣做了基于先驗的樣本空間定向采樣,并對原改進算法中的分層特征空間選擇做了基于分類強度的自適應的調(diào)整,實驗表明這些改善能一定程度的提高算法的效果。
【關鍵詞】:機器學習 混合技術 深度學習 隨機森林
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3;TP181
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-13
- 1.1 課題的研究背景和意義9
- 1.2 國內(nèi)外研究現(xiàn)狀及面臨問題9-11
- 1.2.1 國內(nèi)外研究現(xiàn)狀9-10
- 1.2.2 研究面臨的問題10-11
- 1.3 本文的研究內(nèi)容和結構11-13
- 第2章 推薦系統(tǒng)常用技術13-19
- 2.1 推薦系統(tǒng)框架13
- 2.2 常用推薦算法13-17
- 2.2.1 基于內(nèi)容的推薦算法14
- 2.2.2 基于協(xié)同過濾的推薦系統(tǒng)算法14-17
- 2.3 推薦系統(tǒng)評價標準17-18
- 2.3.1 均方根誤差與平均絕對誤差17
- 2.3.2 F1-Measure評估指標與ROC曲線17-18
- 2.3.3 平均正確率均值18
- 2.4 本章小結18-19
- 第3章 機器學習算法19-29
- 3.1 邏輯回歸算法19-21
- 3.2 梯度迭代決策樹算法21-23
- 3.2.1 決策樹21-23
- 3.2.2 梯度迭代回歸樹23
- 3.3 因子分解機算法23-25
- 3.3.1 因子分解機模型24
- 3.3.2 因子分解機的參數(shù)學習24-25
- 3.4 卷積神經(jīng)網(wǎng)絡算法25-27
- 3.4.1 CNN的整體架構25-26
- 3.4.2 卷積與池化26-27
- 3.5 本章小結27-29
- 第4章 基于融合技術與深度學習的推薦系統(tǒng)構建29-47
- 4.1 推薦系統(tǒng)中的混合技術29-30
- 4.2 基于混合技術的推薦系統(tǒng)30-36
- 4.2.1 整體框架30-32
- 4.2.2 基于滑窗與探索性數(shù)據(jù)分析的樣本構建32-35
- 4.2.3 基于瀑布式混合策略的數(shù)據(jù)過濾35-36
- 4.3 基于深度學習的搭配推薦系統(tǒng)36-40
- 4.3.1 整體框架37
- 4.3.2 基于MapReduce的召回集觸發(fā)實現(xiàn)37-39
- 4.3.3 基于卷積神經(jīng)網(wǎng)絡的排序修正39-40
- 4.4 實驗結果與分析40-45
- 4.4.1 實驗平臺與數(shù)據(jù)40-42
- 4.4.2 實驗結果42-45
- 4.5 本章小結45-47
- 第5章 隨機森林改進算法47-55
- 5.1 隨機森林原理47-48
- 5.2 基于不平衡樣本的隨機森林改進算法48-52
- 5.2.1 面向不平衡數(shù)據(jù)的隨機森林子空間選擇49-50
- 5.2.2 基于先驗的樣本空間定向采樣50-51
- 5.2.3 基于分類強度的分層特征空間選擇自適應算法51-52
- 5.3 實驗結果與分析52-54
- 5.4 本章小結54-55
- 第6章 總結與展望55-57
- 6.1 論文工作總結55
- 6.2 下一步工作55-57
- 參考文獻57-61
- 作者簡介及科研成果61-62
- 致謝62
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張明玉,倪志偉;基于機器學習的智能決策支持系統(tǒng)[J];淮南師范學院學報;2005年03期
2 楊凌霄;武建平;;機器學習方法在人臉檢測中的應用[J];計算機與數(shù)字工程;2008年03期
3 ;第十一屆中國機器學習會議[J];智能系統(tǒng)學報;2008年02期
4 ;第14屆中國機器學習會議[J];智能系統(tǒng)學報;2012年06期
5 費宗銘;呂建;王志堅;陳道蓄;徐家福;;機器學習[J];計算機科學;1991年01期
6 趙沁平;魏華;王軍玲;;機器學習技術與機器學習系統(tǒng)[J];計算機科學;1993年05期
7 姚敏;機器學習及其發(fā)展方向[J];計算機時代;1994年04期
8 ;第31屆機器學習國際會議(英文)[J];智能系統(tǒng)學報;2014年01期
9 黃海濱;機器學習及其主要策略[J];河池師范高等?茖W校學報(自然科學版);2000年04期
10 佘玉梅;一種協(xié)調(diào)機器學習方法研究[J];云南民族學院學報(自然科學版);2000年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王玨;;歸納機器學習[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
2 王昊;李銀波;紀志梁;;利用機器學習方法預測嚴重藥物不良反應-呼吸困難[A];中國化學會第28屆學術年會第13分會場摘要集[C];2012年
3 吳滄浦;;智能系統(tǒng)與機器學習的新領域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學術年會文集[C];2000年
4 周晴杰;徐立鴻;吳啟迪;;機器學習串級結構的初步探討[A];1998年中國控制會議論文集[C];1998年
5 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機器學習法相結合的蛋白質名識別[A];大連理工大學生物醫(yī)學工程學術論文集(第2卷)[C];2005年
6 徐禮勝;李乃民;王寬全;張冬雨;耿斌;姜曉睿;陳超海;羅貴存;;機器學習在中醫(yī)計算機診斷識別系統(tǒng)中的應用思考[A];第一屆全國中西醫(yī)結合診斷學術會議論文選集[C];2006年
7 蔡健平;林世平;;基于機器學習的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
8 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機器學習——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學術年會論文集[C];1995年
9 程國建;蔡磊;潘華賢;;核向量機在大規(guī)模機器學習中的應用[A];第十一屆中國青年信息與管理學者大會論文集[C];2009年
10 張鈸;張鈴;;統(tǒng)計學習理論及其應用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黎驪/文 [美] Tom M.Mitchell 著;機器學習與智能化社會[N];中國郵政報;2003年
2 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;機器學習已成為大數(shù)據(jù)基石[N];網(wǎng)絡世界;2014年
3 本報記者 房琳琳;合久必分:分布式“機器學習”應運而生[N];科技日報;2014年
4 雨辰;機器學習類圖書為什么火爆[N];中華讀書報;2014年
5 百度公司技術副總監(jiān) 多媒體部負責人 余凱;深度學習與多媒體搜索技術演進[N];中國信息化周報;2013年
6 本報記者 余建斌;機器學習與互聯(lián)網(wǎng)搜索[N];人民日報;2011年
7 本報記者 張曄邋通訊員 李瑋;周志華:永不墨守成規(guī)[N];科技日報;2008年
8 記者 彭德倩;機器學習精度提升近6個百分點[N];解放日報;2006年
9 本報記者 閔杰;大數(shù)據(jù)熱 高端人才缺[N];中國電子報;2013年
10 沈建苗 編譯;如何成為大數(shù)據(jù)科學家[N];計算機世界;2013年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 董春茹;機器學習中的權重學習與差分演化[D];華南理工大學;2015年
2 姚明臣;機器學習和神經(jīng)網(wǎng)絡學習中的若干問題研究[D];大連理工大學;2016年
3 趙玉鵬;機器學習的哲學探索[D];大連理工大學;2010年
4 胡巍;面向格結構的機器學習[D];上海交通大學;2009年
5 張義榮;基于機器學習的入侵檢測技術研究[D];國防科學技術大學;2005年
6 錢線;快速精確的結構化機器學習方法研究[D];復旦大學;2010年
7 梁錫軍;稀疏優(yōu)化在機器學習中的若干應用[D];大連理工大學;2013年
8 蔣剛;核機器學習方法若干問題研究[D];西南交通大學;2006年
9 陳慧靈;面向智能決策問題的機器學習方法研究[D];吉林大學;2012年
10 周偉達;核機器學習方法研究[D];西安電子科技大學;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 毛海斌;基于半監(jiān)督機器學習的情感分類領域適應問題研究[D];南京理工大學;2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶性別判斷研究[D];華中師范大學;2015年
3 陳召陽;基于機器學習的改性麥槽吸附重金屬構效關系模型研究[D];江西理工大學;2014年
4 王成;基于半監(jiān)督機器學習的文本情感分析技術[D];南京理工大學;2015年
5 孫科;基于Spark的機器學習應用框架研究與實現(xiàn)[D];上海交通大學;2015年
6 劉江龍;基于機器學習的射頻指紋定位方法研究[D];電子科技大學;2015年
7 張蕾;基于機器學習的網(wǎng)絡輿情采集技術研究與設計[D];電子科技大學;2014年
8 施宇;基于數(shù)據(jù)挖掘和機器學習的木馬檢測系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年
9 施應敏;基于機器學習的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學;2015年
10 張柯;基于機器學習的錯誤定位方法研究[D];南京航空航天大學;2015年
本文關鍵詞:基于機器學習的推薦技術研究,由筆耕文化傳播整理發(fā)布。
本文編號:484282
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/484282.html