基于Hadoop的電子商務(wù)推薦系統(tǒng)應(yīng)用研究
本文關(guān)鍵詞:基于Hadoop的電子商務(wù)推薦系統(tǒng)應(yīng)用研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,通過網(wǎng)絡(luò)購物已經(jīng)成為許多的人的習(xí)慣,越來越多的電子商務(wù)網(wǎng)站進(jìn)入人們的視野。由于虛擬貨架成本低廉,一個(gè)大型的電子商務(wù)網(wǎng)站的商品數(shù)量比實(shí)際商場(chǎng)里面要多得多。電子商務(wù)網(wǎng)站一般都有搜索功能,但對(duì)于無法提供準(zhǔn)確搜索關(guān)鍵詞的用戶來說,通過搜索找到需要的商品比較困難。電子商務(wù)推薦系統(tǒng)可以根據(jù)用戶的歷史購物行為或注冊(cè)、瀏覽記錄等主動(dòng)向用戶推薦其可能感興趣的商品。電子商務(wù)推薦系統(tǒng)已經(jīng)在亞馬遜、淘寶等知名電商網(wǎng)站中得到了成功的應(yīng)用。由于用戶和商品數(shù)量的不斷增多,傳統(tǒng)的單機(jī)推薦系統(tǒng)已經(jīng)不能夠適應(yīng)海量數(shù)據(jù)的計(jì)算、存儲(chǔ)等需求,研究分布式的推薦系統(tǒng)成為近年來的熱點(diǎn)。針對(duì)基于Hadoop的電子商務(wù)推薦系統(tǒng)這一課題,通過閱讀大量的文獻(xiàn),分析了國內(nèi)外研究現(xiàn)狀及面臨問題。對(duì)電子商務(wù)推薦系統(tǒng)常見的推薦算法進(jìn)行了探討,此外本文還對(duì)Hadoop平臺(tái)的兩大核心技術(shù)HDFS和MapReduce的工作流程和原理進(jìn)行了介紹。針對(duì)傳統(tǒng)電子商務(wù)推薦系統(tǒng)存在的問題,本文設(shè)計(jì)了基于Hadoop的電子商務(wù)推薦系統(tǒng),系統(tǒng)具有較好的可擴(kuò)展性和伸縮性,可以方便的對(duì)系統(tǒng)的計(jì)算和存儲(chǔ)能力根據(jù)業(yè)務(wù)需求進(jìn)行調(diào)整。為了解決電子商務(wù)推薦系統(tǒng)階段性和突發(fā)性問題,在系統(tǒng)的架構(gòu)過程中考慮了負(fù)載均衡技術(shù)。系統(tǒng)采用異步非阻塞模式的架構(gòu)來將web服務(wù)器與實(shí)際的業(yè)務(wù)處理相關(guān)服務(wù)器分離以減小web服務(wù)器的壓力。論文對(duì)HDFS存儲(chǔ)小文件時(shí)的效率問題進(jìn)行了優(yōu)化,設(shè)計(jì)了基于HDFS和MySQL集群的存儲(chǔ)系統(tǒng)。為了節(jié)省存儲(chǔ)空間,對(duì)稀疏矩陣存儲(chǔ)和并行化計(jì)算過程進(jìn)行了設(shè)計(jì)。系統(tǒng)設(shè)計(jì)了多個(gè)推薦引擎,每個(gè)推薦引擎都有其適應(yīng)的場(chǎng)景與需求,可以使推薦系統(tǒng)靈活的適應(yīng)多種推薦場(chǎng)景。不同的推薦引擎的推薦結(jié)果也可以根據(jù)需要進(jìn)行加權(quán)組合。對(duì)數(shù)據(jù)預(yù)處理、基于用戶的協(xié)同過濾推薦算法、基于物品的協(xié)同過濾推薦算法和混合推薦算法的相似性計(jì)算和評(píng)分預(yù)測(cè)的并行化過程進(jìn)行了設(shè)計(jì),使之能夠較好的運(yùn)行在Hadoop平臺(tái)上,實(shí)現(xiàn)分布式的推薦計(jì)算。通過GroupLens數(shù)據(jù)集,論文對(duì)設(shè)計(jì)的基于Hadoop的電子商務(wù)推薦系統(tǒng)進(jìn)行了實(shí)驗(yàn)。從平均絕對(duì)偏差和加速比兩個(gè)方面對(duì)并行化的三種推薦算法的推薦質(zhì)量和Hadoop平臺(tái)的執(zhí)行效率進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明混合推薦算法的推薦質(zhì)量最好,基于物品的協(xié)同過濾推薦算法次之,基于用戶的協(xié)同過濾推薦算法的推薦質(zhì)量較差。通過加速比的實(shí)驗(yàn)結(jié)果可以分析得到基于Hadoop平臺(tái)的推薦算法在處理海量數(shù)據(jù)時(shí)有較高的執(zhí)行效率。
【關(guān)鍵詞】:電子商務(wù) 推薦系統(tǒng) Hadoop 協(xié)同過濾
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-8
- 目錄8-10
- CONTENS10-12
- 第一章 緒論12-17
- 1.1 研究背景與意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-15
- 1.3 論文的主要工作及結(jié)構(gòu)安排15-17
- 第二章 電子商務(wù)推薦系統(tǒng)及Hadoop平臺(tái)17-35
- 2.1 電子商務(wù)推薦系統(tǒng)概述17-19
- 2.1.1 電子商務(wù)推薦系統(tǒng)的作用17-18
- 2.1.2 電子商務(wù)推薦系統(tǒng)的結(jié)構(gòu)18-19
- 2.2 電子商務(wù)推薦算法分類19-27
- 2.2.1 協(xié)同過濾推薦算法19-24
- 2.2.2 基于關(guān)聯(lián)規(guī)則的推薦算法24-25
- 2.2.3 基于內(nèi)容的推薦算法25-26
- 2.2.4 混合推薦算法26-27
- 2.2.5 其他常見推薦算法27
- 2.3 Hadoop平臺(tái)及其計(jì)算框架27-34
- 2.3.1 HDFS分布式文件系統(tǒng)28-31
- 2.3.2 MapReduce分布式計(jì)算框架31-34
- 2.4 本章小結(jié)34-35
- 第三章 基于Hadoop的電子商務(wù)推薦系統(tǒng)設(shè)計(jì)35-47
- 3.1 基于Hadoop電子商務(wù)推薦系統(tǒng)總體架構(gòu)設(shè)計(jì)35-39
- 3.1.1 基于HDFS和MySQL集群的存儲(chǔ)設(shè)計(jì)36-37
- 3.1.2 基于MapReduce的推薦算法并行化37-39
- 3.2 基于Hadoop的推薦引擎設(shè)計(jì)39-42
- 3.3 基于Hadoop的電子商務(wù)推薦引擎算法設(shè)計(jì)42-46
- 3.3.1 基于用戶的協(xié)同過濾引擎算法設(shè)計(jì)42-43
- 3.3.2 基于物品的協(xié)同過濾引擎算法設(shè)計(jì)43-44
- 3.3.3 混合方法推薦引擎算法設(shè)計(jì)44-46
- 3.4 本章小結(jié)46-47
- 第四章 基于Hadoop的電子商務(wù)推薦算法47-59
- 4.1 數(shù)據(jù)預(yù)處理及其MapReduce化47-49
- 4.2 UBCF算法的并行化49-53
- 4.2.1 用戶相似度計(jì)算49-51
- 4.2.2 評(píng)分預(yù)測(cè)51-53
- 4.3 IBCF算法的并行化53-56
- 4.3.1 項(xiàng)目相似度計(jì)算53-55
- 4.3.2 評(píng)分預(yù)測(cè)55-56
- 4.4 混合推薦算法的并行化56-58
- 4.4.1 相似性計(jì)算57
- 4.4.2 評(píng)分預(yù)測(cè)57-58
- 4.5 本章小結(jié)58-59
- 第五章 實(shí)驗(yàn)與評(píng)測(cè)59-63
- 5.1 數(shù)據(jù)集59
- 5.2 實(shí)驗(yàn)環(huán)境59-60
- 5.3 衡量標(biāo)準(zhǔn)60-61
- 5.4 實(shí)驗(yàn)結(jié)果與分析61-62
- 5.5 本章小結(jié)62-63
- 總結(jié)與展望63-65
- 參考文獻(xiàn)65-69
- 攻讀碩士學(xué)位期間發(fā)表的論文和參加的研究項(xiàng)目69-71
- 致謝71
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張海玉;劉志都;楊彩;賈松浩;;基于頁面聚類的推薦算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年09期
2 王文;;個(gè)性化推薦算法研究[J];電腦知識(shí)與技術(shù);2010年16期
3 張愷;秦亮曦;寧朝波;李文閣;;改進(jìn)評(píng)價(jià)估計(jì)的混合推薦算法研究[J];微計(jì)算機(jī)信息;2010年36期
4 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
5 吳泓辰;王新軍;成勇;彭朝暉;;基于協(xié)同過濾與劃分聚類的改進(jìn)推薦算法[J];計(jì)算機(jī)研究與發(fā)展;2011年S3期
6 趙玉艷;谷勝偉;;一種面向云計(jì)算環(huán)境的服務(wù)推薦算法[J];巢湖學(xué)院學(xué)報(bào);2012年03期
7 李克潮;梁正友;;基于多特征的個(gè)性化圖書推薦算法[J];計(jì)算機(jī)工程;2012年11期
8 呂善國;吳效葵;曹義親;;基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法[J];實(shí)驗(yàn)室研究與探索;2012年07期
9 蘇瑩;劉建國;郭強(qiáng);田大鋼;;考慮負(fù)面評(píng)價(jià)的個(gè)性化推薦算法研究[J];運(yùn)籌與管理;2012年06期
10 鄭志嫻;;微博個(gè)性化內(nèi)容推薦算法研究[J];電腦開發(fā)與應(yīng)用;2012年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 秦國;杜小勇;;基于用戶層次信息的協(xié)同推薦算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
2 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個(gè)性化推薦算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
3 唐燦;;基于模糊用戶心理模式的個(gè)性化推薦算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
4 周玉妮;鄭會(huì)頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動(dòng)商務(wù)個(gè)性化推薦系統(tǒng)[A];社會(huì)經(jīng)濟(jì)發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會(huì)第17屆學(xué)術(shù)年會(huì)論文集[C];2012年
5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時(shí)推薦算法[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
6 梁莘q
本文編號(hào):414143
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/414143.html