基于Spark平臺的實(shí)時流計(jì)算推薦系統(tǒng)的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Spark平臺的實(shí)時流計(jì)算推薦系統(tǒng)的研究與實(shí)現(xiàn)
更多相關(guān)文章: 冷啟動問題 實(shí)時性問題 實(shí)時流計(jì)算 在線計(jì)算 推薦系統(tǒng)
【摘要】:用戶在面對海量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低,這就是信息超載問題。推薦系統(tǒng)是一種解決信息超載問題非常有效的辦法,它根據(jù)用戶的信息、興趣等,將用戶感興趣的信息或商品推薦給用戶。然而,現(xiàn)有的推薦系統(tǒng)大多是通過定期計(jì)算來更新推薦結(jié)果,造成推薦結(jié)果不夠精確,這就是推薦系統(tǒng)的實(shí)時性問題。另外,對于新加入的用戶或商品由于缺少必要的數(shù)據(jù),因此無法對其產(chǎn)生推薦,這就是所謂的冷啟動問題。針對上述問題,本文旨在解決推薦算法的冷啟動問題和推薦系統(tǒng)的實(shí)時性問題,并設(shè)計(jì)與實(shí)現(xiàn)一個基于Spark實(shí)時流計(jì)算的推薦系統(tǒng),即根據(jù)實(shí)時數(shù)據(jù)更新推薦結(jié)果。本文的主要研究內(nèi)容包括:(1)針對推薦算法的冷啟動問題,提出基于聚類與特征映射的矩陣分解算法。該算法首先對用戶/商品的屬性信息進(jìn)行聚類,得出新用戶/新商品的k個最近鄰。然后對新用戶/新商品進(jìn)行特征映射,用k近鄰的特征信息計(jì)算出新用戶/新商品的特征向量,有了這些特征向量就可以對新用戶/新商品進(jìn)行推薦,解決了算法的冷啟動問題。實(shí)驗(yàn)表明本文提出的基于聚類與特征映射的矩陣分解算法的推薦結(jié)果更加精確。(2)針對推薦系統(tǒng)的實(shí)時性問題,設(shè)計(jì)一個能夠?qū)崟r計(jì)算的流處理架構(gòu)。該架構(gòu)把推薦系統(tǒng)分成離線計(jì)算和在線計(jì)算兩部分,能夠充分利用傳統(tǒng)的離線推薦算法,并結(jié)合在線處理方法,提高推薦系統(tǒng)實(shí)時計(jì)算的能力。所設(shè)計(jì)的實(shí)時推薦系統(tǒng)采用Spark做在線處理,并且能夠根據(jù)用戶在線評分和歷史評分?jǐn)?shù)據(jù)集來實(shí)時計(jì)算,實(shí)現(xiàn)了推薦結(jié)果的實(shí)時更新。(3)基于Spark的實(shí)時流計(jì)算推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。首先對實(shí)時流計(jì)算的推薦系統(tǒng)進(jìn)行需求分析,包含功能需求分析、性能需求分析和總體架構(gòu)分析。然后對系統(tǒng)進(jìn)行設(shè)計(jì),包括三個關(guān)鍵模塊:一是對模擬用戶評分模塊進(jìn)行設(shè)計(jì),包含數(shù)據(jù)的范圍、數(shù)據(jù)的格式和數(shù)據(jù)產(chǎn)生的頻率及數(shù)量等。二是對基于Spark Streaming的實(shí)時流計(jì)算模塊進(jìn)行設(shè)計(jì),包含實(shí)時流計(jì)算和一些關(guān)鍵性的功能的設(shè)計(jì)。三是基于MLlib對推薦引擎模塊進(jìn)行設(shè)計(jì),包含模型的訓(xùn)練、模型的測試和推薦商品等。最后完成了實(shí)時流計(jì)算的推薦系統(tǒng)的實(shí)現(xiàn),主要實(shí)現(xiàn)模擬用戶評分、實(shí)時流計(jì)算和推薦引擎三個主要功能。
【關(guān)鍵詞】:冷啟動問題 實(shí)時性問題 實(shí)時流計(jì)算 在線計(jì)算 推薦系統(tǒng)
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-16
- 1.1 研究背景和意義11-12
- 1.2 研究現(xiàn)狀12-13
- 1.3 主要研究內(nèi)容13-14
- 1.4 論文的組織結(jié)構(gòu)14-16
- 第二章 相關(guān)工作16-29
- 2.1 冷啟動問題16-17
- 2.2 實(shí)時性問題17-18
- 2.3 HDFS分布式文件系統(tǒng)18-20
- 2.3.1 數(shù)據(jù)塊Block18-19
- 2.3.2 主從節(jié)點(diǎn)Namenode和Datanode19-20
- 2.4 HBase數(shù)據(jù)庫20-22
- 2.4.1 基本概念20-21
- 2.4.2 數(shù)據(jù)模型21
- 2.4.3 自動分裂特性21-22
- 2.5 Thrift框架22-23
- 2.6 Spark生態(tài)系統(tǒng)23-28
- 2.6.1 Spark Core技術(shù)24-25
- 2.6.2 Spark Streaming技術(shù)25-26
- 2.6.3 MLBase/MLlib技術(shù)26-27
- 2.6.4 Spark與Hadoop的對比27-28
- 2.7 本章小結(jié)28-29
- 第三章 推薦算法冷啟動問題的研究29-39
- 3.1 問題的提出29
- 3.2 相關(guān)工作29-33
- 3.2.1 K-means聚類算法29-30
- 3.2.2 特征映射算法30-31
- 3.2.3 基于矩陣分解的最小二乘算法31-33
- 3.3 基于聚類與特征映射的矩陣分解算法33-37
- 3.3.1 算法的基本思想33
- 3.3.2 算法33-36
- 3.3.3 算法分析36-37
- 3.4 實(shí)驗(yàn)及分析37-38
- 3.4.1 實(shí)驗(yàn)環(huán)境37
- 3.4.2 實(shí)驗(yàn)數(shù)據(jù)集37
- 3.4.3 實(shí)驗(yàn)分析37-38
- 3.5 本章小結(jié)38-39
- 第四章 實(shí)時流計(jì)算推薦系統(tǒng)的分析與設(shè)計(jì)39-52
- 4.1 推薦系統(tǒng)的實(shí)時流計(jì)算39-41
- 4.1.1 問題的提出39
- 4.1.2 流處理架構(gòu)39-41
- 4.2 需求分析與總體架構(gòu)41-44
- 4.2.1 功能需求41
- 4.2.2 性能需求41-42
- 4.2.3 智能推薦的整體流程及架構(gòu)圖42-44
- 4.3 推薦系統(tǒng)關(guān)鍵模塊的設(shè)計(jì)44-51
- 4.3.1 模擬用戶評分模塊44-45
- 4.3.2 實(shí)時流計(jì)算模塊45-48
- 4.3.3 推薦引擎模塊48-51
- 4.4 本章小結(jié)51-52
- 第五章 實(shí)時流計(jì)算推薦系統(tǒng)的實(shí)現(xiàn)52-63
- 5.1 實(shí)時流計(jì)算的實(shí)現(xiàn)52-55
- 5.1.1 輸入模塊的實(shí)現(xiàn)52-53
- 5.1.2 處理模塊的實(shí)現(xiàn)53-54
- 5.1.3 Dstream輸出模塊的實(shí)現(xiàn)54-55
- 5.2 推薦引擎的實(shí)現(xiàn)55-57
- 5.2.1 加載數(shù)據(jù)模塊的實(shí)現(xiàn)56
- 5.2.2 模型訓(xùn)練模塊的實(shí)現(xiàn)56-57
- 5.2.3 推薦模塊的實(shí)現(xiàn)57
- 5.3 系統(tǒng)測試57-62
- 5.3.1 測試環(huán)境57-58
- 5.3.2 模擬用戶評分58-59
- 5.3.3 測試用例59-61
- 5.3.4 測試結(jié)果61-62
- 5.4 本章小結(jié)62-63
- 第六章 總結(jié)和展望63-65
- 6.1 總結(jié)63-64
- 6.2 展望64-65
- 致謝65-66
- 參考文獻(xiàn)66-70
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 米可菲;張勇;邢春曉;蔚欣;;面向大數(shù)據(jù)的開源推薦系統(tǒng)分析[J];計(jì)算機(jī)與數(shù)字工程;2013年10期
2 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年17期
3 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學(xué)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2007年05期
4 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導(dǎo)刊;2007年23期
5 葉群來;;營銷與網(wǎng)絡(luò)推薦系統(tǒng)[J];電子商務(wù);2007年10期
6 李媚;;個性化網(wǎng)絡(luò)學(xué)習(xí)資源推薦系統(tǒng)研究[J];福建電腦;2008年12期
7 潘冉;姜麗紅;;基于經(jīng)濟(jì)學(xué)模型的推薦系統(tǒng)的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2008年03期
8 劉魯;任曉麗;;推薦系統(tǒng)研究進(jìn)展及展望[J];信息系統(tǒng)學(xué)報;2008年01期
9 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強(qiáng)學(xué)習(xí)的旅行計(jì)劃推薦系統(tǒng)[J];計(jì)算機(jī)工程;2010年21期
10 曹畋;;智能推薦系統(tǒng)在知識瀏覽領(lǐng)域的應(yīng)用[J];硅谷;2011年21期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 張燕;李燕萍;;基于內(nèi)容分析和點(diǎn)擊率記錄的混合音樂推薦系統(tǒng)[A];2009年通信理論與信號處理學(xué)術(shù)年會論文集[C];2009年
2 趙欣;寇綱;鄔文帥;盧艷群;;基于時間密集性的推薦系統(tǒng)攻擊檢測[A];第六屆(2011)中國管理學(xué)年會論文摘要集[C];2011年
3 張玉連;張波;張敏;;改進(jìn)的個性化信息推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年全國理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2005年
4 王君;許潔萍;;層次音樂推薦系統(tǒng)的研究[A];第18屆全國多媒體學(xué)術(shù)會議(NCMT2009)、第5屆全國人機(jī)交互學(xué)術(shù)會議(CHCI2009)、第5屆全國普適計(jì)算學(xué)術(shù)會議(PCC2009)論文集[C];2009年
5 潘宇;林鴻飛;楊志豪;;基于用戶聚類的電子商務(wù)推薦系統(tǒng)[A];第三屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2006年
6 尤忠彬;陳越;張英;朱揚(yáng)勇;;基于Web服務(wù)的技術(shù)轉(zhuǎn)移平臺推薦系統(tǒng)研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年
7 王國霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應(yīng)用[A];第25屆中國控制與決策會議論文集[C];2013年
8 王雪;董愛華;吳怡之;;基于RFID技術(shù)的智能服裝推薦系統(tǒng)設(shè)計(jì)[A];2011年全國電子信息技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 ;大數(shù)據(jù)如何“落地”[N];中國新聞出版報;2014年
2 本報記者 鄒大斌;大數(shù)據(jù):電商新武器[N];計(jì)算機(jī)世界;2012年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 周魏;推薦系統(tǒng)中基于目標(biāo)項(xiàng)目分析的托攻擊檢測研究[D];重慶大學(xué);2015年
2 王宏宇;商務(wù)推薦系統(tǒng)的設(shè)計(jì)研究[D];中國科學(xué)技術(shù)大學(xué);2007年
3 楊東輝;基于情感相似度的社會化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學(xué);2014年
4 曹渝昆;基于神經(jīng)網(wǎng)絡(luò)和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學(xué);2006年
5 王立才;上下文感知推薦系統(tǒng)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
6 劉龍;一個能實(shí)現(xiàn)個性化實(shí)時路徑推薦服務(wù)的推薦系統(tǒng)框架[D];中國科學(xué)技術(shù)大學(xué);2014年
7 李濤;推薦系統(tǒng)中若干關(guān)鍵問題研究[D];南京航空航天大學(xué);2009年
8 劉士琛;面向推薦系統(tǒng)的關(guān)鍵問題研究及應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2014年
9 李方方;非獨(dú)立同分布推薦系統(tǒng)研究[D];北京理工大學(xué);2014年
10 李曉建;基于語義的個性化資源推薦系統(tǒng)中關(guān)鍵技術(shù)研究[D];武漢大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 朱孔真;基于云計(jì)算的電子商務(wù)智能推薦系統(tǒng)研究[D];武漢理工大學(xué);2014年
2 郭敬澤;基于賦權(quán)評分和Dpark的分布式推薦系統(tǒng)研究與實(shí)現(xiàn)[D];天津理工大學(xué);2015年
3 周俊宇;信息推薦系統(tǒng)的研究與設(shè)計(jì)[D];江南大學(xué);2015年
4 李煒;基于電子商務(wù)平臺的保險推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年
5 車豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學(xué);2015年
6 秦大路;基于因式分解機(jī)模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學(xué);2015年
7 徐霞婷;動態(tài)路網(wǎng)監(jiān)控與導(dǎo)航推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2015年
8 黃學(xué)峰;基于Hadoop的電影推薦系統(tǒng)研究與實(shí)現(xiàn)[D];南京師范大學(xué);2015年
9 路小瑞;基于Hadoop平臺的職位推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
10 李愛寶;基于組合消費(fèi)行為分析的團(tuán)購?fù)扑]系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
,本文編號:740906
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/740906.html