基于Spark的并行推薦算法的研究與實現(xiàn)
本文關(guān)鍵詞:基于Spark的并行推薦算法的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息技術(shù)與經(jīng)濟社會的交融碰撞,引發(fā)了數(shù)據(jù)迅猛增長,顯然我們已經(jīng)進入了大數(shù)據(jù)時代。大數(shù)據(jù)時代在帶來資訊極度豐富的同時也使得用戶在面對海量數(shù)據(jù)時需要花費大量的時間去篩選自己真正需要的信息,信息超載的現(xiàn)象越來越明顯。協(xié)同過濾算法作為解決信息超載的關(guān)鍵技術(shù)之一,雖然被廣泛應(yīng)用于視頻音樂網(wǎng)站、電子商務(wù)等多個領(lǐng)域,但是仍然存在著預(yù)測準確度不理想、冷啟動等問題。同時,面對日益增加的數(shù)據(jù)量,傳統(tǒng)的協(xié)同過濾算法出現(xiàn)了可擴展性問題,無法滿足海量數(shù)據(jù)的計算需求,分布式并行計算框架的出現(xiàn)為解決該問題提供了新的思路。Spark是新興的通用并行計算框架,借助其內(nèi)存計算的優(yōu)勢,成為近兩年大數(shù)據(jù)處理領(lǐng)域的研究重點。本文擬研究協(xié)同過濾算法,針對其預(yù)測準確度不理想、冷啟動等問題進行改進,并將改進算法在Spark平臺下進行并行化設(shè)計與實現(xiàn),從而進一步解決算法的可擴展性問題。主要工作包括以下幾個方面:(1)分析了協(xié)同過濾中基于項目、Slope One算法的基本原理和具體計算流程以及算法存在的不足。(2)針對基于項目的協(xié)同過濾算法存在的項目冷啟動以及評分數(shù)據(jù)稀疏情景下預(yù)測準確度不高的問題,本文引入了項目屬性特征相似度。在計算項目相似度時將項目屬性特征相似度與評分相似度進行組合,以此來減少數(shù)據(jù)稀疏對相似度計算的負面影響。實驗結(jié)果表明,本文的改進算法相比傳統(tǒng)方法預(yù)測準確度更高,并且在評分矩陣稀疏的情景下,效果更明顯。(3)針對Slope One算法在預(yù)測評分時僅僅依賴用戶對不同項目的評分差異而沒有考慮項目以及用戶間相似性的問題,本文通過引入用戶項目之間的相關(guān)性以及項目之間的相似度對算法做了改進。實驗結(jié)果表明,改進的Slope One算法相比傳統(tǒng)方法提高了預(yù)測的準確度。(4)實現(xiàn)了基于項目協(xié)同過濾改進算法與Slope One改進算法在Spark平臺的并行化。Speedup與Sizeup的實驗結(jié)果表明,文中實現(xiàn)的算法并行性能良好,解決了算法可擴展性問題,同時提高了算法的運行效率。
【關(guān)鍵詞】:Spark 并行化 Slope One 基于項目的協(xié)同過濾
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 研究背景和意義11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 推薦算法的研究現(xiàn)狀12-13
- 1.2.2 分布式計算的研究現(xiàn)狀13-14
- 1.3 本文的研究內(nèi)容14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第2章 相關(guān)技術(shù)與基本理論16-30
- 2.1 Spark計算框架16-22
- 2.1.1 Spark簡介16-17
- 2.1.2 Spark RDD17-19
- 2.1.3 Spark運行模式和運行架構(gòu)19-22
- 2.2 協(xié)同過濾推薦算法分析22-29
- 2.2.1 基于用戶的協(xié)同過濾算法24-25
- 2.2.2 基于項目的協(xié)同過濾算法25-27
- 2.2.3 Slope One算法27-29
- 2.3 本章小結(jié)29-30
- 第3章 基于項目的協(xié)同過濾算法的改進與并行化實現(xiàn)30-42
- 3.1 基于項目的協(xié)同過濾算法存在的問題30-31
- 3.2 基于項目的協(xié)同過濾算法的改進設(shè)計31-34
- 3.3 基于項目的協(xié)同過濾改進算法的并行化實現(xiàn)34-41
- 3.4 本章小結(jié)41-42
- 第4章 Slope One算法的改進與并行化實現(xiàn)42-51
- 4.1 Slope One算法存在的問題42
- 4.2 Slope One算法的改進設(shè)計42-44
- 4.3 Slope One改進算法的并行化實現(xiàn)44-50
- 4.4 本章小結(jié)50-51
- 第5章 實驗與結(jié)果分析51-62
- 5.1 實驗環(huán)境51-53
- 5.1.1 實驗軟硬件環(huán)境51
- 5.1.2 實驗數(shù)據(jù)51-52
- 5.1.3 Spark性能優(yōu)化52-53
- 5.2 實驗及結(jié)果分析53-61
- 5.2.1 預(yù)測準確度評測53-58
- 5.2.2 并行性能評測58-61
- 5.3 本章小結(jié)61-62
- 結(jié)論62-64
- 致謝64-65
- 參考文獻65-69
- 攻讀碩士學(xué)位期間發(fā)表的論文69
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐義峰;徐云青;劉曉平;;一種基于時間序列性的推薦算法[J];計算機系統(tǒng)應(yīng)用;2006年10期
2 余小鵬;;一種基于多層關(guān)聯(lián)規(guī)則的推薦算法研究[J];計算機應(yīng)用;2007年06期
3 張海玉;劉志都;楊彩;賈松浩;;基于頁面聚類的推薦算法的改進[J];計算機應(yīng)用與軟件;2008年09期
4 張立燕;;一種基于用戶事務(wù)模式的推薦算法[J];福建電腦;2009年03期
5 王晗;夏自謙;;基于蟻群算法和瀏覽路徑的推薦算法研究[J];中國科技信息;2009年07期
6 周珊丹;周興社;王海鵬;倪紅波;張桂英;苗強;;智能博物館環(huán)境下的個性化推薦算法[J];計算機工程與應(yīng)用;2010年19期
7 王文;;個性化推薦算法研究[J];電腦知識與技術(shù);2010年16期
8 張愷;秦亮曦;寧朝波;李文閣;;改進評價估計的混合推薦算法研究[J];微計算機信息;2010年36期
9 夏秀峰;代沁;叢麗暉;;用戶顯意識下的多重態(tài)度個性化推薦算法[J];計算機工程與應(yīng)用;2011年16期
10 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(自然科學(xué)版);2011年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個性化推薦算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
2 唐燦;;基于模糊用戶心理模式的個性化推薦算法[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
3 秦國;杜小勇;;基于用戶層次信息的協(xié)同推薦算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
4 周玉妮;鄭會頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動商務(wù)個性化推薦系統(tǒng)[A];社會經(jīng)濟發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第17屆學(xué)術(shù)年會論文集[C];2012年
5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時推薦算法[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年
6 梁莘q
本文編號:387707
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/387707.html