基于Spark的并行推薦算法的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Spark的并行推薦算法的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的迅猛發(fā)展,信息技術(shù)與經(jīng)濟(jì)社會(huì)的交融碰撞,引發(fā)了數(shù)據(jù)迅猛增長(zhǎng),顯然我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代在帶來資訊極度豐富的同時(shí)也使得用戶在面對(duì)海量數(shù)據(jù)時(shí)需要花費(fèi)大量的時(shí)間去篩選自己真正需要的信息,信息超載的現(xiàn)象越來越明顯。協(xié)同過濾算法作為解決信息超載的關(guān)鍵技術(shù)之一,雖然被廣泛應(yīng)用于視頻音樂網(wǎng)站、電子商務(wù)等多個(gè)領(lǐng)域,但是仍然存在著預(yù)測(cè)準(zhǔn)確度不理想、冷啟動(dòng)等問題。同時(shí),面對(duì)日益增加的數(shù)據(jù)量,傳統(tǒng)的協(xié)同過濾算法出現(xiàn)了可擴(kuò)展性問題,無法滿足海量數(shù)據(jù)的計(jì)算需求,分布式并行計(jì)算框架的出現(xiàn)為解決該問題提供了新的思路。Spark是新興的通用并行計(jì)算框架,借助其內(nèi)存計(jì)算的優(yōu)勢(shì),成為近兩年大數(shù)據(jù)處理領(lǐng)域的研究重點(diǎn)。本文擬研究協(xié)同過濾算法,針對(duì)其預(yù)測(cè)準(zhǔn)確度不理想、冷啟動(dòng)等問題進(jìn)行改進(jìn),并將改進(jìn)算法在Spark平臺(tái)下進(jìn)行并行化設(shè)計(jì)與實(shí)現(xiàn),從而進(jìn)一步解決算法的可擴(kuò)展性問題。主要工作包括以下幾個(gè)方面:(1)分析了協(xié)同過濾中基于項(xiàng)目、Slope One算法的基本原理和具體計(jì)算流程以及算法存在的不足。(2)針對(duì)基于項(xiàng)目的協(xié)同過濾算法存在的項(xiàng)目冷啟動(dòng)以及評(píng)分?jǐn)?shù)據(jù)稀疏情景下預(yù)測(cè)準(zhǔn)確度不高的問題,本文引入了項(xiàng)目屬性特征相似度。在計(jì)算項(xiàng)目相似度時(shí)將項(xiàng)目屬性特征相似度與評(píng)分相似度進(jìn)行組合,以此來減少數(shù)據(jù)稀疏對(duì)相似度計(jì)算的負(fù)面影響。實(shí)驗(yàn)結(jié)果表明,本文的改進(jìn)算法相比傳統(tǒng)方法預(yù)測(cè)準(zhǔn)確度更高,并且在評(píng)分矩陣稀疏的情景下,效果更明顯。(3)針對(duì)Slope One算法在預(yù)測(cè)評(píng)分時(shí)僅僅依賴用戶對(duì)不同項(xiàng)目的評(píng)分差異而沒有考慮項(xiàng)目以及用戶間相似性的問題,本文通過引入用戶項(xiàng)目之間的相關(guān)性以及項(xiàng)目之間的相似度對(duì)算法做了改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的Slope One算法相比傳統(tǒng)方法提高了預(yù)測(cè)的準(zhǔn)確度。(4)實(shí)現(xiàn)了基于項(xiàng)目協(xié)同過濾改進(jìn)算法與Slope One改進(jìn)算法在Spark平臺(tái)的并行化。Speedup與Sizeup的實(shí)驗(yàn)結(jié)果表明,文中實(shí)現(xiàn)的算法并行性能良好,解決了算法可擴(kuò)展性問題,同時(shí)提高了算法的運(yùn)行效率。
【關(guān)鍵詞】:Spark 并行化 Slope One 基于項(xiàng)目的協(xié)同過濾
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要6-7
- Abstract7-11
- 第1章 緒論11-16
- 1.1 研究背景和意義11-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 推薦算法的研究現(xiàn)狀12-13
- 1.2.2 分布式計(jì)算的研究現(xiàn)狀13-14
- 1.3 本文的研究?jī)?nèi)容14
- 1.4 本文的組織結(jié)構(gòu)14-16
- 第2章 相關(guān)技術(shù)與基本理論16-30
- 2.1 Spark計(jì)算框架16-22
- 2.1.1 Spark簡(jiǎn)介16-17
- 2.1.2 Spark RDD17-19
- 2.1.3 Spark運(yùn)行模式和運(yùn)行架構(gòu)19-22
- 2.2 協(xié)同過濾推薦算法分析22-29
- 2.2.1 基于用戶的協(xié)同過濾算法24-25
- 2.2.2 基于項(xiàng)目的協(xié)同過濾算法25-27
- 2.2.3 Slope One算法27-29
- 2.3 本章小結(jié)29-30
- 第3章 基于項(xiàng)目的協(xié)同過濾算法的改進(jìn)與并行化實(shí)現(xiàn)30-42
- 3.1 基于項(xiàng)目的協(xié)同過濾算法存在的問題30-31
- 3.2 基于項(xiàng)目的協(xié)同過濾算法的改進(jìn)設(shè)計(jì)31-34
- 3.3 基于項(xiàng)目的協(xié)同過濾改進(jìn)算法的并行化實(shí)現(xiàn)34-41
- 3.4 本章小結(jié)41-42
- 第4章 Slope One算法的改進(jìn)與并行化實(shí)現(xiàn)42-51
- 4.1 Slope One算法存在的問題42
- 4.2 Slope One算法的改進(jìn)設(shè)計(jì)42-44
- 4.3 Slope One改進(jìn)算法的并行化實(shí)現(xiàn)44-50
- 4.4 本章小結(jié)50-51
- 第5章 實(shí)驗(yàn)與結(jié)果分析51-62
- 5.1 實(shí)驗(yàn)環(huán)境51-53
- 5.1.1 實(shí)驗(yàn)軟硬件環(huán)境51
- 5.1.2 實(shí)驗(yàn)數(shù)據(jù)51-52
- 5.1.3 Spark性能優(yōu)化52-53
- 5.2 實(shí)驗(yàn)及結(jié)果分析53-61
- 5.2.1 預(yù)測(cè)準(zhǔn)確度評(píng)測(cè)53-58
- 5.2.2 并行性能評(píng)測(cè)58-61
- 5.3 本章小結(jié)61-62
- 結(jié)論62-64
- 致謝64-65
- 參考文獻(xiàn)65-69
- 攻讀碩士學(xué)位期間發(fā)表的論文69
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 徐義峰;徐云青;劉曉平;;一種基于時(shí)間序列性的推薦算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2006年10期
2 余小鵬;;一種基于多層關(guān)聯(lián)規(guī)則的推薦算法研究[J];計(jì)算機(jī)應(yīng)用;2007年06期
3 張海玉;劉志都;楊彩;賈松浩;;基于頁(yè)面聚類的推薦算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年09期
4 張立燕;;一種基于用戶事務(wù)模式的推薦算法[J];福建電腦;2009年03期
5 王晗;夏自謙;;基于蟻群算法和瀏覽路徑的推薦算法研究[J];中國(guó)科技信息;2009年07期
6 周珊丹;周興社;王海鵬;倪紅波;張桂英;苗強(qiáng);;智能博物館環(huán)境下的個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年19期
7 王文;;個(gè)性化推薦算法研究[J];電腦知識(shí)與技術(shù);2010年16期
8 張愷;秦亮曦;寧朝波;李文閣;;改進(jìn)評(píng)價(jià)估計(jì)的混合推薦算法研究[J];微計(jì)算機(jī)信息;2010年36期
9 夏秀峰;代沁;叢麗暉;;用戶顯意識(shí)下的多重態(tài)度個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期
10 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個(gè)性化推薦算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 唐燦;;基于模糊用戶心理模式的個(gè)性化推薦算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
3 秦國(guó);杜小勇;;基于用戶層次信息的協(xié)同推薦算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
4 周玉妮;鄭會(huì)頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動(dòng)商務(wù)個(gè)性化推薦系統(tǒng)[A];社會(huì)經(jīng)濟(jì)發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第17屆學(xué)術(shù)年會(huì)論文集[C];2012年
5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時(shí)推薦算法[A];第五屆全國(guó)復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會(huì)議論文(摘要)匯集[C];2009年
6 梁莘q
本文編號(hào):387707
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/387707.html