基于Spark平臺(tái)的協(xié)同過(guò)濾算法的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-03-31 00:25
本文關(guān)鍵詞:基于Spark平臺(tái)的協(xié)同過(guò)濾算法的研究與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。面對(duì)互聯(lián)網(wǎng)龐大而豐富的數(shù)據(jù)資源,如何從中獲取有價(jià)值的信息已經(jīng)成為一個(gè)急需解決的問(wèn)題。個(gè)性化推薦系統(tǒng)的誕生就是為了解決這樣的信息過(guò)載問(wèn)題,推薦系統(tǒng)可以根據(jù)用戶歷史行為數(shù)據(jù)挖掘出相關(guān)信息并主動(dòng)給用戶做產(chǎn)品或服務(wù)推薦。在傳統(tǒng)的協(xié)同過(guò)濾推薦算法研究中,單機(jī)平臺(tái)需要耗費(fèi)大量的時(shí)間來(lái)處理海量的用戶行為數(shù)據(jù),單機(jī)算法并行化是解決這個(gè)問(wèn)題的一個(gè)方案。Spark是一個(gè)特別擅長(zhǎng)于迭代式的機(jī)器學(xué)習(xí)運(yùn)算的基于內(nèi)存的分布式計(jì)算框架,把需要重復(fù)迭代運(yùn)算的推薦算法在Spark平臺(tái)并行化實(shí)現(xiàn),將大大縮短算法的運(yùn)行時(shí)間。本論文基于Spark平臺(tái)對(duì)幾個(gè)協(xié)同過(guò)濾算法進(jìn)行了原理分析與并行化實(shí)現(xiàn)。首先對(duì)Spark平臺(tái)和常用推薦算法進(jìn)行了介紹,著重介紹了基于物品的協(xié)同過(guò)濾算法以及基于隱語(yǔ)義模型的協(xié)同過(guò)濾算法,為算法的并行化實(shí)現(xiàn)奠定基礎(chǔ)。對(duì)于基于物品的協(xié)同過(guò)濾算法,本論文基于Spark平臺(tái)實(shí)現(xiàn)了皮爾遜相關(guān)系數(shù)、修正的余弦相似度、加入偏置信息的相似度等幾種物品相似度計(jì)算方法,對(duì)評(píng)分預(yù)測(cè)公式加入懲罰因子解決當(dāng)鄰域信息不足時(shí)評(píng)分預(yù)測(cè)精度降低的問(wèn)題。對(duì)于基于隱語(yǔ)義模型的協(xié)同過(guò)濾算法,本論文使用交替最小二乘法求解矩陣分解問(wèn)題,并利用Spark平臺(tái)的GraphX組件對(duì)用戶-物品關(guān)系建立二分圖模型,通過(guò)并行圖計(jì)算的方式交替更新用戶因子矩陣和物品因子矩陣,提高了算法的運(yùn)行效率。最后,本論文把基于物品的協(xié)同過(guò)濾算法和基于隱語(yǔ)義模型的協(xié)同過(guò)濾算法進(jìn)行模型融合,設(shè)計(jì)了一個(gè)用于融合多個(gè)協(xié)同過(guò)濾算法的線性模型,并利用最小二乘法求解權(quán)重,根據(jù)數(shù)據(jù)自動(dòng)訓(xùn)練出各個(gè)算法的重要程度,使得融合后的模型顯著降低了評(píng)分預(yù)測(cè)的誤差。在公開數(shù)據(jù)集MovieLens上進(jìn)行多組對(duì)比實(shí)驗(yàn)表明,即使在單個(gè)節(jié)點(diǎn)上運(yùn)算,利用GraphX實(shí)現(xiàn)的基于交替最小二乘法的協(xié)同過(guò)濾算法運(yùn)行時(shí)間也遠(yuǎn)遠(yuǎn)少于傳統(tǒng)的單機(jī)算法實(shí)現(xiàn)。此外,對(duì)評(píng)分預(yù)測(cè)公式加入懲罰因子懲罰鄰域信息能夠提高基于物品的協(xié)同過(guò)濾算法評(píng)分預(yù)測(cè)的精度。最后,對(duì)兩個(gè)協(xié)同過(guò)濾算法進(jìn)行模型融合能在現(xiàn)有算法的基礎(chǔ)上進(jìn)一步提高算法的精度,使得多個(gè)協(xié)同過(guò)濾算法組合能夠適應(yīng)不同的場(chǎng)景。
【關(guān)鍵詞】:協(xié)同過(guò)濾算法 Spark平臺(tái) 圖計(jì)算 模型融合
【學(xué)位授予單位】:華南農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-8
- 1 引言8-13
- 1.1 研究背景8-9
- 1.2 研究目的與意義9-10
- 1.3 相關(guān)研究現(xiàn)狀10-11
- 1.3.1 推薦系統(tǒng)的研究現(xiàn)狀10-11
- 1.3.2 Spark平臺(tái)的研究現(xiàn)狀11
- 1.4 論文結(jié)構(gòu)安排11-13
- 2 Spark分布式計(jì)算框架13-19
- 2.1 Spark簡(jiǎn)介13-14
- 2.2 Spark系統(tǒng)架構(gòu)14-16
- 2.3 Spark編程模型16-18
- 2.4 本章小結(jié)18-19
- 3 協(xié)同過(guò)濾算法相關(guān)技術(shù)19-31
- 3.1 推薦系統(tǒng)應(yīng)用19-20
- 3.2 推薦算法分類20
- 3.3 推薦系統(tǒng)評(píng)估20-22
- 3.4 基于物品的協(xié)同過(guò)濾算法22-25
- 3.4.1 構(gòu)建用戶-評(píng)分矩陣23
- 3.4.2 物品相似度計(jì)算23-25
- 3.4.3 預(yù)測(cè)評(píng)分25
- 3.5 基于隱語(yǔ)義模型的協(xié)同過(guò)濾算法25-29
- 3.5.1 隨機(jī)梯度下降法28
- 3.5.2 交替最小二乘法28-29
- 3.5.3 隨機(jī)梯度下降法與交替最小二乘法比較29
- 3.6 本章小結(jié)29-31
- 4 基于Spark平臺(tái)的協(xié)同過(guò)濾算法并行化及優(yōu)化31-49
- 4.1 基于Spark平臺(tái)推薦算法并行化設(shè)計(jì)31-32
- 4.2 基于物品的協(xié)同過(guò)濾算法并行化實(shí)現(xiàn)32-38
- 4.2.1 物品相似度度量32-34
- 4.2.2 評(píng)分預(yù)測(cè)計(jì)算34-35
- 4.2.3 基于Spark平臺(tái)的實(shí)現(xiàn)35-38
- 4.3 基于交替最小二乘法的協(xié)同過(guò)濾算法并行化實(shí)現(xiàn)38-44
- 4.3.1 并行算法設(shè)計(jì)38-40
- 4.3.2 GraphX圖計(jì)算框架40-42
- 4.3.3 基于Spark平臺(tái)的實(shí)現(xiàn)42-44
- 4.4 協(xié)同過(guò)濾算法模型融合44-47
- 4.4.1 建立模型44-46
- 4.4.2 基于Spark平臺(tái)的實(shí)現(xiàn)46-47
- 4.5 本章小結(jié)47-49
- 5 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析49-60
- 5.1 實(shí)驗(yàn)環(huán)境49-50
- 5.2 實(shí)驗(yàn)數(shù)據(jù)50-51
- 5.3 實(shí)驗(yàn)設(shè)計(jì)51-52
- 5.4 實(shí)驗(yàn)結(jié)果及分析52-59
- 5.5 本章小結(jié)59-60
- 6 總結(jié)與展望60-62
- 6.1 工作總結(jié)60-61
- 6.2 工作展望61-62
- 致謝62-63
- 參考文獻(xiàn)63-65
本文關(guān)鍵詞:基于Spark平臺(tái)的協(xié)同過(guò)濾算法的研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):278479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/278479.html
最近更新
教材專著