基于Spark平臺的協(xié)同過濾算法的研究與實現(xiàn)
發(fā)布時間:2017-03-31 00:25
本文關鍵詞:基于Spark平臺的協(xié)同過濾算法的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術的快速發(fā)展,大數(shù)據(jù)時代已經(jīng)到來。面對互聯(lián)網(wǎng)龐大而豐富的數(shù)據(jù)資源,如何從中獲取有價值的信息已經(jīng)成為一個急需解決的問題。個性化推薦系統(tǒng)的誕生就是為了解決這樣的信息過載問題,推薦系統(tǒng)可以根據(jù)用戶歷史行為數(shù)據(jù)挖掘出相關信息并主動給用戶做產品或服務推薦。在傳統(tǒng)的協(xié)同過濾推薦算法研究中,單機平臺需要耗費大量的時間來處理海量的用戶行為數(shù)據(jù),單機算法并行化是解決這個問題的一個方案。Spark是一個特別擅長于迭代式的機器學習運算的基于內存的分布式計算框架,把需要重復迭代運算的推薦算法在Spark平臺并行化實現(xiàn),將大大縮短算法的運行時間。本論文基于Spark平臺對幾個協(xié)同過濾算法進行了原理分析與并行化實現(xiàn)。首先對Spark平臺和常用推薦算法進行了介紹,著重介紹了基于物品的協(xié)同過濾算法以及基于隱語義模型的協(xié)同過濾算法,為算法的并行化實現(xiàn)奠定基礎。對于基于物品的協(xié)同過濾算法,本論文基于Spark平臺實現(xiàn)了皮爾遜相關系數(shù)、修正的余弦相似度、加入偏置信息的相似度等幾種物品相似度計算方法,對評分預測公式加入懲罰因子解決當鄰域信息不足時評分預測精度降低的問題。對于基于隱語義模型的協(xié)同過濾算法,本論文使用交替最小二乘法求解矩陣分解問題,并利用Spark平臺的GraphX組件對用戶-物品關系建立二分圖模型,通過并行圖計算的方式交替更新用戶因子矩陣和物品因子矩陣,提高了算法的運行效率。最后,本論文把基于物品的協(xié)同過濾算法和基于隱語義模型的協(xié)同過濾算法進行模型融合,設計了一個用于融合多個協(xié)同過濾算法的線性模型,并利用最小二乘法求解權重,根據(jù)數(shù)據(jù)自動訓練出各個算法的重要程度,使得融合后的模型顯著降低了評分預測的誤差。在公開數(shù)據(jù)集MovieLens上進行多組對比實驗表明,即使在單個節(jié)點上運算,利用GraphX實現(xiàn)的基于交替最小二乘法的協(xié)同過濾算法運行時間也遠遠少于傳統(tǒng)的單機算法實現(xiàn)。此外,對評分預測公式加入懲罰因子懲罰鄰域信息能夠提高基于物品的協(xié)同過濾算法評分預測的精度。最后,對兩個協(xié)同過濾算法進行模型融合能在現(xiàn)有算法的基礎上進一步提高算法的精度,使得多個協(xié)同過濾算法組合能夠適應不同的場景。
【關鍵詞】:協(xié)同過濾算法 Spark平臺 圖計算 模型融合
【學位授予單位】:華南農業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要3-4
- Abstract4-8
- 1 引言8-13
- 1.1 研究背景8-9
- 1.2 研究目的與意義9-10
- 1.3 相關研究現(xiàn)狀10-11
- 1.3.1 推薦系統(tǒng)的研究現(xiàn)狀10-11
- 1.3.2 Spark平臺的研究現(xiàn)狀11
- 1.4 論文結構安排11-13
- 2 Spark分布式計算框架13-19
- 2.1 Spark簡介13-14
- 2.2 Spark系統(tǒng)架構14-16
- 2.3 Spark編程模型16-18
- 2.4 本章小結18-19
- 3 協(xié)同過濾算法相關技術19-31
- 3.1 推薦系統(tǒng)應用19-20
- 3.2 推薦算法分類20
- 3.3 推薦系統(tǒng)評估20-22
- 3.4 基于物品的協(xié)同過濾算法22-25
- 3.4.1 構建用戶-評分矩陣23
- 3.4.2 物品相似度計算23-25
- 3.4.3 預測評分25
- 3.5 基于隱語義模型的協(xié)同過濾算法25-29
- 3.5.1 隨機梯度下降法28
- 3.5.2 交替最小二乘法28-29
- 3.5.3 隨機梯度下降法與交替最小二乘法比較29
- 3.6 本章小結29-31
- 4 基于Spark平臺的協(xié)同過濾算法并行化及優(yōu)化31-49
- 4.1 基于Spark平臺推薦算法并行化設計31-32
- 4.2 基于物品的協(xié)同過濾算法并行化實現(xiàn)32-38
- 4.2.1 物品相似度度量32-34
- 4.2.2 評分預測計算34-35
- 4.2.3 基于Spark平臺的實現(xiàn)35-38
- 4.3 基于交替最小二乘法的協(xié)同過濾算法并行化實現(xiàn)38-44
- 4.3.1 并行算法設計38-40
- 4.3.2 GraphX圖計算框架40-42
- 4.3.3 基于Spark平臺的實現(xiàn)42-44
- 4.4 協(xié)同過濾算法模型融合44-47
- 4.4.1 建立模型44-46
- 4.4.2 基于Spark平臺的實現(xiàn)46-47
- 4.5 本章小結47-49
- 5 實驗設計及結果分析49-60
- 5.1 實驗環(huán)境49-50
- 5.2 實驗數(shù)據(jù)50-51
- 5.3 實驗設計51-52
- 5.4 實驗結果及分析52-59
- 5.5 本章小結59-60
- 6 總結與展望60-62
- 6.1 工作總結60-61
- 6.2 工作展望61-62
- 致謝62-63
- 參考文獻63-65
本文關鍵詞:基于Spark平臺的協(xié)同過濾算法的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:278479
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/278479.html
最近更新
教材專著