基于交替最小二乘協(xié)同過濾算法的推薦系統(tǒng)
本文選題:推薦系統(tǒng) 切入點:基于模型的協(xié)同過濾 出處:《北京交通大學》2017年碩士論文 論文類型:學位論文
【摘要】:在當今信息爆炸時代,Web是獲取任何信息的最佳來源或就某件事做出決策的重要途徑。人們在做出某項決定之前像購買任何產品,預訂電影票等都或多或少受到來自Web推薦的影響。由此可見,在這種情況下,推薦系統(tǒng)發(fā)揮重要作用。推薦系統(tǒng)已經廣泛運用在各個領域像電子商務,電影,音樂,搜索引擎和新聞網站等等。它的設計初衷就是基于用戶的長期或短期喜好給它的所有注冊用戶和潛在用戶推薦符合他們自己興趣的產品,包括組合選擇。而這些用戶喜好可以分為顯式信息和隱式信息。由于隱式信息過于隱晦,需要推薦系統(tǒng)本身自發(fā)去收集和挖掘,而這些隱式信息往往存在于用戶過去的購買記錄,用戶過去的瀏覽網站,用戶曾經點擊的鏈接,瀏覽器cookies甚至地理位置信息。顯式信息就比隱式信息體現(xiàn)用戶的喜好顯著的多。顯式信息采用的是有效的反饋,比如說購買或使用過該項目后的一次用戶評分。綜上所述,我們就能將用戶喜好數據化表示成用戶評分記錄,以用戶-物品矩陣的形式存儲。協(xié)同過濾是推薦系統(tǒng)中眾所周知和最廣泛的技術之一,不僅在學術界得到了深入的研究,而且在工業(yè)界也有廣泛的應用。其基本思想是根據用戶的偏好來預測用戶感興趣的項目。并且由于在電子商務中精準推薦的出色表現(xiàn),該項技術已在該領域得到成熟的運用。協(xié)同過濾算法可以簡單分為兩類,一類是基于近鄰的協(xié)同過濾算法,還有一類是基于模型的協(xié)同過濾算法。一、基于近鄰的協(xié)同過濾算法。在這個算法中還需再細分,基于用戶的協(xié)同過濾算法和基于物品的協(xié)同過濾算法。他們的基本思想都是需充分運用相似用戶或相似物品構成的近鄰組合,去挖掘他們近鄰組合的信息來給近鄰組合的本體-被推薦的對象來進行符合他的興趣物品推薦。在基于物品的協(xié)同過濾算法中,關于近鄰組合的定義是由不同用戶打分產生的有著相同或相似分數的物品集合。然后系統(tǒng)推定用戶喜歡和他以前喜歡的東西相似的東西—近鄰集合,進行打分。在基于用戶的協(xié)同過濾算法中,對于近鄰組合的定義是一組對同一個物品打分相同或類似的用戶集合。該算法的主要思想是為了將有著相同或相似的興趣愛好的用戶聚集在一起。因為對于一個物品,用戶甲是存在潛在可能性喜歡在過去記錄中有著相同或相似愛好的用戶乙喜歡的商品。鑒于該算法必須對所有用戶的所有商品的評分數據進行處理才能對單個用戶進行預測推薦,所以該算法提出了嚴重的可擴展性問題。倘若存在海量的用戶、海量的項目以及海量的用戶對物品的評分記錄,此法不適合實時推薦系統(tǒng)。此外該法比推薦系統(tǒng)中的基于模型的協(xié)同過濾的推薦算法更加敏感。二、基于模型的協(xié)同過濾算法。不同于基于近鄰的協(xié)同過濾算法直接采用用戶評分矩陣來學習預測模型進而產生推薦的方法,基于模型的協(xié)同過濾算法的模型建立過程是由不同的機器學習算法如貝葉斯網絡,神經網絡和奇異值分解進行學習預測模型進而給單個用戶產生推薦結果。例如在線系統(tǒng)需要高效可用性和低時延的響應時間,因為它們必須協(xié)同合作并快速處理來自所有用戶活動所產生的數據流,進而產生推薦結果。而所有這些過程都必須在用戶等待幾秒的時間里開始并結束。因為推薦算法會選擇的最符合用戶興趣的物品,這當然必須在用戶瀏覽網站時向用戶顯示。繼而就有需要服務的用戶數量越多,要推薦的商品越多,所產生的計算量繼而會隨之增大大,從而增加生成給每個用戶建議所需的時間。為了解決這個問題,一些學者提出了一類快速簡單的基于模型的協(xié)同過濾算法,稱為潛在因子模型。他們試圖確定解釋觀察到的用戶評分的相關特征,也被稱為潛在因素。這些功能或者說是潛在因素可以解釋為用戶的偏好和推薦的項目的特征。充分使用這些潛在因素,可以推斷出用戶的偏好,并為他或她推薦符合自己興趣的物品。而成功對潛在因素建模的關鍵技術是矩陣分解。由于基于模型的協(xié)同過濾算法它們結合了可擴展性和預測準確性,因此它們已經在實時推薦系統(tǒng)中得到廣泛運用。此外,基于模型的協(xié)同過濾算法它們對不同現(xiàn)實實際情況建模的靈活性提供了不同的建模方法。因為它們允許并入附加信息,如隱含反饋,時間效應和置信水平,這樣使得會優(yōu)于基于近鄰的協(xié)同過濾算法產生推薦結果?蓴U展性和高性能也是一個推薦系統(tǒng)的重要指標,因為計算的復雜度會隨用戶和物品的增多而有指數爆炸性增長?紤]到推薦算法的效率,Map-Reduce的編程模型在對于機器學習的算法上并沒有體現(xiàn)出很好的優(yōu)勢,原因在于機器學習的算法需要Map-Reduce編程框架隨著迭代的次數而不斷進行在磁盤進行讀寫的I/O操作;谏鲜龅默F(xiàn)狀,Apache Spark提出了基于內存的處理大數據的快速通用引擎。Spark是在Map-Reduce上發(fā)展而來的,保留了分布式并行計算的特點并改進了 Map-Reduce的明顯缺陷。Spark是將中間數據保存在了內存中,迭代運算效率大大提高;其次Spark提出彈性分布式數據集RDD的抽象,達到了提高了自身對數據的容錯性;最后,Spark對于數據集的操作沒有像Hadoop一樣只提供了 Map和reduce的操作。大致可以分為兩類,一類是轉化(Transformations)操作,一類是執(zhí)行(Actions)操作,對于使用者提供了很好的友好性。本文工作目標是能夠充分運用Spark自帶的機器學習庫構建并實現(xiàn)基于最小二乘法的協(xié)同過濾系統(tǒng)。交替最小二乘算法(ALS)可以隨著數據量規(guī)模的增大而對其進行并行和優(yōu)化處理。在現(xiàn)實數據中,用戶評分矩陣往往都是比較稀疏的,這給計算并推薦產生巨大的計算壓力,但交替最小二乘算法能克服這點。在實驗中,本文會比較部署在Linux單節(jié)點和部署在Linux集群的推薦效果。實驗中使用的數據集是MovieLens。本論文的貢獻如下:1)介紹了現(xiàn)有的基本推薦算法,比較了各個算法之間的優(yōu)缺點以及適應的場景。結合自身工作的特點,本文選取了適合自己的工作場景的協(xié)同過濾算法。2)本文根據大數據平臺Spark的實驗要求,搭建了一個主節(jié)點,兩個附節(jié)點的實驗集群。各個節(jié)點安裝的操作系統(tǒng)版本是Ubuntu 16.04 LTS.1,使用HDFS存儲數據集并保存計算中的輸出結果,其中Hadoop的安裝版本是2.7.0,Spark快速通用大數據計算平臺安裝的版本是1.6.1.3)本文在Spark大數據處理平臺上使用Scala編程語言實現(xiàn)交替最小二乘算法(ALS)。實驗中的數據集是來自電影領域的公開發(fā)布的MovieLens數據集。首先,筆者了解了公開MovieLens數據集的相關資料并為其找到最適合的ALS模型,換句話說,就是本文使用不同參數值的組合在公開數據集MovieLens訓練了交替最小二乘模型,進而發(fā)現(xiàn)在測試集上具有較低均方根誤差(RMSE)的組合。充分使用訓練出且優(yōu)化的參數來得到交替最小二乘法(ALS)模型。本文采用的實驗評價標準是根據測試集上的執(zhí)行時間和精度結果呈現(xiàn)實驗結果的好壞。實驗結果表明,通過使用Spark的MLlib庫實現(xiàn)的最佳匹配交替最小二乘模型展現(xiàn)了比較好的性能。該解決方案具有更好的性能。對于MovieLens數據集,測試集上的均方根誤差(RMSE)為0.800689025。本文還繼續(xù)在實驗研究中增加了具有可擴展性實驗,換句話說就是在搭建的三臺機器的實驗集群上運行訓練好的最佳參數交替最小二乘模型。本文作者發(fā)現(xiàn)結果非常有利于Spark,因為最小二乘法(ALS)在大數據方面展現(xiàn)的計算加速能力十分可觀,結果就是采用MovieLens數據集在搭建的三臺機器的實驗集群上的訓練時間比在單節(jié)點上的訓練時間上更快。一臺單節(jié)點計算機上的實驗推薦的準確度也令人滿意。
[Abstract]:......
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 ;電商推薦系統(tǒng)進階[J];IT經理世界;2013年11期
2 米可菲;張勇;邢春曉;蔚欣;;面向大數據的開源推薦系統(tǒng)分析[J];計算機與數字工程;2013年10期
3 脫建勇;王嵩;李秀;劉文煌;;精品課共享中的推薦系統(tǒng)框架與實現(xiàn)[J];計算機工程與設計;2006年17期
4 蘇冠賢;張麗霞;林丕源;劉吉平;;生物信息學推薦系統(tǒng)的設計與實現(xiàn)[J];計算機應用研究;2007年05期
5 王改芬;;推薦系統(tǒng)研究綜述[J];軟件導刊;2007年23期
6 葉群來;;營銷與網絡推薦系統(tǒng)[J];電子商務;2007年10期
7 李媚;;個性化網絡學習資源推薦系統(tǒng)研究[J];福建電腦;2008年12期
8 潘冉;姜麗紅;;基于經濟學模型的推薦系統(tǒng)的研究[J];計算機應用與軟件;2008年03期
9 劉魯;任曉麗;;推薦系統(tǒng)研究進展及展望[J];信息系統(tǒng)學報;2008年01期
10 劉小燕;陳艷麗;賈宗璞;沈記全;;基于增強學習的旅行計劃推薦系統(tǒng)[J];計算機工程;2010年21期
相關會議論文 前8條
1 張燕;李燕萍;;基于內容分析和點擊率記錄的混合音樂推薦系統(tǒng)[A];2009年通信理論與信號處理學術年會論文集[C];2009年
2 趙欣;寇綱;鄔文帥;盧艷群;;基于時間密集性的推薦系統(tǒng)攻擊檢測[A];第六屆(2011)中國管理學年會論文摘要集[C];2011年
3 張玉連;張波;張敏;;改進的個性化信息推薦系統(tǒng)的設計與實現(xiàn)[A];2005年全國理論計算機科學學術年會論文集[C];2005年
4 王君;許潔萍;;層次音樂推薦系統(tǒng)的研究[A];第18屆全國多媒體學術會議(NCMT2009)、第5屆全國人機交互學術會議(CHCI2009)、第5屆全國普適計算學術會議(PCC2009)論文集[C];2009年
5 潘宇;林鴻飛;楊志豪;;基于用戶聚類的電子商務推薦系統(tǒng)[A];第三屆學生計算語言學研討會論文集[C];2006年
6 尤忠彬;陳越;張英;朱揚勇;;基于Web服務的技術轉移平臺推薦系統(tǒng)研究[A];第二十二屆中國數據庫學術會議論文集(技術報告篇)[C];2005年
7 王國霞;劉賀平;李擎;;二部圖影射及其在推薦系統(tǒng)中的應用[A];第25屆中國控制與決策會議論文集[C];2013年
8 王雪;董愛華;吳怡之;;基于RFID技術的智能服裝推薦系統(tǒng)設計[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年
相關重要報紙文章 前2條
1 ;大數據如何“落地”[N];中國新聞出版報;2014年
2 本報記者 鄒大斌;大數據:電商新武器[N];計算機世界;2012年
相關博士學位論文 前10條
1 周魏;推薦系統(tǒng)中基于目標項目分析的托攻擊檢測研究[D];重慶大學;2015年
2 田剛;融合維基知識的情境感知Web服務發(fā)現(xiàn)方法研究[D];武漢大學;2015年
3 胡亮;集成多元信息的推薦系統(tǒng)建模方法的研究[D];上海交通大學;2015年
4 孫麗梅;Web-based推薦系統(tǒng)中若干關鍵問題研究[D];東北大學;2013年
5 鄭麟;基于屬性提升與偏好集成的上下文感知推薦[D];武漢大學;2017年
6 于鵬華;數據數量與質量敏感的推薦系統(tǒng)若干問題研究[D];浙江大學;2016年
7 王宏宇;商務推薦系統(tǒng)的設計研究[D];中國科學技術大學;2007年
8 楊東輝;基于情感相似度的社會化推薦系統(tǒng)研究[D];哈爾濱工業(yè)大學;2014年
9 曹渝昆;基于神經網絡和模糊邏輯的智能推薦系統(tǒng)研究[D];重慶大學;2006年
10 王立才;上下文感知推薦系統(tǒng)若干關鍵技術研究[D];北京郵電大學;2012年
相關碩士學位論文 前10條
1 朱孔真;基于云計算的電子商務智能推薦系統(tǒng)研究[D];武漢理工大學;2014年
2 郭敬澤;基于賦權評分和Dpark的分布式推薦系統(tǒng)研究與實現(xiàn)[D];天津理工大學;2015年
3 周俊宇;信息推薦系統(tǒng)的研究與設計[D];江南大學;2015年
4 李煒;基于電子商務平臺的保險推薦系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2013年
5 車豐;基于排序主題模型的論文推薦系統(tǒng)[D];大連海事大學;2015年
6 秦大路;基于因式分解機模型的上下文感知推薦系統(tǒng)研究[D];鄭州大學;2015年
7 徐霞婷;動態(tài)路網監(jiān)控與導航推薦系統(tǒng)的設計與實現(xiàn)[D];蘇州大學;2015年
8 黃學峰;基于Hadoop的電影推薦系統(tǒng)研究與實現(xiàn)[D];南京師范大學;2015年
9 路小瑞;基于Hadoop平臺的職位推薦系統(tǒng)的設計與實現(xiàn)[D];上海交通大學;2015年
10 李愛寶;基于組合消費行為分析的團購推薦系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2015年
,本文編號:1590103
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1590103.html