基于Hadoop的聚類協(xié)同過濾推薦算法研究及應(yīng)用
本文關(guān)鍵詞:基于Hadoop的聚類協(xié)同過濾推薦算法研究及應(yīng)用
更多相關(guān)文章: Hadoop K-means 協(xié)同過濾 MapReduce 矩陣分解 最大最小值
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)量不斷增加,已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。大量的信息和商品同時(shí)呈現(xiàn)在用戶面前,使我們面臨一個(gè)嚴(yán)重的問題-信息過載,而個(gè)性化推薦是解決該問題一個(gè)有效的方法,協(xié)同過濾方法是目前在實(shí)際推薦系統(tǒng)中應(yīng)用最多的個(gè)性化推薦方法,它基于群體的偏好來為用戶提供推薦。傳統(tǒng)單機(jī)的協(xié)同過濾算法無論從效率上,還是從計(jì)算復(fù)雜度上都已無法滿足海量信息的處理需要,云計(jì)算技術(shù)的發(fā)展為推薦算法提供了新的研究方向。因此,可以考慮利用結(jié)合大數(shù)據(jù)技術(shù)來應(yīng)對算法擴(kuò)展性等問題。本文對基于Hadoop大數(shù)據(jù)處理技術(shù)的聚類協(xié)同過濾推薦算法進(jìn)行研究與實(shí)現(xiàn),并對電影數(shù)據(jù)集進(jìn)行應(yīng)用分析。主要對Hadoop兩大主要框架、經(jīng)典聚類算法及推薦算法的相關(guān)概念進(jìn)行了研究;提出基于Hadoop大數(shù)據(jù)處理技術(shù)的分布式聚類協(xié)同過濾推薦算法,來解決協(xié)同過濾算法應(yīng)對數(shù)據(jù)稀疏性和算法的擴(kuò)展性問題;對數(shù)據(jù)的稀疏性采用矩陣分解方法預(yù)處理初始數(shù)據(jù),將預(yù)處理后的數(shù)據(jù)通過聚類算法來建立聚類模型,然后利用聚類模型和協(xié)同過濾算法形成推薦的候選空間,最后完成推薦。本文的工作重點(diǎn)總結(jié):(1)對于常用的聚類算法做了研究分析,全面了解各類典型算法的優(yōu)缺點(diǎn),重點(diǎn)研究了K-means聚類算法。(2)對經(jīng)典的推薦算法做了深入的研究分析,著重分析了協(xié)同過濾推薦算法。(3)針對數(shù)據(jù)的稀疏性采用矩陣分解算法預(yù)處理,改善數(shù)據(jù)稀疏性后利用改進(jìn)的K-means聚類算法構(gòu)建聚類模型。(4)結(jié)合K-means聚類模型與協(xié)同過濾推薦算法做混合推薦。(5)對K-means聚類算法、協(xié)同過濾推薦算法進(jìn)行改進(jìn),使其能夠適應(yīng)MapReduce編程模型,進(jìn)而達(dá)到對數(shù)據(jù)進(jìn)行分布式處理的目的,以此來解決算法存在的可擴(kuò)展性問題。(6)對混合推薦算法進(jìn)行評測。本課題應(yīng)用MovieLens數(shù)據(jù)集中的數(shù)據(jù),通過在數(shù)據(jù)集上的應(yīng)用分析,對算法做了驗(yàn)證,并對應(yīng)用結(jié)果進(jìn)行分析。應(yīng)用分析表明,將Hadoop技術(shù)應(yīng)用于聚類協(xié)同過濾推薦混合算法的實(shí)現(xiàn),能夠有效改善推薦系統(tǒng)的推薦質(zhì)量并大大提高推薦效率,同時(shí)在云環(huán)境中具有良好可擴(kuò)展性。
【關(guān)鍵詞】:Hadoop K-means 協(xié)同過濾 MapReduce 矩陣分解 最大最小值
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第1章 緒論11-17
- 1.1 課題研究背景和意義11-13
- 1.2 課題的研究現(xiàn)狀13-15
- 1.2.1 Hadoop的發(fā)展現(xiàn)狀13
- 1.2.2 數(shù)據(jù)挖掘的研究現(xiàn)狀13-14
- 1.2.3 推薦算法的研究現(xiàn)狀14-15
- 1.3 課題的研究內(nèi)容15-16
- 1.4 論文結(jié)構(gòu)安排16-17
- 第2章 Hadoop相關(guān)技術(shù)17-25
- 2.1 Hadoop簡介17-18
- 2.2 HDFS18-21
- 2.2.1 HDFS介紹18-19
- 2.2.2 HDFS的架構(gòu)和工作原理19-21
- 2.2.3 HDFS數(shù)據(jù)存儲的保證措施21
- 2.3 MapReduce的并行計(jì)算架構(gòu)21-23
- 2.3.1 MapReduce體系架構(gòu)概述21-22
- 2.3.2 MapReduce的工作流程22-23
- 2.4 本章小結(jié)23-25
- 第3章 K-means算法Map Reduce并行化設(shè)計(jì)25-39
- 3.1 聚類算法概述25-27
- 3.1.1 聚類分析的基本概念25-26
- 3.1.2 聚類算法中的距離度量26-27
- 3.2 聚類方法分類27-29
- 3.2.1 劃分方法27-28
- 3.2.2 層次的方法28-29
- 3.2.3 基于密度的方法29
- 3.2.4 基于網(wǎng)格的方法29
- 3.2.5 基于模型的方法29
- 3.3 K-Means算法29-32
- 3.3.1 K-means算法介紹29-30
- 3.3.2 K-means算法性能分析30-32
- 3.4 聚類算法K-Means改進(jìn)及其MapReduce并行化設(shè)計(jì)32-37
- 3.4.1 K-means算法改進(jìn)32-33
- 3.4.2 最大最小值算法MapReduce設(shè)計(jì)33-34
- 3.4.3 基于最大最小值的K-means算法的MapReduce設(shè)計(jì)34-37
- 3.5 本章小結(jié)37-39
- 第4章 基于Hadoop的混合推薦算法39-54
- 4.1 推薦系統(tǒng)概述39-40
- 4.2 推薦系統(tǒng)的架構(gòu)40-41
- 4.3 常用推薦算法研究41-46
- 4.3.1 基于內(nèi)容的推薦41-42
- 4.3.2 基于關(guān)聯(lián)規(guī)則的推薦42-43
- 4.3.3 協(xié)同過濾推薦43-46
- 4.4 協(xié)同過濾算法相識度度量與并行化46-48
- 4.4.1 相識度度量方法46-48
- 4.5 基于Hadoop的聚類協(xié)同過濾推薦算法48-53
- 4.5.1 矩陣分解預(yù)處理數(shù)據(jù)集49-51
- 4.5.2 基于聚類模型的協(xié)同過濾推薦51-53
- 4.6 算法擴(kuò)展性驗(yàn)證53
- 4.7 本章小結(jié)53-54
- 第5章 Hadoop集群下MoviesLens數(shù)據(jù)集電影推薦54-65
- 5.1 Hadoop集群平臺的搭建54-56
- 5.1.1 實(shí)驗(yàn)集群環(huán)境與架構(gòu)54
- 5.1.2 Hadoop集群的配置54-56
- 5.2 電影數(shù)據(jù)集MoviesLens介紹56-57
- 5.3 常用評估標(biāo)準(zhǔn)57-58
- 5.3.1 精確度57-58
- 5.3.2 覆蓋率58
- 5.4 實(shí)驗(yàn)設(shè)計(jì)與分析58-64
- 5.4.1 推薦算法中相識度的選取58-59
- 5.4.2 推薦算法中鄰居大小的確定59-60
- 5.4.3 協(xié)同過濾推薦算法推薦質(zhì)量的比較60-62
- 5.4.4 算法的應(yīng)用性能評估62-64
- 5.5 本章小結(jié)64-65
- 第6章 總結(jié)與展望65-67
- 6.1 總結(jié)65-66
- 6.2 展望66-67
- 參考文獻(xiàn)67-72
- 致謝72-73
- 附錄A 攻讀碩士學(xué)位期間發(fā)表的論文情況73-74
- 附錄B 攻讀學(xué)位期間參與科研工作情況74
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 徐義峰;徐云青;劉曉平;;一種基于時(shí)間序列性的推薦算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2006年10期
2 余小鵬;;一種基于多層關(guān)聯(lián)規(guī)則的推薦算法研究[J];計(jì)算機(jī)應(yīng)用;2007年06期
3 張海玉;劉志都;楊彩;賈松浩;;基于頁面聚類的推薦算法的改進(jìn)[J];計(jì)算機(jī)應(yīng)用與軟件;2008年09期
4 張立燕;;一種基于用戶事務(wù)模式的推薦算法[J];福建電腦;2009年03期
5 王晗;夏自謙;;基于蟻群算法和瀏覽路徑的推薦算法研究[J];中國科技信息;2009年07期
6 周珊丹;周興社;王海鵬;倪紅波;張桂英;苗強(qiáng);;智能博物館環(huán)境下的個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2010年19期
7 王文;;個(gè)性化推薦算法研究[J];電腦知識與技術(shù);2010年16期
8 張愷;秦亮曦;寧朝波;李文閣;;改進(jìn)評價(jià)估計(jì)的混合推薦算法研究[J];微計(jì)算機(jī)信息;2010年36期
9 夏秀峰;代沁;叢麗暉;;用戶顯意識下的多重態(tài)度個(gè)性化推薦算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期
10 楊博;趙鵬飛;;推薦算法綜述[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王韜丞;羅喜軍;杜小勇;;基于層次的推薦:一種新的個(gè)性化推薦算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2007年
2 唐燦;;基于模糊用戶心理模式的個(gè)性化推薦算法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會論文集[C];2008年
3 秦國;杜小勇;;基于用戶層次信息的協(xié)同推薦算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報(bào)告篇)[C];2004年
4 周玉妮;鄭會頌;;基于瀏覽路徑選擇的蟻群推薦算法:用于移動商務(wù)個(gè)性化推薦系統(tǒng)[A];社會經(jīng)濟(jì)發(fā)展轉(zhuǎn)型與系統(tǒng)工程——中國系統(tǒng)工程學(xué)會第17屆學(xué)術(shù)年會論文集[C];2012年
5 蘇日啟;胡皓;汪秉宏;;基于網(wǎng)絡(luò)的含時(shí)推薦算法[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年
6 梁莘q,
本文編號:845973
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/845973.html