協(xié)同過濾推薦算法的改進(jìn)與分布式計(jì)算實(shí)現(xiàn)
發(fā)布時(shí)間:2017-04-25 14:05
本文關(guān)鍵詞:協(xié)同過濾推薦算法的改進(jìn)與分布式計(jì)算實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:信息化時(shí)代每個(gè)人能夠獲得的信息量非常巨大,這給整個(gè)社會(huì)技術(shù)進(jìn)步做出了巨大貢獻(xiàn)的同時(shí)也帶了一些不便:怎樣找到對(duì)自己有價(jià)值的信息呢?之前的解決方法是開發(fā)搜索引擎來搜索信息,但是這種手段對(duì)于那些隱藏的、有潛在價(jià)值的信息無能為力,為了彌補(bǔ)這一缺陷,智能推薦引擎應(yīng)運(yùn)而生。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,越來越多的互聯(lián)網(wǎng)公司開始向用戶提供推薦物品的應(yīng)用,人們?cè)跒g覽電子商務(wù)網(wǎng)站時(shí),每當(dāng)點(diǎn)開某個(gè)商品的鏈接,就會(huì)發(fā)現(xiàn)網(wǎng)站同時(shí)會(huì)在醒目的地方標(biāo)示了“您可能還會(huì)感興趣”的若干商品,同樣,在瀏覽像imdb、豆瓣電影等網(wǎng)站時(shí),同樣會(huì)看到“您可能還想看”的若干電影,這就是網(wǎng)站的智能推薦功能。如果向用戶推送的物品恰好符合用戶的喜好,引起了用戶的興趣的話,那么用戶很有可能會(huì)更快捷地找到想購買的物品或是想看的電影,網(wǎng)站的整個(gè)用戶體驗(yàn)和經(jīng)濟(jì)收益就得到了很大提升,此過程中,智能推薦系統(tǒng)起到了很好的“引路”作用。實(shí)現(xiàn)這樣的推薦系統(tǒng)的基本思路就是根據(jù)用戶已經(jīng)表現(xiàn)出的興趣、需求等信息,通過程序建立用戶的偏好模型,并由此得出用戶很有可能會(huì)感興趣的物品。與非常常見的搜索引擎相比,推薦系統(tǒng)給出了個(gè)性化的服務(wù),減少了用戶自己檢索所需物品的麻煩,具有非常廣闊的研究?jī)r(jià)值和發(fā)展前景。本文所要實(shí)現(xiàn)的是目前應(yīng)用最為廣泛的協(xié)同過濾智能推薦算法,所謂協(xié)同過濾,就如同很多人在買東西、看電影時(shí)會(huì)征求朋友、家人的意見一樣,即是在整個(gè)用戶群體中尋找到與目標(biāo)用戶興趣比較相似的若干用戶,或是在整個(gè)商品群體中尋找到比較相似的若干商品,借助它們來給出推薦。本文的推薦系統(tǒng)實(shí)現(xiàn)使用Java語言編程,開發(fā)環(huán)境為集成了開源項(xiàng)目Mahout和Maven的Eclipse,在實(shí)現(xiàn)協(xié)同過濾推薦系統(tǒng)之后,本文對(duì)現(xiàn)有的協(xié)同過濾算法性能進(jìn)行了評(píng)價(jià)和比較,在現(xiàn)有算法基礎(chǔ)上結(jié)合基于內(nèi)容的推薦設(shè)計(jì)了一種新算法I-ST-CF算法,改善了推薦系統(tǒng)的冷啟動(dòng)問題和數(shù)據(jù)稀疏性問題,并用實(shí)驗(yàn)驗(yàn)證新的算法確實(shí)可以提升推薦的性能,最后為了適應(yīng)處理超大數(shù)據(jù)集(Large DataSet)級(jí)別的數(shù)據(jù)要求,基于Linux操作系統(tǒng)和Hadoop實(shí)現(xiàn)了推薦系統(tǒng)的分布式計(jì)算,并且用實(shí)驗(yàn)證明了增加集群中計(jì)算機(jī)的數(shù)目可以加快運(yùn)算速度,提升推薦效率。
【關(guān)鍵詞】:推薦系統(tǒng) 協(xié)同過濾 Mahout Hadoop 分布式計(jì)算
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【目錄】:
- 摘要8-10
- ABSTRACT10-12
- 第一章 緒論12-16
- 1.1 推薦系統(tǒng)簡(jiǎn)介12
- 1.2 智能推薦系統(tǒng)的發(fā)展歷程與現(xiàn)狀12-14
- 1.3 主要?jiǎng)?chuàng)新點(diǎn)和內(nèi)容安排14-16
- 第二章 協(xié)同過濾的基本思想和原理16-26
- 2.1 協(xié)同過濾的基本概念16
- 2.2 協(xié)同過濾的數(shù)學(xué)原理16-25
- 2.2.1 用戶-物品評(píng)分矩陣16-17
- 2.2.2 兩種推薦模式簡(jiǎn)介17-19
- 2.2.3 相似度的計(jì)算19-22
- 2.2.4 獲得鄰居22-24
- 2.2.5 做出推薦24-25
- 2.3 協(xié)同過濾存在的優(yōu)缺點(diǎn)25-26
- 第三章 協(xié)同過濾推薦的程序?qū)崿F(xiàn)26-40
- 3.1 開發(fā)環(huán)境簡(jiǎn)介26
- 3.2 Mahout簡(jiǎn)介26-28
- 3.3 協(xié)同過濾的程序?qū)崿F(xiàn)28-40
- 3.3.1 原始數(shù)據(jù)28-29
- 3.3.2 數(shù)據(jù)結(jié)構(gòu)29-30
- 3.3.3 相似度的計(jì)算30-35
- 3.3.4 做出推薦35-38
- 3.3.5 小結(jié)38-40
- 第四章 推薦算法性能比較40-45
- 4.1 算法評(píng)價(jià)方法40
- 4.2 確定評(píng)價(jià)指標(biāo)40-41
- 4.3 算法性能比較41-45
- 第五章 協(xié)同過濾算法的改進(jìn)45-55
- 5.1 Item的標(biāo)簽相似性分析45-48
- 5.1.1 Item的多標(biāo)簽性45-46
- 5.1.2 標(biāo)簽相似性的計(jì)算46-47
- 5.1.3 Item的標(biāo)簽相似性對(duì)推薦性能提升的分析47-48
- 5.2 I-ST-CF算法設(shè)計(jì)與分析48-50
- 5.2.1 I-ST-CF算法設(shè)計(jì)48-50
- 5.2.2 I-ST-CF算法分析50
- 5.3 實(shí)驗(yàn)驗(yàn)證50-55
- 第六章 基于Hadoop實(shí)現(xiàn)推薦的分布式計(jì)算55-75
- 6.1 Hadoop分布式系統(tǒng)概述55-58
- 6.1.1 實(shí)現(xiàn)分布式計(jì)算的必要性55
- 6.1.2 Hadoop分布式框架的優(yōu)越性55-58
- 6.1.3 Hadoop分布式系統(tǒng)版本概述58
- 6.2 Hadoop分布式系統(tǒng)架構(gòu)詳解58-65
- 6.2.1 HDFS文件系統(tǒng)59-60
- 6.2.2 MapReduce計(jì)算模式60-63
- 6.2.3 Hadoop典型應(yīng)用場(chǎng)景描述63-65
- 6.3 Hadoop實(shí)現(xiàn)分布式的I-ST-CF算法65-69
- 6.4 實(shí)驗(yàn)驗(yàn)證69-75
- 6.4.1 實(shí)驗(yàn)設(shè)計(jì)69-70
- 6.4.2 實(shí)驗(yàn)結(jié)果70-75
- 第七章 總結(jié)與展望75-76
- 參考文獻(xiàn)76-81
- 致謝81-82
- 附件82
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前1條
1 劉建國(guó);周濤;郭強(qiáng);汪秉宏;;個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2009年03期
本文關(guān)鍵詞:協(xié)同過濾推薦算法的改進(jìn)與分布式計(jì)算實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號(hào):326438
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/326438.html
最近更新
教材專著