面向協(xié)同過(guò)濾推薦算法的均模型研究
本文關(guān)鍵詞:面向協(xié)同過(guò)濾推薦算法的均模型研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,近年來(lái)電子商務(wù)得到了迅猛發(fā)展,交易數(shù)據(jù)激劇增加,即使采用目前最有效的Hadoop、Spark等數(shù)據(jù)處理技術(shù)也仍然存在不少問(wèn)題,例如一些在評(píng)測(cè)集上效果好的數(shù)據(jù)挖掘算法,或者難以實(shí)現(xiàn),或者用于真實(shí)交易數(shù)據(jù)難以獲得理想效果。探索面向真實(shí)應(yīng)用的大數(shù)據(jù)處理方法是目前急需解決的課題。本文先對(duì)推薦系統(tǒng)的基本原理做了簡(jiǎn)要介紹,并對(duì)當(dāng)前應(yīng)用最為廣泛的基于項(xiàng)目的協(xié)同過(guò)濾(Item-Based Collaborative Filtering,IBCF)算法作了深入的分析。然后,介紹了均模型對(duì)數(shù)據(jù)壓縮的基本原理,并面向協(xié)同過(guò)濾推薦算法對(duì)均模型進(jìn)行了較為系統(tǒng)的研究。最后,通過(guò)實(shí)驗(yàn)驗(yàn)證了基于均模型的IBCF算法在MapReduce框架下的運(yùn)行效果。具體來(lái)說(shuō),主要完成了如下四方面內(nèi)容:(1)協(xié)同過(guò)濾推薦算法評(píng)測(cè)研究通過(guò)對(duì)協(xié)同過(guò)濾推薦算法的分析,發(fā)現(xiàn)計(jì)算任務(wù)主要集中在項(xiàng)目相似性計(jì)算階段,接著對(duì)各種項(xiàng)目相似性計(jì)算方法進(jìn)行了評(píng)測(cè),同時(shí)指出余弦相似性計(jì)算方法精度最高。而后對(duì)推薦算法的不同評(píng)價(jià)指標(biāo)進(jìn)行了評(píng)測(cè)研究,分析了各個(gè)評(píng)價(jià)指標(biāo)的評(píng)估價(jià)值。(2)均模型及其改進(jìn)研究在本課題組對(duì)均模型的前期研究基礎(chǔ)上,對(duì)均模型的基本原理與性質(zhì)進(jìn)行了分析總結(jié),并指出了原均模型對(duì)數(shù)據(jù)的處理存在分層模糊和信息失真的缺點(diǎn)。針對(duì)以上不足,提出了一種改進(jìn)的均模型。改進(jìn)的均模型在數(shù)據(jù)壓縮過(guò)程中,更好的體現(xiàn)了分層的思想,克服了信息失真問(wèn)題。在應(yīng)用于IBCF算法的實(shí)驗(yàn)當(dāng)中,改進(jìn)的均模型有更理想的效果。(3)均模型的增量擴(kuò)展研究互聯(lián)網(wǎng)中的數(shù)據(jù)每天都在不斷地增長(zhǎng),各類(lèi)數(shù)據(jù)應(yīng)用系統(tǒng)必須不斷融入新增數(shù)據(jù)以保證系統(tǒng)的服務(wù)質(zhì)量。例如推薦系統(tǒng)中每天都會(huì)有大量的新增數(shù)據(jù)產(chǎn)生,推薦系統(tǒng)必須及時(shí)將新增數(shù)據(jù)加入運(yùn)算,從而保證推薦質(zhì)量。本文以IBCF算法為應(yīng)用背景,針對(duì)均模型的增量更新問(wèn)題,提出了一種基于增量均模型的實(shí)現(xiàn)算法(Incremental Mean Model,Incremental MM)。Incremental MM通過(guò)項(xiàng)目評(píng)分預(yù)統(tǒng)計(jì)為各項(xiàng)目建立評(píng)分統(tǒng)計(jì)映射表,較好地支持了均模型的增量轉(zhuǎn)換。在Movie Lens數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,基于Incremental MM的IBCF算法增量更新效率較高,且推薦精度沒(méi)有損失。(4)基于均模型IBCF算法的并行化實(shí)現(xiàn)為評(píng)估均模型在大數(shù)據(jù)處理上的應(yīng)用效果,本文基于MapReduce框架設(shè)計(jì)了基于均模型的IBCF算法,并基于Netflix數(shù)據(jù)集,在Hadoop集群上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,增量均模型能夠在較大規(guī)模的數(shù)據(jù)處理過(guò)程中取得較好的應(yīng)用效果。
【關(guān)鍵詞】:大數(shù)據(jù) 均模型 增量擴(kuò)展 協(xié)同過(guò)濾 MapReduce
【學(xué)位授予單位】:太原理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.3
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-18
- 1.1 研究背景及意義10-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-16
- 1.2.1 協(xié)同過(guò)濾推薦技術(shù)的發(fā)展與研究現(xiàn)狀12-14
- 1.2.2 推薦系統(tǒng)的增量擴(kuò)展研究現(xiàn)狀14-15
- 1.2.3 大數(shù)據(jù)處理技術(shù)的研究進(jìn)展及其在推薦系統(tǒng)的應(yīng)用15-16
- 1.3 課題研究?jī)?nèi)容及論文組織結(jié)構(gòu)16-18
- 1.3.1 課題研究?jī)?nèi)容16-17
- 1.3.2 論文組織結(jié)構(gòu)17-18
- 第二章 推薦系統(tǒng)與相關(guān)技術(shù)研究18-32
- 2.1 推薦系統(tǒng)概述18-20
- 2.1.1 推薦系統(tǒng)的基本理論依據(jù)18
- 2.1.2 推薦系統(tǒng)的原理與架構(gòu)18-19
- 2.1.3 推薦系統(tǒng)的分類(lèi)19-20
- 2.2 協(xié)同過(guò)濾推薦技術(shù)研究20-27
- 2.2.1 協(xié)同過(guò)濾推薦算法20-23
- 2.2.2 IBCF算法23-24
- 2.2.3 項(xiàng)目相似性計(jì)算24-25
- 2.2.4 IBCF算法的評(píng)分預(yù)測(cè)方法研究25-27
- 2.3 IBCF算法評(píng)測(cè)研究27-31
- 2.3.1 預(yù)測(cè)準(zhǔn)確度27-28
- 2.3.2 分類(lèi)準(zhǔn)確度28-30
- 2.3.3 排序準(zhǔn)確度30-31
- 2.3.4 準(zhǔn)確度之外的評(píng)價(jià)指標(biāo)31
- 2.4 本章小結(jié)31-32
- 第三章 均模型及其改進(jìn)研究32-44
- 3.1 均模型的原理與性質(zhì)32-35
- 3.1.1 均模型的基本原理32-35
- 3.1.2 均模型的基本性質(zhì)35
- 3.2 改進(jìn)的均模型算法35-38
- 3.2.1 原始均模型算法存在的問(wèn)題35-37
- 3.2.2 均模型的改進(jìn)策略37-38
- 3.3 實(shí)驗(yàn)與分析38-42
- 3.3.1 實(shí)驗(yàn)38-39
- 3.3.2 實(shí)驗(yàn)分析39-42
- 3.4 本章小結(jié)42-44
- 第四章 均模型的增量擴(kuò)展研究44-52
- 4.1 支持增量的均模型實(shí)現(xiàn)算法44-46
- 4.2 實(shí)驗(yàn)與分析46-51
- 4.2.1 實(shí)驗(yàn)設(shè)計(jì)46-47
- 4.2.2 實(shí)驗(yàn)準(zhǔn)備47-48
- 4.2.3 結(jié)果與分析48-51
- 4.3 本章小結(jié)51-52
- 第五章 均模型的并行化設(shè)計(jì)與實(shí)現(xiàn)52-62
- 5.1 Map Reduce52-53
- 5.2 基于Map Reduce框架的均模型并行化設(shè)計(jì)53-57
- 5.2.1 基于改進(jìn)均模型的IBCF并行化算法53-56
- 5.2.2 增量均模型的并行化方法56-57
- 5.3 實(shí)驗(yàn)與分析57-60
- 5.3.1 實(shí)驗(yàn)環(huán)境簡(jiǎn)介57-58
- 5.3.2 實(shí)驗(yàn)設(shè)計(jì)58-59
- 5.3.3 實(shí)驗(yàn)結(jié)果與分析59-60
- 5.4 基于Spark實(shí)現(xiàn)增量均模型的初步探索60-61
- 5.5 本章小結(jié)61-62
- 第六章 總結(jié)與展望62-64
- 6.1 工作總結(jié)62-63
- 6.2 研究展望63-64
- 參考文獻(xiàn)64-68
- 致謝68-70
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊風(fēng)召;;一種基于特征表的協(xié)同過(guò)濾算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年06期
2 王嵐;翟正軍;;基于時(shí)間加權(quán)的協(xié)同過(guò)濾算法[J];計(jì)算機(jī)應(yīng)用;2007年09期
3 曾子明;張李義;;基于多屬性決策和協(xié)同過(guò)濾的智能導(dǎo)購(gòu)系統(tǒng)[J];武漢大學(xué)學(xué)報(bào)(工學(xué)版);2008年02期
4 張富國(guó);;用戶(hù)多興趣下基于信任的協(xié)同過(guò)濾算法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2008年08期
5 侯翠琴;焦李成;張文革;;一種壓縮稀疏用戶(hù)評(píng)分矩陣的協(xié)同過(guò)濾算法[J];西安電子科技大學(xué)學(xué)報(bào);2009年04期
6 廖新考;;基于用戶(hù)特征和項(xiàng)目屬性的混合協(xié)同過(guò)濾推薦[J];福建電腦;2010年07期
7 沈磊;周一民;李舟軍;;基于心理學(xué)模型的協(xié)同過(guò)濾推薦方法[J];計(jì)算機(jī)工程;2010年20期
8 徐紅;彭黎;郭艾寅;徐云劍;;基于用戶(hù)多興趣的協(xié)同過(guò)濾策略改進(jìn)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年04期
9 焦晨斌;王世卿;;基于模型填充的混合協(xié)同過(guò)濾算法[J];微計(jì)算機(jī)信息;2011年11期
10 鄭婕;鮑海琴;;基于協(xié)同過(guò)濾推薦技術(shù)的個(gè)性化網(wǎng)絡(luò)教學(xué)平臺(tái)研究[J];科技風(fēng);2012年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 沈杰峰;杜亞軍;唐俊;;一種基于項(xiàng)目分類(lèi)的協(xié)同過(guò)濾算法[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
2 周軍鋒;湯顯;郭景峰;;一種優(yōu)化的協(xié)同過(guò)濾推薦算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
3 董全德;;基于雙信息源的協(xié)同過(guò)濾算法研究[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
4 張光衛(wèi);康建初;李鶴松;劉常昱;李德毅;;面向場(chǎng)景的協(xié)同過(guò)濾推薦算法[A];中國(guó)系統(tǒng)仿真學(xué)會(huì)第五次全國(guó)會(huì)員代表大會(huì)暨2006年全國(guó)學(xué)術(shù)年會(huì)論文集[C];2006年
5 李建國(guó);姚良超;湯庸;郭歡;;基于認(rèn)知度的協(xié)同過(guò)濾推薦算法[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
6 王明文;陶紅亮;熊小勇;;雙向聚類(lèi)迭代的協(xié)同過(guò)濾推薦算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 胡必云;李舟軍;王君;;基于心理測(cè)量學(xué)的協(xié)同過(guò)濾相似度方法(英文)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 林麗冰;師瑞峰;周一民;李月雷;;基于雙聚類(lèi)的協(xié)同過(guò)濾推薦算法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 羅喜軍;王韜丞;杜小勇;劉紅巖;何軍;;基于類(lèi)別的推薦——一種解決協(xié)同推薦中冷啟動(dòng)問(wèn)題的方法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
10 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過(guò)濾推薦算法[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集A輯一[C];2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 李聰;電子商務(wù)推薦系統(tǒng)中協(xié)同過(guò)濾瓶頸問(wèn)題研究[D];合肥工業(yè)大學(xué);2009年
2 郭艷紅;推薦系統(tǒng)的協(xié)同過(guò)濾算法與應(yīng)用研究[D];大連理工大學(xué);2008年
3 羅恒;基于協(xié)同過(guò)濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年
4 薛福亮;電子商務(wù)協(xié)同過(guò)濾推薦質(zhì)量影響因素及其改進(jìn)機(jī)制研究[D];天津大學(xué);2012年
5 高e
本文編號(hào):327808
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/327808.html