基于Spark技術(shù)的Hybrid推薦算法的研究與應(yīng)用
發(fā)布時(shí)間:2021-11-12 01:22
互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使得當(dāng)今進(jìn)入大數(shù)據(jù)時(shí)代,爆炸性增長(zhǎng)的數(shù)據(jù)量也使得“信息過載”問題日益嚴(yán)峻,如何快速高效地從過量信息中篩選過濾出有用信息成為當(dāng)前困擾人們的一個(gè)難題,由此,推薦系統(tǒng)應(yīng)運(yùn)而生。傳統(tǒng)推薦系統(tǒng)的工作原理是利用過往數(shù)據(jù)發(fā)現(xiàn)不同用戶的興趣偏好特征,依賴這種功能為用戶進(jìn)行個(gè)性化推薦,但當(dāng)其面臨海量數(shù)據(jù)時(shí),傳統(tǒng)推薦算法需要消耗大量時(shí)間,可能無法滿足用戶需求。在這種形勢(shì)下,分布式Spark技術(shù)的實(shí)現(xiàn)能夠有效地解決這一技術(shù)缺陷。面對(duì)傳統(tǒng)推薦算法在應(yīng)用中暴露出的稀疏性、冷啟動(dòng)、可擴(kuò)展性差等實(shí)際問題,本文在Spark技術(shù)的支撐下,結(jié)合傳統(tǒng)的協(xié)同過濾推薦算法進(jìn)行改進(jìn),并在此基礎(chǔ)上構(gòu)建了一個(gè)Hybrid推薦模型,可應(yīng)用在電影推薦領(lǐng)域,使得推薦效果明顯改善。本文主要研究?jī)?nèi)容如下:(1)簡(jiǎn)述了推薦算法和Spark技術(shù)相關(guān)理論知識(shí),重點(diǎn)分析了協(xié)同過濾推薦算法的分類、推薦原理及其相應(yīng)特性,并闡述了Spark核心技術(shù)及其工作架構(gòu)。(2)基于鄰域的協(xié)同過濾推薦算法的研究與改進(jìn)。針對(duì)相似性計(jì)算只依據(jù)評(píng)分信息的單一性,提出包含用戶特征的局部相似性和全局相似性概念相融合的改進(jìn)相似度模型,對(duì)基于用戶的協(xié)同過濾算法進(jìn)...
【文章來源】:曲阜師范大學(xué)山東省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
推薦系統(tǒng)流程圖
第2章相關(guān)技術(shù)概述7圖2.1推薦系統(tǒng)流程圖推薦算法在推薦系統(tǒng)中扮演著“主角”的形象,是體現(xiàn)推薦特性的主要影響因素。目前使用最普遍的推薦算法可以分為三大類:基于內(nèi)容的推薦、協(xié)同過濾推薦及混合推薦。其中最基礎(chǔ)的是協(xié)同過濾推薦算法,又可分為基于鄰域和模型的協(xié)同過濾推薦,具體分類如圖2.2所示:圖2.2協(xié)同過濾算法分類
第2章相關(guān)技術(shù)概述82.1.2基于內(nèi)容的推薦算法基于內(nèi)容(Content-based,CB)的推薦是一種較早的推薦算法,主要利用用戶過去感興趣的物品來推薦與其類似的物品給用戶。CB推薦能夠依據(jù)物品的內(nèi)容描述將其抽象為不同意義的特征,以此來計(jì)算用戶興趣和物品的相似度,進(jìn)而為用戶進(jìn)行推薦,其詳細(xì)步驟包括三部分:物品屬性表達(dá)、特征學(xué)習(xí)、生成推薦。物品屬性表達(dá)一般選擇空間向量模型來將文本抽象為特征詞,一般選擇TD-IDF[34](TermFrequency-InverseDocumentFrequency)計(jì)算特征的重要程度;特征學(xué)習(xí)中主要采用的學(xué)習(xí)方法包括最近鄰(KNN)算法、決策樹方法、樸素貝葉斯算法等。圖2.3是CB推薦的一個(gè)實(shí)例。圖2.3基于內(nèi)容的推薦算法由于基于內(nèi)容的推薦每個(gè)用戶的屬性都是根據(jù)其自身對(duì)物品的興趣偏好獲取的,從而保證了用戶的獨(dú)立性,避免了其他用戶行為的干擾;同時(shí),基于內(nèi)容的推薦并不涉及評(píng)分信息,數(shù)據(jù)稀疏性不會(huì)對(duì)推薦結(jié)果造成影響;此外若有新的物品加入到推薦系統(tǒng)中即可被立時(shí)推薦,一定程度上解決了冷啟動(dòng)的問題。但基于內(nèi)容的推薦存在特征提取較難的問題,在實(shí)際中抽取的特征只能代表其某些方面,并不能表示全部特征,因此可能會(huì)出現(xiàn)兩個(gè)不同物品所提取出的特征相同的情況而無法進(jìn)行區(qū)分;另一方面,CB算法無法利用潛在的用戶興趣,具有明顯的局限性;CB算法是利用用戶興趣偏好為來實(shí)現(xiàn)的,而新用戶加入系統(tǒng)后,行為偏好是未知的,因此不能為新用戶進(jìn)行準(zhǔn)確推薦。2.1.3協(xié)同過濾推薦算法協(xié)同過濾算法(CollaborativeFilter,CF)起初由Goldberg等人在1992年提出,其推
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)聯(lián)規(guī)則推薦的高效分布式計(jì)算框架[J]. 李昌盛,伍之昂,張璐,曹杰. 計(jì)算機(jī)學(xué)報(bào). 2019(06)
[2]融合社交網(wǎng)絡(luò)的單類個(gè)性化協(xié)同排序算法[J]. 李改,陳強(qiáng),李磊,潘進(jìn)財(cái). 計(jì)算機(jī)科學(xué). 2017(02)
[3]協(xié)同過濾推薦技術(shù)綜述[J]. 冷亞軍,陸青,梁昌勇. 模式識(shí)別與人工智能. 2014(08)
[4]推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J]. 朱郁筱,呂琳媛. 電子科技大學(xué)學(xué)報(bào). 2012(02)
碩士論文
[1]基于長(zhǎng)尾理論的物品協(xié)同過濾推薦算法研究[D]. 袁煦聰.安徽理工大學(xué) 2019
[2]一種新型混合推薦模型的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭正凱.北京郵電大學(xué) 2019
[3]個(gè)性化電影推薦系統(tǒng)的研究與設(shè)計(jì)[D]. 郝亮.電子科技大學(xué) 2019
[4]基于混合協(xié)同過濾的電影推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 汪瑜彬.北京工業(yè)大學(xué) 2016
[5]基于Spark平臺(tái)推薦系統(tǒng)研究[D]. 楊志偉.中國科學(xué)技術(shù)大學(xué) 2015
[6]基于上下文的信息推薦系統(tǒng)研究[D]. 周浩.西安電子科技大學(xué) 2014
[7]HDFS分布式元數(shù)據(jù)管理框架的研究與實(shí)現(xiàn)[D]. 韓詩楠.東北大學(xué) 2011
本文編號(hào):3489924
【文章來源】:曲阜師范大學(xué)山東省
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
推薦系統(tǒng)流程圖
第2章相關(guān)技術(shù)概述7圖2.1推薦系統(tǒng)流程圖推薦算法在推薦系統(tǒng)中扮演著“主角”的形象,是體現(xiàn)推薦特性的主要影響因素。目前使用最普遍的推薦算法可以分為三大類:基于內(nèi)容的推薦、協(xié)同過濾推薦及混合推薦。其中最基礎(chǔ)的是協(xié)同過濾推薦算法,又可分為基于鄰域和模型的協(xié)同過濾推薦,具體分類如圖2.2所示:圖2.2協(xié)同過濾算法分類
第2章相關(guān)技術(shù)概述82.1.2基于內(nèi)容的推薦算法基于內(nèi)容(Content-based,CB)的推薦是一種較早的推薦算法,主要利用用戶過去感興趣的物品來推薦與其類似的物品給用戶。CB推薦能夠依據(jù)物品的內(nèi)容描述將其抽象為不同意義的特征,以此來計(jì)算用戶興趣和物品的相似度,進(jìn)而為用戶進(jìn)行推薦,其詳細(xì)步驟包括三部分:物品屬性表達(dá)、特征學(xué)習(xí)、生成推薦。物品屬性表達(dá)一般選擇空間向量模型來將文本抽象為特征詞,一般選擇TD-IDF[34](TermFrequency-InverseDocumentFrequency)計(jì)算特征的重要程度;特征學(xué)習(xí)中主要采用的學(xué)習(xí)方法包括最近鄰(KNN)算法、決策樹方法、樸素貝葉斯算法等。圖2.3是CB推薦的一個(gè)實(shí)例。圖2.3基于內(nèi)容的推薦算法由于基于內(nèi)容的推薦每個(gè)用戶的屬性都是根據(jù)其自身對(duì)物品的興趣偏好獲取的,從而保證了用戶的獨(dú)立性,避免了其他用戶行為的干擾;同時(shí),基于內(nèi)容的推薦并不涉及評(píng)分信息,數(shù)據(jù)稀疏性不會(huì)對(duì)推薦結(jié)果造成影響;此外若有新的物品加入到推薦系統(tǒng)中即可被立時(shí)推薦,一定程度上解決了冷啟動(dòng)的問題。但基于內(nèi)容的推薦存在特征提取較難的問題,在實(shí)際中抽取的特征只能代表其某些方面,并不能表示全部特征,因此可能會(huì)出現(xiàn)兩個(gè)不同物品所提取出的特征相同的情況而無法進(jìn)行區(qū)分;另一方面,CB算法無法利用潛在的用戶興趣,具有明顯的局限性;CB算法是利用用戶興趣偏好為來實(shí)現(xiàn)的,而新用戶加入系統(tǒng)后,行為偏好是未知的,因此不能為新用戶進(jìn)行準(zhǔn)確推薦。2.1.3協(xié)同過濾推薦算法協(xié)同過濾算法(CollaborativeFilter,CF)起初由Goldberg等人在1992年提出,其推
【參考文獻(xiàn)】:
期刊論文
[1]關(guān)聯(lián)規(guī)則推薦的高效分布式計(jì)算框架[J]. 李昌盛,伍之昂,張璐,曹杰. 計(jì)算機(jī)學(xué)報(bào). 2019(06)
[2]融合社交網(wǎng)絡(luò)的單類個(gè)性化協(xié)同排序算法[J]. 李改,陳強(qiáng),李磊,潘進(jìn)財(cái). 計(jì)算機(jī)科學(xué). 2017(02)
[3]協(xié)同過濾推薦技術(shù)綜述[J]. 冷亞軍,陸青,梁昌勇. 模式識(shí)別與人工智能. 2014(08)
[4]推薦系統(tǒng)評(píng)價(jià)指標(biāo)綜述[J]. 朱郁筱,呂琳媛. 電子科技大學(xué)學(xué)報(bào). 2012(02)
碩士論文
[1]基于長(zhǎng)尾理論的物品協(xié)同過濾推薦算法研究[D]. 袁煦聰.安徽理工大學(xué) 2019
[2]一種新型混合推薦模型的設(shè)計(jì)與實(shí)現(xiàn)[D]. 郭正凱.北京郵電大學(xué) 2019
[3]個(gè)性化電影推薦系統(tǒng)的研究與設(shè)計(jì)[D]. 郝亮.電子科技大學(xué) 2019
[4]基于混合協(xié)同過濾的電影推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 汪瑜彬.北京工業(yè)大學(xué) 2016
[5]基于Spark平臺(tái)推薦系統(tǒng)研究[D]. 楊志偉.中國科學(xué)技術(shù)大學(xué) 2015
[6]基于上下文的信息推薦系統(tǒng)研究[D]. 周浩.西安電子科技大學(xué) 2014
[7]HDFS分布式元數(shù)據(jù)管理框架的研究與實(shí)現(xiàn)[D]. 韓詩楠.東北大學(xué) 2011
本文編號(hào):3489924
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3489924.html
最近更新
教材專著