基于分布式的個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-01-24 00:42
隨著移動(dòng)互聯(lián)網(wǎng)信息的爆炸式增長(zhǎng)和機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步,依托大數(shù)據(jù)的推薦應(yīng)用的使用越來越廣泛。然而大多數(shù)推薦應(yīng)用的信息來源都只限于應(yīng)用開發(fā)者設(shè)定的信息源,用戶并不能對(duì)信息源進(jìn)行選擇,限制了信息內(nèi)容的多樣性。本文系統(tǒng)支持用戶定制感興趣的信息源,用戶能更容易、更快速地獲取感興趣的信息。同時(shí),系統(tǒng)還為用戶提供基于大數(shù)據(jù)的實(shí)時(shí)熱點(diǎn)詞云顯示、信息搜索和個(gè)性化推薦服務(wù),使得用戶獲取感興趣信息的難度進(jìn)一步降低。論文主要基于目前流行的大數(shù)據(jù)技術(shù),使用Spark大數(shù)據(jù)計(jì)算框架來分析和計(jì)算從網(wǎng)絡(luò)獲取的信息數(shù)據(jù),構(gòu)建用戶行為日志采集和分析系統(tǒng),對(duì)用戶行為建模。根據(jù)信息建模數(shù)據(jù)和用戶行為建模數(shù)據(jù)來做個(gè)性化推薦。該項(xiàng)目集成了各種技術(shù),系統(tǒng)個(gè)性化的為用戶提供了信息分類瀏覽、信息搜索、信息個(gè)性化推薦服務(wù)。信息分類瀏覽通過使用Scrapy-Redis分布式爬蟲來獲取Internet上的信息數(shù)據(jù)。將數(shù)據(jù)組織成結(jié)構(gòu)化信息并寫入HBase數(shù)據(jù)庫以創(chuàng)建信息源庫。使用TF-IDF算法提取出信息主題詞并結(jié)合WordCould生成實(shí)時(shí)熱點(diǎn)詞云。信息搜索基于分布式搜索引擎Elasticsearch,根據(jù)用戶的信息獲取需求設(shè)計(jì)搜索接口...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Scrapy-Redis數(shù)據(jù)示意圖
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文務(wù)器會(huì)有更快的響應(yīng)速度。Nginx 的高可靠性是我們選擇它的基礎(chǔ),因?yàn)榧艽a的優(yōu)秀設(shè)計(jì),在工作進(jìn)程出錯(cuò)時(shí)管理進(jìn)程可以快速開啟新的工作子服務(wù)。管理進(jìn)程與工作進(jìn)程互不依賴,使得 Nginx 具有熱部署功能,即系不間斷服務(wù)的情況下,升級(jí)可執(zhí)行文件和更新配置文件等。如圖 3-8 為統(tǒng)服務(wù)器 Hadoop01 上的具體配置。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文本文的 Logstash 配置如圖 3-9 所示。圖中配置文件的 input 部分定義了 Logstash的日志數(shù)據(jù)來源。Logstash 后臺(tái)會(huì)開啟一個(gè)進(jìn)程,監(jiān)聽 path 路徑下本地文件的數(shù)據(jù)。discover_interval 表示每 5 秒檢測(cè)一次本地文件。start_position 為 beginning 表示從本地文件的頭開始輸入。
【參考文獻(xiàn)】:
期刊論文
[1]推薦系統(tǒng)架構(gòu)設(shè)計(jì)研究[J]. 王慶福. 信息通信. 2016(07)
[2]引入時(shí)間衰減項(xiàng)的興趣點(diǎn)推薦算法[J]. 常曉雨,余正生. 杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[3]組推薦系統(tǒng)及其應(yīng)用研究[J]. 張玉潔,杜雨露,孟祥武. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[4]推薦引擎原理及發(fā)展綜述[J]. 劉楊,楊明川. 電信技術(shù). 2015(06)
[5]移動(dòng)互聯(lián)網(wǎng)時(shí)代傳統(tǒng)媒體的傳播策略——基于“今日頭條”的思考[J]. 申亞美. 新聞世界. 2015(02)
[6]移動(dòng)互聯(lián)網(wǎng)研究綜述[J]. 吳吉義,李文娟,黃劍平,章劍林,陳德人. 中國科學(xué):信息科學(xué). 2015(01)
[7]淺談中文切詞算法[J]. 黎佳. 軟件. 2013(07)
[8]國內(nèi)用戶興趣建模研究進(jìn)展[J]. 孫雨生,劉偉,仇蓉蓉,黃傳慧. 情報(bào)雜志. 2013(05)
[9]移動(dòng)推薦系統(tǒng)及其應(yīng)用[J]. 孟祥武,胡勛,王立才,張玉潔. 軟件學(xué)報(bào). 2013(01)
[10]個(gè)性化推薦系統(tǒng)綜述[J]. 王國霞,劉賀平. 計(jì)算機(jī)工程與應(yīng)用. 2012(07)
博士論文
[1]協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D]. 孫小華.浙江大學(xué) 2005
本文編號(hào):3605485
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Scrapy-Redis數(shù)據(jù)示意圖
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文務(wù)器會(huì)有更快的響應(yīng)速度。Nginx 的高可靠性是我們選擇它的基礎(chǔ),因?yàn)榧艽a的優(yōu)秀設(shè)計(jì),在工作進(jìn)程出錯(cuò)時(shí)管理進(jìn)程可以快速開啟新的工作子服務(wù)。管理進(jìn)程與工作進(jìn)程互不依賴,使得 Nginx 具有熱部署功能,即系不間斷服務(wù)的情況下,升級(jí)可執(zhí)行文件和更新配置文件等。如圖 3-8 為統(tǒng)服務(wù)器 Hadoop01 上的具體配置。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文本文的 Logstash 配置如圖 3-9 所示。圖中配置文件的 input 部分定義了 Logstash的日志數(shù)據(jù)來源。Logstash 后臺(tái)會(huì)開啟一個(gè)進(jìn)程,監(jiān)聽 path 路徑下本地文件的數(shù)據(jù)。discover_interval 表示每 5 秒檢測(cè)一次本地文件。start_position 為 beginning 表示從本地文件的頭開始輸入。
【參考文獻(xiàn)】:
期刊論文
[1]推薦系統(tǒng)架構(gòu)設(shè)計(jì)研究[J]. 王慶福. 信息通信. 2016(07)
[2]引入時(shí)間衰減項(xiàng)的興趣點(diǎn)推薦算法[J]. 常曉雨,余正生. 杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(03)
[3]組推薦系統(tǒng)及其應(yīng)用研究[J]. 張玉潔,杜雨露,孟祥武. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[4]推薦引擎原理及發(fā)展綜述[J]. 劉楊,楊明川. 電信技術(shù). 2015(06)
[5]移動(dòng)互聯(lián)網(wǎng)時(shí)代傳統(tǒng)媒體的傳播策略——基于“今日頭條”的思考[J]. 申亞美. 新聞世界. 2015(02)
[6]移動(dòng)互聯(lián)網(wǎng)研究綜述[J]. 吳吉義,李文娟,黃劍平,章劍林,陳德人. 中國科學(xué):信息科學(xué). 2015(01)
[7]淺談中文切詞算法[J]. 黎佳. 軟件. 2013(07)
[8]國內(nèi)用戶興趣建模研究進(jìn)展[J]. 孫雨生,劉偉,仇蓉蓉,黃傳慧. 情報(bào)雜志. 2013(05)
[9]移動(dòng)推薦系統(tǒng)及其應(yīng)用[J]. 孟祥武,胡勛,王立才,張玉潔. 軟件學(xué)報(bào). 2013(01)
[10]個(gè)性化推薦系統(tǒng)綜述[J]. 王國霞,劉賀平. 計(jì)算機(jī)工程與應(yīng)用. 2012(07)
博士論文
[1]協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D]. 孫小華.浙江大學(xué) 2005
本文編號(hào):3605485
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3605485.html
最近更新
教材專著