天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Spark的實(shí)時(shí)推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-04-02 21:57
  隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)所承載的數(shù)據(jù)信息也在爆炸式增長(zhǎng)。在面對(duì)這些海量信息時(shí),人們往往很難找到自己想要的,感興趣的內(nèi)容,為了解決這個(gè)問(wèn)題從而誕生了搜索引擎,那些目的很明確的用戶可以根據(jù)關(guān)鍵字搜索來(lái)快速,準(zhǔn)確的找到自己想要的內(nèi)容。然而在實(shí)際的日常生活中,很多用戶的需求是模糊的,潛在的,為了挖掘出這些用戶的潛在興趣從而又誕生了推薦系統(tǒng)。推薦系統(tǒng)是一種解決信息過(guò)載的工具,能夠幫助用戶發(fā)現(xiàn)自己可能感興趣的信息,使用戶尋找感興趣內(nèi)容所花費(fèi)的時(shí)間大大減少,從而增加網(wǎng)站的用戶黏性。決定推薦系統(tǒng)性能的關(guān)鍵是系統(tǒng)架構(gòu)設(shè)計(jì)和推薦算法這兩個(gè)方面。傳統(tǒng)基于離線批計(jì)算平臺(tái)Hadoop的推薦系統(tǒng),雖然可以通過(guò)對(duì)海量數(shù)據(jù)的計(jì)算獲得較為準(zhǔn)確的推薦,但其計(jì)算時(shí)間較長(zhǎng),無(wú)法滿足推薦的實(shí)時(shí)性需求,而目前基于Lambda架構(gòu)構(gòu)建的實(shí)時(shí)推薦系統(tǒng),采用離線批處理層和在線實(shí)時(shí)層結(jié)合的策略,雖然具有計(jì)算準(zhǔn)確以及高容錯(cuò)等優(yōu)點(diǎn),但也存在結(jié)果匯總困難,系統(tǒng)復(fù)雜,維護(hù)困難等問(wèn)題,且推薦的結(jié)果依賴離線層,如果短時(shí)間用戶行為發(fā)生較大變化則會(huì)發(fā)生離線層的結(jié)果滯后現(xiàn)象,導(dǎo)致推薦不能及時(shí)反映用戶的興趣變化。在推薦算法方面,目前常用的推薦算法如協(xié)同過(guò)... 

【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:59 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Spark的實(shí)時(shí)推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)


Spark生態(tài)環(huán)境相比于Hadoop,Storm等大數(shù)據(jù)處理框架Spark具有如下特點(diǎn):

架構(gòu)圖,機(jī)器學(xué)習(xí)算法,組件,實(shí)時(shí)數(shù)據(jù)


的執(zhí)行并創(chuàng)建SparkContext對(duì)象,SparkContext負(fù)責(zé)與ClusterManager通信,進(jìn)行資源申請(qǐng)、任務(wù)的分配和監(jiān)控等。Worker節(jié)點(diǎn)是運(yùn)行作業(yè)任務(wù)的工作節(jié)點(diǎn),它負(fù)責(zé)接收主節(jié)點(diǎn)命令與進(jìn)行狀態(tài)匯報(bào),并創(chuàng)建Executor并行處理計(jì)算任務(wù)。在執(zhí)行階段,SparkContext會(huì)將任務(wù)和任務(wù)所依賴的file和jar序列化后傳遞給對(duì)應(yīng)的Worker機(jī)器,同時(shí)Executor對(duì)相應(yīng)數(shù)據(jù)分區(qū)的任務(wù)進(jìn)行處理。Spark有三種集群部署模式,對(duì)應(yīng)三種ClusterManager(集群資源管理器),分別是Standalone獨(dú)立集群,Mesos和yarn,這使得Spark更加通用,能運(yùn)行在各種集群模式之上。圖2-2Spark運(yùn)行架構(gòu)圖Spark的重要優(yōu)勢(shì)在于它為大數(shù)據(jù)分析提供了統(tǒng)一的解決方案。如圖2-1所示,位于底層的是SparkCore,它實(shí)現(xiàn)了Spark的作業(yè)調(diào)度、內(nèi)存管理、容錯(cuò)、與存儲(chǔ)系統(tǒng)交互等基本功能,并針對(duì)彈性分布式數(shù)據(jù)集提供了豐富的操作。在SparkCore的基礎(chǔ)上,Spark提供了一系列面向不同應(yīng)用需求的組件,主要有用于結(jié)構(gòu)化數(shù)據(jù)操作的SparkSQL、用于實(shí)時(shí)數(shù)據(jù)流計(jì)算的SparkStreaming、機(jī)器學(xué)習(xí)算法庫(kù)MLlib以及面向圖計(jì)算提供的算法庫(kù)GraphX。這些用于不同場(chǎng)景的Spark組件都可以在同一個(gè)應(yīng)用中無(wú)縫使用,無(wú)需進(jìn)行復(fù)雜煩瑣的學(xué)習(xí)、部署、維護(hù)和測(cè)試等一系列工作,用戶只要搭建好Spark平臺(tái)便可以直接使用這些組件,從而節(jié)省了大量的系統(tǒng)開(kāi)發(fā)與運(yùn)維成本。本文的推薦系統(tǒng)中主要用到的是流處理組件SparkStreaming以及機(jī)器學(xué)習(xí)算法庫(kù)MLlib。SparkStreaming是Spark平臺(tái)上針對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件,提供了豐富的處理數(shù)據(jù)流的API。SparkStreaming能夠從不同的數(shù)據(jù)源獲取數(shù)據(jù),如Kafka,F(xiàn)lume或者TCPsockets等,并且能夠用復(fù)雜的算法來(lái)對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,處理后的結(jié)果能夠被存儲(chǔ)到文件,數(shù)據(jù)庫(kù)等外部存儲(chǔ)設(shè)備中。SparkStreaming支持與

處理流程圖,數(shù)據(jù)流,處理流程


東南大學(xué)碩士學(xué)位論文8圖2-3SparkStreaming微批次數(shù)據(jù)流處理流程SparkStreaiming會(huì)將微批次數(shù)據(jù)流抽象化成了離散數(shù)據(jù)流DStream(discretizedstream),它是SparkSteaming的核心概念,它既可以代表連續(xù)不斷的輸入數(shù)據(jù)流,也可以代表數(shù)據(jù)處理之后的結(jié)果數(shù)據(jù)流。SparkStreaming在處理流數(shù)據(jù)時(shí),會(huì)按照時(shí)間間隔,將數(shù)據(jù)流劃分成一個(gè)個(gè)批次的數(shù)據(jù)集,即一個(gè)個(gè)DStream,每個(gè)DStream又由一系列的RDD組成,每個(gè)RDD都包含數(shù)據(jù)流中來(lái)自特定間隔的數(shù)據(jù),任何對(duì)DStream的操作都會(huì)轉(zhuǎn)變成對(duì)底層RDD的操作。這些操作都是由Spark引擎來(lái)完成,并且隱藏了大部分的實(shí)現(xiàn)細(xì)節(jié),只對(duì)開(kāi)發(fā)者提供簡(jiǎn)單易用的高層API,這使得使用SparkStreaming來(lái)構(gòu)建流數(shù)據(jù)應(yīng)用程序變得十分簡(jiǎn)單易用。SparkMLlIb是Spark所提供的的機(jī)器學(xué)習(xí)庫(kù),目的是使得在Spark中使用機(jī)器學(xué)習(xí)時(shí)更簡(jiǎn)單,更易于擴(kuò)展。SparkMLlib目前已經(jīng)包含了一些通用的學(xué)習(xí)算法和工具,如:分類(lèi)、回歸、聚類(lèi)、協(xié)同過(guò)濾、降維以及底層的優(yōu)化原語(yǔ)等算法和工具。機(jī)器學(xué)習(xí)算法一般都有很多個(gè)步驟迭代計(jì)算的過(guò)程,需要在多次迭代后獲得足夠小的誤差或者足夠收斂才會(huì)停止,迭代時(shí)如果使用Hadoop的MapReduce計(jì)算框架,每次計(jì)算都要讀/寫(xiě)磁盤(pán)以及任務(wù)的啟動(dòng)等工作,這會(huì)導(dǎo)致非常大的I/O和CPU消耗。而Spark基于內(nèi)存的計(jì)算模型則擅長(zhǎng)迭代計(jì)算,多個(gè)步驟計(jì)算直接在內(nèi)存中完成,只有在必要時(shí)才會(huì)操作磁盤(pán)和網(wǎng)絡(luò)。在Spark官方首頁(yè)中展示了LogisticRegression算法在Spark和Hadoop中運(yùn)行的性能比較,在LogisticRegression的運(yùn)算場(chǎng)景下,Spark比Hadoop快了100多倍。目前SparkMLlib還在處于不斷的更新中,相信未來(lái)在Spark上構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用會(huì)變得更加快速簡(jiǎn)潔2.2消息隊(duì)列KafkaKafka是一個(gè)分布式消息隊(duì)列系統(tǒng)[28],在架構(gòu)設(shè)計(jì)中?

【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的旅游景點(diǎn)推薦的算法實(shí)現(xiàn)與應(yīng)用[J]. 馬騰騰,朱慶華,曹菡,沈超.  計(jì)算機(jī)技術(shù)與發(fā)展. 2016(03)
[2]Big data: the driver for innovation in databases[J]. Bin Cui,Hong Mei,Beng Chin Ooi.  National Science Review. 2014(01)
[3]基于Hadoop的電子商務(wù)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 李文海,許舒人.  計(jì)算機(jī)工程與設(shè)計(jì). 2014(01)
[4]大數(shù)據(jù)研究綜述[J]. 陶雪嬌,胡曉峰,劉洋.  系統(tǒng)仿真學(xué)報(bào). 2013(S1)
[5]大數(shù)據(jù)研究[J]. 嚴(yán)霄鳳,張德馨.  計(jì)算機(jī)技術(shù)與發(fā)展. 2013(04)
[6]基于Hadoop/Hive的web日志分析系統(tǒng)的設(shè)計(jì)[J]. 劉永增,張曉景,李先毅.  廣西大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(S1)
[7]一種基于加權(quán)歐氏距離聚類(lèi)方法的研究[J]. 孟海東,張玉英,宋飛燕.  計(jì)算機(jī)應(yīng)用. 2006(S2)
[8]電子商務(wù)系統(tǒng)中的信息推薦方法研究[J]. 劉瑋.  情報(bào)科學(xué). 2006(02)
[9]基于余弦相似度的文本空間索引方法研究[J]. 張振亞,王進(jìn),程紅梅,王煦法.  計(jì)算機(jī)科學(xué). 2005(09)
[10]Internet個(gè)性化信息服務(wù)研究綜述[J]. 李勇,徐振寧,張維明.  計(jì)算機(jī)工程與應(yīng)用. 2002(19)

博士論文
[1]協(xié)同過(guò)濾系統(tǒng)的稀疏性與冷啟動(dòng)問(wèn)題研究[D]. 孫小華.浙江大學(xué) 2005



本文編號(hào):3116033

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3116033.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶67863***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
在线观看国产午夜福利| 日韩精品亚洲精品国产精品| 国产精品超碰在线观看| 能在线看的视频你懂的| 偷拍美女洗澡免费视频| 日本女人亚洲国产性高潮视频| 国产国产精品精品在线| 亚洲国产性感美女视频| 蜜桃传媒在线正在播放| 加勒比系列一区二区在线观看| 五月天丁香亚洲综合网| 亚洲男人天堂成人在线视频| 麻豆欧美精品国产综合久久| 在线免费观看黄色美女| 精品国产亚洲区久久露脸| 99少妇偷拍视频在线| 日韩毛片视频免费观看| 日韩精品综合免费视频| 国产精品内射婷婷一级二级| 国产免费成人激情视频| 很黄很污在线免费观看| 亚洲欧美天堂精品在线| 欧美一区二区三区不卡高清视| 人妻乱近亲奸中文字幕| 99一级特黄色性生活片| 中文字幕在线区中文色| 91一区国产中文字幕| 日本婷婷色大香蕉视频在线观看| 精品国产av一区二区三区不卡蜜 | 国产精品国产亚洲区久久| 日韩一区中文免费视频| 国产精品香蕉一级免费| 欧美丰满人妻少妇精品| 久久热这里只有精品视频| 国产一区二区不卡在线播放| 亚洲国产综合久久天堂| 91午夜少妇极品福利| 国产性情片一区二区三区| 欧美激情区一区二区三区| 欧美一级日韩中文字幕| 亚洲a码一区二区三区|