基于大數(shù)據(jù)技術(shù)的手機(jī)應(yīng)用推薦系統(tǒng)的設(shè)計與實(shí)現(xiàn)
【圖文】:
Hadoop 分布式系統(tǒng)是由 Apache 基金開發(fā)的、開源的、用于處理海量數(shù)據(jù)平臺。Hadoop 可以讓用戶在不需要了解系統(tǒng)底層細(xì)節(jié)的基礎(chǔ)上,開大數(shù)據(jù)的程序。Hadoop 由兩個核心設(shè)計:HDFS 和 MapReduce。HDop 的分布式文件系統(tǒng),它的一大特點(diǎn)是有著非常高的容錯能力,這樣購買昂貴的具有容錯能力的硬件設(shè)備,而可以直接構(gòu)建在大量的廉價上,而集群的處理能力能夠通過增加服務(wù)器數(shù)量的方式線性提Reduce 是一個大數(shù)據(jù)的計算模型,為大數(shù)據(jù)計算提供解決方案。1 HDFS 的系統(tǒng)架構(gòu)HDFS 的體系結(jié)構(gòu)由主/從(Mater/Slave)的結(jié)構(gòu)組成,用戶看起來是透傳統(tǒng)文件系統(tǒng),通過文件的路徑執(zhí)行增刪改查的操作。HDFS 集群是分擁有一個 NameNode[28]節(jié)點(diǎn)和若干個 DataNode 節(jié)點(diǎn)。NameNode 是系節(jié)點(diǎn),掌管著系統(tǒng)的命名空間和客戶端對文件的訪問。DataNode 是存節(jié)點(diǎn)。客戶端通過二者交互的方式訪問 HDFS。客戶端首先訪問 Nam文件的元數(shù)據(jù)找到數(shù)據(jù)的位置,然后再訪問 DataNode 進(jìn)行真正文件的S 基本架構(gòu)圖如圖 2-1 所示:
圖 2-2 Spark 生態(tài)系統(tǒng)) Spark SQL。Spark SQL 提供一種類 SQL 的方式查詢存儲在數(shù)據(jù)例如在 Hive 數(shù)據(jù)倉庫中的數(shù)據(jù)。Spark SQL 的特點(diǎn)之一是將表中轉(zhuǎn)化為 RDD,使用類 SQL 語法和處理 RDD 的方式進(jìn)行數(shù)據(jù)處理park SQL 引入了新 RDD 類型 SchemaRDD,SchemaRDD 與傳統(tǒng)數(shù)義類似,定義了列字段,以結(jié)構(gòu)化的方式讀入數(shù)據(jù)。SchemaRDD多種,可以從數(shù)據(jù)庫中讀取,從其他 RDD 中轉(zhuǎn)換,還可以從別的后轉(zhuǎn)化。) Spark Streaming。Spark Streaming 是一個流式處理系統(tǒng),主要用據(jù)。它的原理是將大量流式數(shù)據(jù)按照固定時間塊的方式劃分成為批處理作業(yè)。在讀入每段數(shù)據(jù)以后,都轉(zhuǎn)換成 RDD。然后通用 n 操作對 RDD 根據(jù)業(yè)務(wù)邏輯進(jìn)行統(tǒng)一處理,最后將結(jié)果輸出或者設(shè)備上。) MLlib。MLlib 是 Spark 的一個機(jī)器學(xué)習(xí)包。里面實(shí)現(xiàn)了很多常用數(shù)據(jù)挖掘算法,方便程序開發(fā)者直接使用。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王成;朱志剛;張玉俠;蘇芳芳;;基于用戶的協(xié)同過濾算法的推薦效率和個性化改進(jìn)[J];小型微型計算機(jī)系統(tǒng);2016年03期
2 武常岐;張竹;;中國移動互聯(lián)網(wǎng)市場結(jié)構(gòu)現(xiàn)狀與發(fā)展態(tài)勢分析[J];管理現(xiàn)代化;2015年05期
3 范永全;杜亞軍;;基于加權(quán)相似度的用戶協(xié)同過濾方法[J];計算機(jī)工程與應(yīng)用;2016年22期
4 李俊麗;;基于Linux的python多線程爬蟲程序設(shè)計[J];計算機(jī)與數(shù)字工程;2015年05期
5 楊瀟亮;;基于安卓操作系統(tǒng)的應(yīng)用軟件開發(fā)[J];電子制作;2014年19期
6 孫大為;張廣艷;鄭緯民;;大數(shù)據(jù)流式計算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J];軟件學(xué)報;2014年04期
7 邱勝海;高成沖;王云霞;陸云;王志亮;馬銀忠;;大數(shù)據(jù)時代非關(guān)系型數(shù)據(jù)庫教學(xué)與實(shí)驗(yàn)改革探索[J];電腦知識與技術(shù);2013年31期
8 蔡孟松;李學(xué)明;尹衍騰;;基于社交用戶標(biāo)簽的混合top-N推薦方法[J];計算機(jī)應(yīng)用研究;2013年05期
9 謝華成;陳向東;;面向云存儲的非結(jié)構(gòu)化數(shù)據(jù)存取[J];計算機(jī)應(yīng)用;2012年07期
10 朱郁筱;呂琳媛;;推薦系統(tǒng)評價指標(biāo)綜述[J];電子科技大學(xué)學(xué)報;2012年02期
相關(guān)碩士學(xué)位論文 前4條
1 張賢德;基于Spark平臺的實(shí)時流計算推薦系統(tǒng)的研究與實(shí)現(xiàn)[D];江蘇大學(xué);2016年
2 劉鵬;基于Spark的數(shù)據(jù)管理平臺的設(shè)計與實(shí)現(xiàn)[D];浙江大學(xué);2016年
3 李浩威;基于云計算和BP神經(jīng)網(wǎng)絡(luò)的短期電價預(yù)測研究[D];華北電力大學(xué);2015年
4 丁曉雯;CRM系統(tǒng)中銷售過程管理子系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
,本文編號:2526932
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2526932.html