基于Spark的數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于Spark的數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Android操作系統(tǒng)的快速發(fā)展,以Android智能手機(jī)為陣營的手機(jī)APP呈現(xiàn)出爆發(fā)式的增長,用戶的娛樂時間也從PC端轉(zhuǎn)移到了移動端。用戶每天運(yùn)行APP產(chǎn)生大量的日志文件數(shù)據(jù)成為挖掘用戶興趣愛好的重要數(shù)據(jù)來源,通過用戶的興趣愛好來準(zhǔn)確把握用戶群體,圈定高質(zhì)量的用戶群體,定向投放廣告與內(nèi)容分發(fā),可以提高營銷效益。本文首先介紹了相關(guān)的背景,然后深入介紹數(shù)據(jù)處理領(lǐng)域的相關(guān)技術(shù),包括分布式計(jì)算框架Spark、分布式文件系統(tǒng)HDFS等,同時介紹了用戶畫像系統(tǒng)和推薦系統(tǒng)的相關(guān)算法。最后,基于Spark構(gòu)建了大數(shù)據(jù)管理平臺DMP,使用Spark生態(tài)圈的數(shù)據(jù)處理技術(shù)構(gòu)建高可用的數(shù)據(jù)管理平臺,在此基礎(chǔ)之上進(jìn)行APP的推薦,取得了良好的效果。本論文的主要研究成果包括:(1)針對企業(yè)內(nèi)部運(yùn)營部門的實(shí)際需求,并結(jié)合當(dāng)前大數(shù)據(jù)領(lǐng)域的相關(guān)技術(shù),設(shè)計(jì)了基于Spark集群的數(shù)據(jù)管理平臺總體架構(gòu),以滿足運(yùn)營部門APP內(nèi)容分發(fā)的需求。(2)設(shè)計(jì)數(shù)據(jù)倉庫,使用Spark編程模型實(shí)現(xiàn)數(shù)據(jù)倉庫ETL自動化操作。(3)設(shè)計(jì)用戶畫像系統(tǒng),給每一個用戶都打上詳細(xì)的屬性維度標(biāo)簽和興趣維度標(biāo)簽,并且使用NoSQL數(shù)據(jù)庫存儲標(biāo)簽,構(gòu)建完整的可擴(kuò)展的用戶畫像系統(tǒng)。(4)設(shè)計(jì)推薦系統(tǒng)的引擎。針對用戶的歷史數(shù)據(jù),設(shè)計(jì)使用推薦系統(tǒng)的相關(guān)算法。
【關(guān)鍵詞】:DMP 數(shù)據(jù)管理 用戶畫像 Spark 標(biāo)簽系統(tǒng) APP
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.52
【目錄】:
- 摘要4-5
- Abstract5-11
- 第1章 緒論11-16
- 1.1 課題背景和意義11-12
- 1.2 國內(nèi)外發(fā)展現(xiàn)狀12-14
- 1.2.1 數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀12-13
- 1.2.2 數(shù)據(jù)倉庫發(fā)展現(xiàn)狀13
- 1.2.3 DMP數(shù)據(jù)管理平臺發(fā)展現(xiàn)狀13-14
- 1.3 本文的主要研究內(nèi)容14-15
- 1.4 本文組織結(jié)構(gòu)安排15-16
- 第2章 數(shù)據(jù)處理相關(guān)技術(shù)16-34
- 2.1 Hadoop分布式文件系統(tǒng)16-18
- 2.1.1 HDFS分布式文件系統(tǒng)簡介16-17
- 2.1.2 HDFS分布式文件系統(tǒng)架構(gòu)17-18
- 2.2 Spark分布式計(jì)算框架18-23
- 2.2.1 Spark簡述18-19
- 2.2.2 Spark整體運(yùn)行架構(gòu)19-21
- 2.2.3 Spark上層應(yīng)用框架21-22
- 2.2.4 Spark與MapReduce比較22-23
- 2.3 Hive數(shù)據(jù)倉庫23-24
- 2.4 HBase列式存儲數(shù)據(jù)庫24-27
- 2.4.1 HBase基本架構(gòu)24-25
- 2.4.2 HBase數(shù)據(jù)模型25-27
- 2.4.3 HBase的特點(diǎn)27
- 2.5 用戶畫像系統(tǒng)簡述27-28
- 2.6 推薦系統(tǒng)簡述28-33
- 2.6.1 推薦系統(tǒng)簡介28-29
- 2.6.2 推薦算法29-32
- 2.6.2.1 協(xié)同過濾29-31
- 2.6.2.2 混合推薦系統(tǒng)31-32
- 2.6.3 推薦系統(tǒng)評價(jià)指標(biāo)32-33
- 2.7 本章小結(jié)33-34
- 第3章 基于Spark的數(shù)據(jù)管理平臺設(shè)計(jì)34-60
- 3.1 數(shù)據(jù)管理平臺總體架構(gòu)圖34-37
- 3.2 數(shù)據(jù)倉庫的設(shè)計(jì)37-44
- 3.2.1 原始層數(shù)據(jù)流程設(shè)計(jì)38-41
- 3.2.2 數(shù)據(jù)集描述41
- 3.2.3 數(shù)據(jù)倉庫表設(shè)計(jì)41-43
- 3.2.4 自動上傳文件功能設(shè)計(jì)43
- 3.2.5 IP解析服務(wù)設(shè)計(jì)43-44
- 3.3 用戶畫像系統(tǒng)44-56
- 3.3.1 用戶畫像的詳細(xì)架構(gòu)45-47
- 3.3.2 HBase用戶標(biāo)簽數(shù)據(jù)庫的設(shè)計(jì)47-50
- 3.3.3 標(biāo)簽算法設(shè)計(jì)50-56
- 3.3.3.1 數(shù)據(jù)集描述50-51
- 3.3.3.2 apk相似度算法設(shè)計(jì)51-54
- 3.3.3.3 用戶標(biāo)簽標(biāo)識實(shí)現(xiàn)算法54-56
- 3.4 推薦系統(tǒng)引擎56-59
- 3.5 本章小結(jié)59-60
- 第4章 基于Spark的數(shù)據(jù)管理平臺的實(shí)現(xiàn)60-77
- 4.1 數(shù)據(jù)倉庫的實(shí)現(xiàn)60-64
- 4.1.1 自動上傳工具的實(shí)現(xiàn)60-61
- 4.1.2 IP解析服務(wù)的實(shí)現(xiàn)61-62
- 4.1.2.1 IP解析服務(wù)端提供者的實(shí)現(xiàn)61
- 4.1.2.2 IP解析客戶端消費(fèi)者實(shí)現(xiàn)61-62
- 4.1.3 parquet文件表的實(shí)現(xiàn)62-63
- 4.1.4 SparkSQL數(shù)據(jù)查詢63-64
- 4.1.5 其他語言查詢64
- 4.2 用戶畫像系統(tǒng)的實(shí)現(xiàn)64-72
- 4.2.1 SparkSQL查詢數(shù)據(jù)倉庫64-66
- 4.2.2 用戶標(biāo)簽實(shí)現(xiàn)66-69
- 4.2.2.1 基于編輯距離的APP相似度查找樹算法的實(shí)現(xiàn)67-69
- 4.2.2.2 HBase插入用戶標(biāo)簽的實(shí)現(xiàn)69
- 4.2.3 用戶數(shù)據(jù)可視化實(shí)現(xiàn)69-71
- 4.2.4 用戶畫像擴(kuò)展71-72
- 4.3 推薦系統(tǒng)引擎的實(shí)現(xiàn)72
- 4.4 DMP數(shù)據(jù)管理平臺操作72-76
- 4.5 本章小結(jié)76-77
- 第5章 DMP數(shù)據(jù)管理平臺的部署與測試77-81
- 5.1 實(shí)驗(yàn)環(huán)境的配置與部署77-79
- 5.1.1 硬件部署77
- 5.1.2 軟件部署77-79
- 5.2 系統(tǒng)效果測試79-81
- 第6章 總結(jié)與展望81-83
- 6.1 工作總結(jié)81
- 6.2 下一步工作81-83
- 參考文獻(xiàn)83-87
- 致謝87
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 黃行;;構(gòu)筑歷史數(shù)據(jù)管理平臺[J];金融電子化;2005年05期
2 付強(qiáng);蕭蘊(yùn)詩;;油田數(shù)據(jù)管理平臺的研究與開發(fā)[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
3 吳燕;;統(tǒng)一數(shù)據(jù)管理平臺[J];信息系統(tǒng)工程;2008年02期
4 牟彬;;推進(jìn)銀行數(shù)據(jù)管理平臺系統(tǒng)建設(shè) 為銀行應(yīng)用系統(tǒng)提供基礎(chǔ)支持[J];金融電子化;2005年09期
5 陳德旺;魏天磊;侯贊;;嵌入式數(shù)字軌道地圖數(shù)據(jù)管理平臺的研究與設(shè)計(jì)[J];鐵路計(jì)算機(jī)應(yīng)用;2010年07期
6 孔維生;沈春山;吳仲城;申飛;;穩(wěn)態(tài)強(qiáng)磁場數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年04期
7 董冬;朱成亮;胡瑛;劉曉;李恒;;試驗(yàn)數(shù)據(jù)管理平臺設(shè)計(jì)研究[J];火箭推進(jìn);2014年04期
8 關(guān)穎;陳云鵬;;分析網(wǎng)絡(luò)化環(huán)境監(jiān)測數(shù)據(jù)管理平臺設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2013年13期
9 馮宇;;非結(jié)構(gòu)化數(shù)據(jù)管理平臺研究與建設(shè)[J];電力信息化;2012年02期
10 萬俊;;試驗(yàn)數(shù)據(jù)管理平臺建設(shè)的研究----以飛機(jī)研制單位為例[J];數(shù)字技術(shù)與應(yīng)用;2014年04期
中國重要報(bào)紙全文數(shù)據(jù)庫 前6條
1 李群立 王忠賢;費(fèi)縣地稅局 依托數(shù)據(jù)管理平臺 加強(qiáng)數(shù)據(jù)檢查考核[N];聯(lián)合日報(bào);2009年
2 記者 李建國;內(nèi)蒙古建成統(tǒng)一水資源數(shù)據(jù)管理平臺[N];中國水利報(bào);2014年
3 ;客戶數(shù)據(jù)管理平臺DataMatch發(fā)布[N];計(jì)算機(jī)世界;2008年
4 郭濤;H3C UDM統(tǒng)一數(shù)據(jù)管理平臺[N];中國計(jì)算機(jī)報(bào);2008年
5 本報(bào)記者 鄒大斌;VMware中國研發(fā)進(jìn)入核心領(lǐng)域[N];計(jì)算機(jī)世界;2011年
6 記者 桂雪琴;聯(lián)通信息“孤島” 為精益造船夯實(shí)基礎(chǔ)[N];中國船舶報(bào);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 朱穎;電力系統(tǒng)海量實(shí)時數(shù)據(jù)管理平臺設(shè)計(jì)與實(shí)現(xiàn)[D];華北電力大學(xué);2015年
2 武元平;A大學(xué)主數(shù)據(jù)管理平臺解決方案設(shè)計(jì)[D];內(nèi)蒙古大學(xué);2015年
3 楊楚驊;基于SOA的水利地理信息數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[D];中山大學(xué);2015年
4 劉鵬;基于Spark的數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年
5 謝家旺;基于云計(jì)算的尋暢網(wǎng)數(shù)據(jù)管理平臺開發(fā)[D];復(fù)旦大學(xué);2010年
6 奈存劍;虛擬化數(shù)據(jù)管理平臺研究[D];華中科技大學(xué);2013年
7 張宇波;上?諝赓|(zhì)量自動監(jiān)測數(shù)據(jù)管理平臺設(shè)計(jì)與開發(fā)[D];復(fù)旦大學(xué);2012年
8 石路遙;廣告投放數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2015年
9 李勇;主數(shù)據(jù)管理平臺在國藥集團(tuán)系統(tǒng)整合中應(yīng)用研究[D];電子科技大學(xué);2012年
10 王凱;面向SLA的網(wǎng)絡(luò)運(yùn)行監(jiān)測系統(tǒng)[D];電子科技大學(xué);2008年
本文關(guān)鍵詞:基于Spark的數(shù)據(jù)管理平臺的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
,本文編號:389499
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/389499.html