基于在線視頻用戶數(shù)據(jù)的DMP系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于在線視頻用戶數(shù)據(jù)的DMP系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著個(gè)人電腦和智能手機(jī)的不斷普及,以及網(wǎng)絡(luò)帶寬成本的不斷下降,在線觀看網(wǎng)絡(luò)視頻已經(jīng)成為人們生活中常見的一種娛樂或?qū)W習(xí)方式。國內(nèi)幾個(gè)著名的在線視頻網(wǎng)站每天都會(huì)有億級(jí)的訪問量,因此會(huì)產(chǎn)生大量的用戶數(shù)據(jù)。如何存儲(chǔ)和有效的利用這些數(shù)據(jù),來支持公司的廣告精準(zhǔn)營銷,用戶統(tǒng)計(jì),數(shù)據(jù)挖掘,效果評(píng)估等不同的業(yè)務(wù)場景,是需要解決的問題。針對(duì)此問題,本人所在的實(shí)習(xí)公司優(yōu)酷土豆實(shí)現(xiàn)了一個(gè)DMP系統(tǒng),即數(shù)據(jù)管理平臺(tái)。在技術(shù)選型時(shí),主要考慮以下幾點(diǎn):DMP的原始數(shù)據(jù)量非常大,對(duì)于數(shù)據(jù)處理能力要求高,但是這份數(shù)據(jù)的生成時(shí)效性要求不高。DMP需要有一個(gè)實(shí)時(shí)查詢的接口來滿足外部業(yè)務(wù)要求,對(duì)所生成的結(jié)果數(shù)據(jù)的操作需要有強(qiáng)大的實(shí)時(shí)計(jì)算技術(shù)來支撐。綜合上述兩點(diǎn),我們?cè)诩夹g(shù)上分別采用了MapReduce的框架和SPARK的計(jì)算框架,來實(shí)現(xiàn)離線和實(shí)時(shí)的計(jì)算任務(wù)。在優(yōu)酷土豆工作期間,本人主要參與和完成了DMP系統(tǒng)的需求分析,設(shè)計(jì),開發(fā),測試以及維護(hù)工作。工作內(nèi)容如下:(1)參與并完成了系統(tǒng)的需求分析,包括功能需求與非功能需求。(2)參與并完成了系統(tǒng)的概要設(shè)計(jì),包括系統(tǒng)的總體概要設(shè)計(jì),數(shù)據(jù)預(yù)處理功能、數(shù)據(jù)合并功能、人群篩選與投影功能等功能模塊的概要設(shè)計(jì)。(3)負(fù)責(zé)并完成了系統(tǒng)多個(gè)模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn),包括標(biāo)簽體系的詳細(xì)設(shè)計(jì),日志解析模塊的設(shè)計(jì)與實(shí)現(xiàn),用戶頻道偏好挖掘設(shè)計(jì)與實(shí)現(xiàn),用戶偏好Top20子頻道的設(shè)計(jì)與實(shí)現(xiàn),用戶廣告關(guān)鍵詞偏好的挖掘設(shè)計(jì)與實(shí)現(xiàn),數(shù)據(jù)清洗模塊的設(shè)計(jì)與實(shí)現(xiàn),Hive中UDF函數(shù)的實(shí)現(xiàn),數(shù)據(jù)合并模塊的設(shè)計(jì)與實(shí)現(xiàn),人群篩選管理接口詳細(xì)設(shè)計(jì)與實(shí)現(xiàn),人群投影接口詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)。(4)負(fù)責(zé)并完成了多個(gè)功能模塊的測試用例編寫與實(shí)際功能測試工作。(5)負(fù)責(zé)系統(tǒng)的維護(hù)與更新,包括自動(dòng)化腳本的編寫,以使各分區(qū)數(shù)據(jù)定時(shí)更新。在實(shí)現(xiàn)該項(xiàng)目的過程中,主要用到的技術(shù)為Hadoop 的 MapReduce框架以及Spark Sql,實(shí)現(xiàn)的語言為Java、Hive口shell腳本。使用Git進(jìn)行版本控制,Maven進(jìn)行項(xiàng)目管理。本系統(tǒng)目前已經(jīng)上線,且運(yùn)行穩(wěn)定,公司多個(gè)業(yè)務(wù)場景和廣告產(chǎn)品都已經(jīng)做了對(duì)接,效果反響良好。
【關(guān)鍵詞】:數(shù)據(jù)管理 MapReduce ETL處理 url解析 字符串分詞 偏好挖掘 實(shí)時(shí)計(jì)算接口
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.52
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-15
- 1.1 項(xiàng)目背景及意義12
- 1.2 DMP發(fā)展現(xiàn)狀12-13
- 1.3 本人工作總結(jié)13
- 1.4 論文組織結(jié)構(gòu)13-15
- 2 關(guān)鍵技術(shù)介紹15-21
- 2.1 HDFS功能介紹15-16
- 2.2 Mapreduce框架介紹16-17
- 2.3 Hive功能原理介紹17
- 2.4 Spark功能原理介紹17-20
- 2.5 Git的原理介紹20
- 2.6 Jcseg分詞工具20
- 2.7 本章小結(jié)20-21
- 3 DMP系統(tǒng)的可行性分析與需求分析21-29
- 3.1 系統(tǒng)可行性分析21-22
- 3.1.1 市場可行性分析21
- 3.1.2 技術(shù)可行性分析21-22
- 3.1.3 經(jīng)濟(jì)可行性分析22
- 3.2 系統(tǒng)總體需求概述22-23
- 3.3 系統(tǒng)功能需求分析23-27
- 3.3.1 基礎(chǔ)層模塊功能需求24-25
- 3.3.2 數(shù)據(jù)合并功能需求25
- 3.3.3 人群篩選與投影功能需求25-27
- 3.4 系統(tǒng)非功能需求分析27-28
- 3.4.1 性能需求27
- 3.4.2 可靠性需求27
- 3.4.3 易用性需求27-28
- 3.4.4 可擴(kuò)展性需求28
- 3.5 本章小結(jié)28-29
- 4 系統(tǒng)概要設(shè)計(jì)29-34
- 4.1 系統(tǒng)架構(gòu)設(shè)計(jì)29-33
- 4.1.1 基礎(chǔ)層模塊30-31
- 4.1.2 數(shù)據(jù)合并模塊31-32
- 4.1.3 人群篩選與投影模塊32-33
- 4.2 本章小結(jié)33-34
- 5 系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)34-64
- 5.1 基礎(chǔ)層模塊34-55
- 5.1.1 標(biāo)簽體系設(shè)計(jì)34-36
- 5.1.2 日志解析子模塊設(shè)計(jì)36-40
- 5.1.3 日志解析子模塊的實(shí)現(xiàn)40-42
- 5.1.4 用戶頻道偏好挖掘設(shè)計(jì)42-43
- 5.1.5 用戶頻道偏好挖掘?qū)崿F(xiàn)43-45
- 5.1.6 用戶偏好Top20子頻道挖掘設(shè)計(jì)45
- 5.1.7 用戶偏好Top20子頻道挖掘?qū)崿F(xiàn)45-47
- 5.1.8 用戶廣告關(guān)鍵詞偏好挖掘設(shè)計(jì)47-49
- 5.1.9 用戶廣告關(guān)鍵詞偏好挖掘?qū)崿F(xiàn)49-52
- 5.1.10 Hive中的一個(gè)UDF函數(shù)的實(shí)現(xiàn)52
- 5.1.11 數(shù)據(jù)清洗模塊設(shè)計(jì)52-53
- 5.1.12 數(shù)據(jù)清洗模塊的實(shí)現(xiàn)53-55
- 5.2 數(shù)據(jù)合并模塊55-56
- 5.2.1 數(shù)據(jù)合并模塊的設(shè)計(jì)55
- 5.2.2 數(shù)據(jù)合并模塊的實(shí)現(xiàn)55-56
- 5.3 人群篩選與投影模塊的設(shè)計(jì)與實(shí)現(xiàn)56-63
- 5.3.1 人群篩選管理設(shè)計(jì)56-58
- 5.3.2 人群篩選管理接口層詳細(xì)設(shè)計(jì)58-61
- 5.3.3 人群投影管理設(shè)計(jì)61-62
- 5.3.4 人群投影管理模塊接口詳細(xì)設(shè)計(jì)62-63
- 5.4 本章小結(jié)63-64
- 6 系統(tǒng)的測試與代碼審查64-69
- 6.1 功能測試64-68
- 6.2 code review規(guī)則68
- 6.3 本章小結(jié)68-69
- 7 結(jié)論69-70
- 參考文獻(xiàn)70-72
- 附錄A72-74
- 作者簡歷74-76
- 學(xué)位論文數(shù)據(jù)集76
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁楚;;手機(jī)在線視頻似近實(shí)遠(yuǎn)[J];互聯(lián)網(wǎng)天地;2009年04期
2 王道才;;不用工具 在線視頻輕松拿下[J];電腦愛好者(普及版);2009年04期
3 ;艾瑞咨詢:2012年中國在線視頻行業(yè)六大盤點(diǎn)[J];電視技術(shù);2013年02期
4 鄧祖平;;在線視頻廣告監(jiān)管系統(tǒng)[J];廣播與電視技術(shù);2013年02期
5 丁佳琪;;中國在線視頻行業(yè)發(fā)展分析[J];傳媒;2014年06期
6 南湖秋水;;在線視頻體驗(yàn)影院模式[J];網(wǎng)友世界;2010年10期
7 loading;;從在線視頻用戶中消失[J];電腦迷;2004年10期
8 日出東方;;在線視頻 不能沒有你[J];電腦迷;2006年14期
9 惜朝;;流暢看電影,優(yōu)酷優(yōu)跳不(YouTube)都別卡[J];電腦愛好者;2009年02期
10 Aa醬;;向在線視頻提要求[J];電腦迷;2009年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前1條
1 柴焱;李s
本文編號(hào):429269
本文鏈接:http://sikaile.net/guanlilunwen/xiangmuguanli/429269.html