基于Hadoop的精細(xì)化分析及其應(yīng)用
發(fā)布時間:2017-06-06 16:10
本文關(guān)鍵詞:基于Hadoop的精細(xì)化分析及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,互聯(lián)網(wǎng)已經(jīng)逐步取代傳統(tǒng)的傳播媒體,如報紙、期刊等,成為全球最大的傳播媒體。隨著互聯(lián)網(wǎng)類傳播媒體的發(fā)展,廣告展現(xiàn)與點(diǎn)擊逐漸成為各種有趣的Web網(wǎng)站與應(yīng)用的主要收入來源。且從容量方面來說,相比任何一種傳統(tǒng)傳播媒體,互聯(lián)網(wǎng)可以為人們提供取之不盡、用之不竭的 page‖,因此Web廣告越來越被網(wǎng)站主和廣告主關(guān)注。Web廣告與傳統(tǒng)的廣告展示不同,在Web上可以定制展示廣告,而硬煤介則不可以。Web上可以利用用戶的信息來確定應(yīng)該對哪些用戶顯示哪些廣告,而不管他們在瀏覽哪個網(wǎng)頁。在如今廣告產(chǎn)業(yè)發(fā)展顯示廣告主在web網(wǎng)站從購買廣告位逐漸轉(zhuǎn)變?yōu)橘徺I廣告人群,所以精細(xì)化分析用戶所屬廣告人群是眾多廣告產(chǎn)業(yè)企業(yè)面臨的一大機(jī)遇也是挑戰(zhàn)。然而,在如今互聯(lián)網(wǎng)擁有數(shù)以億計網(wǎng)民用戶每天產(chǎn)生TB級甚至是PB級的海量行為數(shù)據(jù),以及眾多的廣告主的廣告投放需求,使用傳統(tǒng)的單臺主機(jī)對用戶與廣告進(jìn)行存儲匹配和分析已經(jīng)無法滿足對這樣的極大規(guī)模數(shù)據(jù)進(jìn)行快速處理的需求。因此采用分布式存儲和計算成為了必然的發(fā)展方向。此外,Hadoop是一個以HDFS分布式文件系統(tǒng)和MapReduce分布式計算框架為核心的,具有高可靠性、高擴(kuò)展性、高效性、高容錯性的,適用于大規(guī)模數(shù)據(jù)集分析處理的分布式計算平臺。由于優(yōu)勢突出,基于Hadoop的應(yīng)用已經(jīng)在互聯(lián)網(wǎng)領(lǐng)域遍地開花,如網(wǎng)絡(luò)日志分析、搜索引擎、數(shù)據(jù)挖掘等,并且取得了非常突出的成績;谏鲜霰尘,本論文提出基于Hadoop分布式平臺的核心技術(shù)以及數(shù)據(jù)挖掘聚類分析算法——CURE算法,研究設(shè)計并實現(xiàn)出準(zhǔn)確、高效地根據(jù)網(wǎng)絡(luò)用戶的瀏覽廣告行為、點(diǎn)擊廣告行為、下載廣告行為、和轉(zhuǎn)發(fā)廣告行為四個方面來精細(xì)化分析與計算用戶所屬的廣告人群。充分利用了Map-Reduce在處理海量數(shù)據(jù)方面的優(yōu)勢,且將海量數(shù)據(jù)存儲在適用于集群計算的大規(guī)模分布式文件系統(tǒng)HDFS中。
【關(guān)鍵詞】:人群精細(xì)化分析 Hadoop HDFS Map Reduce CURE聚類分析算法
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 第一章 緒論9-12
- 1.1 課題研究背景及意義9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.3 本論文主要內(nèi)容10
- 1.4 論文架構(gòu)10-12
- 第二章 系統(tǒng)相關(guān)技術(shù)12-22
- 2.1 Hadoop基礎(chǔ)架構(gòu)12-13
- 2.2 HDFS分布式文件系統(tǒng)13-15
- 2.3 Map-Reduce計算模式15-20
- 2.4 CURE聚類算法20-21
- 2.5 本章小結(jié)21-22
- 第三章 網(wǎng)絡(luò)廣告受眾人群分類分析系統(tǒng)的設(shè)計22-30
- 3.1 需求分析22-27
- 3.1.1 需求和設(shè)計目標(biāo)23-24
- 3.1.2 系統(tǒng)功能方法設(shè)計24-27
- 3.2 系統(tǒng)架構(gòu)設(shè)計27-29
- 3.2.1 數(shù)據(jù)存儲模塊設(shè)計28-29
- 3.2.2 數(shù)據(jù)分析模塊設(shè)計29
- 3.2.3 數(shù)據(jù)展現(xiàn)模塊設(shè)計29
- 3.3 本章小結(jié)29-30
- 第四章 網(wǎng)絡(luò)廣告受眾人群分類分析系統(tǒng)的實現(xiàn)30-43
- 4.1 數(shù)據(jù)存儲模塊的實現(xiàn)30-36
- 4.1.1 Cookie數(shù)據(jù)收集30-31
- 4.1.2 廣告關(guān)鍵詞匯總計算31-35
- 4.1.3 廣告類別詞加權(quán)歸一35
- 4.1.4 數(shù)據(jù)的存儲35-36
- 4.2 系統(tǒng)分析模塊的實現(xiàn)36-40
- 4.2.1 人群聚類Map任務(wù)實現(xiàn)36-39
- 4.2.2 人群聚類Reduce任務(wù)實現(xiàn)39-40
- 4.3 系統(tǒng)展現(xiàn)模塊的實現(xiàn)40-41
- 4.4 本章小結(jié)41-43
- 第五章 系統(tǒng)功能測試43-49
- 5.1 Hadoop環(huán)境配置43-46
- 5.1.1 硬件配置43-44
- 5.1.2 軟件配置44
- 5.1.3 Hadoop配置過程44-46
- 5.2 展現(xiàn)系統(tǒng)運(yùn)行結(jié)果46-48
- 5.3 本章小結(jié)48-49
- 第六章 總結(jié)與展望49-51
- 6.1 本文總結(jié)49-50
- 6.2 工作展望50-51
- 參考文獻(xiàn)51-53
- 致謝53
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 陳若煒;覃文;李冉;;3G微博運(yùn)營精細(xì)化分析的技術(shù)研究[J];郵電設(shè)計技術(shù);2011年12期
2 ;[J];;年期
中國重要報紙全文數(shù)據(jù)庫 前3條
1 張春杰;細(xì)化分析 防范批發(fā)業(yè)征管風(fēng)險[N];中國稅務(wù)報;2014年
2 羅堯治 鄭延豐 張鵬飛;空間結(jié)構(gòu)精細(xì)化分析方法概述[N];建筑時報;2014年
3 羅堯治 鄭延豐 張鵬飛;空間結(jié)構(gòu)精細(xì)化分析方法概述[N];建筑時報;2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 紀(jì)琳琳;基于Hadoop的精細(xì)化分析及其應(yīng)用[D];南京郵電大學(xué);2015年
本文關(guān)鍵詞:基于Hadoop的精細(xì)化分析及其應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號:426847
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/426847.html
最近更新
教材專著
熱點(diǎn)文章