運(yùn)營商數(shù)據(jù)管理平臺(tái)中的獨(dú)立用戶識別研究
本文關(guān)鍵詞:運(yùn)營商數(shù)據(jù)管理平臺(tái)中的獨(dú)立用戶識別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)特別是移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶使用互聯(lián)網(wǎng)來獲取信息、網(wǎng)上購物等,形成了規(guī)模龐大的網(wǎng)絡(luò)用戶群體。這些用戶在上網(wǎng)的過程中,一方面使用運(yùn)營商提供的ADSL(一種互聯(lián)網(wǎng)接入方式)訪問互聯(lián)網(wǎng),另一方面也給運(yùn)營商提供了海量的Web日志。一家擁有四百多萬ADSL用戶的大型運(yùn)營商,每日采集的Web日志記錄就高達(dá)4億多條。這些日志數(shù)據(jù)中蘊(yùn)含著豐富的用戶興趣信息,例如用戶的消費(fèi)傾向、購物習(xí)慣等,具有潛在的價(jià)值。為此,運(yùn)營商通過構(gòu)建數(shù)據(jù)管理平臺(tái)(Data Management Platform, DMP),對用戶的Web日志進(jìn)行采集、存儲(chǔ)、處理與分析,獲取用戶的興趣,為實(shí)現(xiàn)精準(zhǔn)的廣告投放提供數(shù)據(jù)依據(jù)。 眾所周知,一個(gè)ADSL設(shè)備通常由一個(gè)家庭、或一個(gè)辦公室、或一個(gè)實(shí)驗(yàn)室的多個(gè)成員共用。換言之,一個(gè)ADSL的后端可能會(huì)有多個(gè)用戶使用各自的終端,如電腦、智能手機(jī)、iPad等,進(jìn)行互聯(lián)網(wǎng)訪問。對于運(yùn)營商而言,一個(gè)ADSL背后可能隱藏了多個(gè)用戶。分析用戶興趣的前提是要準(zhǔn)確地識別出各個(gè)獨(dú)立用戶。由此可見,獨(dú)立用戶識別是運(yùn)營商數(shù)據(jù)管理平臺(tái)中最基本的功能。 由于現(xiàn)有的Web日志用戶識別技術(shù)大多是針對單個(gè)網(wǎng)站的,只能識別出與該站點(diǎn)交互的用戶。而運(yùn)營商提供的Web日志包括了不同網(wǎng)站不同用戶的信息,這些信息數(shù)據(jù)量巨大、來源廣泛,造成獨(dú)立用戶識別的難度很大。為解決此難題,本文以某運(yùn)營商提供的ADSL網(wǎng)絡(luò)用戶的Web日志數(shù)據(jù)為基礎(chǔ),在數(shù)據(jù)管理平臺(tái)建設(shè)的背景下,結(jié)合流行的大數(shù)據(jù)技術(shù)Hadoop,,設(shè)計(jì)并實(shí)現(xiàn)基于MapReduce并行計(jì)算框架的獨(dú)立用戶識別系統(tǒng)。 首先,本文介紹了獨(dú)立用戶識別系統(tǒng)的需求,說明了數(shù)據(jù)管理平臺(tái)與獨(dú)立用戶識別系統(tǒng)之間的聯(lián)系?紤]到運(yùn)營商Web日志數(shù)據(jù)量巨大、來源廣泛和Cookie數(shù)據(jù)格式不統(tǒng)一等特點(diǎn),本文設(shè)計(jì)了一種新的獨(dú)立用戶識別處理流程。 其次,考慮到運(yùn)營商Web日志的存儲(chǔ)規(guī)模和計(jì)算復(fù)雜度,本文詳細(xì)地分析了獨(dú)立用戶識別流程中三個(gè)主要階段的具體任務(wù),給出了各階段的MapReduce算法描述及實(shí)現(xiàn)代碼。針對第一階段即會(huì)話識別階段,提出了一種基于時(shí)間和引用的啟發(fā)式規(guī)則的會(huì)話提取算法,實(shí)現(xiàn)對運(yùn)營商Web日志進(jìn)行會(huì)話識別;針對第二階段即會(huì)話合并階段,在對ADSL進(jìn)行分組的基礎(chǔ)上,分別采用了不同規(guī)則:1)Cookie近似規(guī)則;2)UUID相同規(guī)則;3)賬號近似規(guī)則等對識別的會(huì)話進(jìn)行合并;針對第三階段即用戶識別階段,取消了ADSL分組限制,數(shù)據(jù)按照用戶進(jìn)行分組,將同一用戶的不同會(huì)話合并在一起,得到各用戶對應(yīng)的完整數(shù)據(jù)集。 最后,本文采用開源的分布式大數(shù)據(jù)平臺(tái)Hadoop開發(fā)并實(shí)現(xiàn)了獨(dú)立用戶識別系統(tǒng)。系統(tǒng)測試數(shù)據(jù)選自運(yùn)營商大數(shù)據(jù)中網(wǎng)站流量排名top-100的Web日志,數(shù)據(jù)覆蓋了總體數(shù)據(jù)的約百分之七十,包括了淘寶、天貓、QQ、百度等有代表性的大型互聯(lián)網(wǎng)站點(diǎn)。通過真實(shí)數(shù)據(jù)的測試,結(jié)果表明獨(dú)立用戶識別系統(tǒng)取得了預(yù)期的研究效果。
【關(guān)鍵詞】:數(shù)據(jù)預(yù)處理 用戶識別 Cookie MapReduce Hadoop
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要4-7
- ABSTRACT7-11
- 第一章 緒論11-16
- 1.1 研究背景與意義11-12
- 1.2 用戶識別的研究現(xiàn)狀12-14
- 1.3 本文的主要研究內(nèi)容14
- 1.4 本文的組織框架14-16
- 第二章 相關(guān)技術(shù)研究16-23
- 2.1 Web 日志用戶識別16-19
- 2.1.1 Web 日志格式16-17
- 2.1.2 Web 日志預(yù)處理流程17-18
- 2.1.3 Cookie18-19
- 2.2 MapReduce 并行計(jì)算框架19-22
- 2.2.1 MapReduce 技術(shù)20
- 2.2.2 Hadoop20-21
- 2.2.3 HDFS21-22
- 2.3 本章小結(jié)22-23
- 第三章 獨(dú)立用戶識別流程設(shè)計(jì)23-29
- 3.1 用戶識別需求描述23-25
- 3.2 數(shù)據(jù)管理平臺(tái)25-26
- 3.3 獨(dú)立用戶識別流程26-28
- 3.3.1 流程描述26-27
- 3.3.2 獨(dú)立用戶識別數(shù)據(jù)流27-28
- 3.4 本章小結(jié)28-29
- 第四章 基于 MapReduce 的獨(dú)立用戶識別算法29-51
- 4.1 數(shù)據(jù)預(yù)處理29-30
- 4.2 會(huì)話識別階段30-34
- 4.2.1 問題分析30-31
- 4.2.2 會(huì)話提取算法描述31-32
- 4.2.3 MapReduce 實(shí)現(xiàn)32-34
- 4.3 會(huì)話合并階段34-48
- 4.3.1 賬號提取34-37
- 4.3.2 Cookie 成員提取37-39
- 4.3.3 UUID 提取39-42
- 4.3.4 會(huì)話合并42-48
- 4.4 獨(dú)立用戶識別階段48-50
- 4.4.1 問題分析48-49
- 4.4.2 算法描述49
- 4.4.3 MapReduce 實(shí)現(xiàn)49-50
- 4.5 本章小結(jié)50-51
- 第五章 系統(tǒng)實(shí)現(xiàn)與測試51-60
- 5.1 Hadoop 平臺(tái)配置51-53
- 5.1.1 環(huán)境簡介51
- 5.1.2 準(zhǔn)備工作51-52
- 5.1.3 配置工作52-53
- 5.2 獨(dú)立用戶識別實(shí)現(xiàn)53-55
- 5.2.1 會(huì)話識別模塊53-54
- 5.2.2 會(huì)話合并模塊54-55
- 5.2.3 用戶識別模塊55
- 5.3 系統(tǒng)測試55-59
- 5.3.1 數(shù)據(jù)覆蓋范圍56-57
- 5.3.2 系統(tǒng)運(yùn)行時(shí)間57-58
- 5.3.3 準(zhǔn)確性驗(yàn)證58-59
- 5.4 本章小結(jié)59-60
- 第六章 總結(jié)與展望60-63
- 6.1 總結(jié)60-61
- 6.2 展望61-63
- 參考文獻(xiàn)63-66
- 攻讀碩士學(xué)位期間的研究成果目錄66-67
- 致謝67
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 周增國;龐有軍;;Cookie技術(shù)在Web日志挖掘預(yù)處理中的應(yīng)用[J];大連大學(xué)學(xué)報(bào);2006年02期
2 李煊,莊鎮(zhèn)泉;Web訪問挖掘預(yù)處理的用戶識別算法[J];計(jì)算機(jī)工程與應(yīng)用;2002年07期
3 張健沛,劉建東,楊靜;基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年10期
4 吳強(qiáng);梁繼民;楊萬海;;Web日志挖掘預(yù)處理中的用戶識別技術(shù)[J];計(jì)算機(jī)科學(xué);2002年04期
5 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J];計(jì)算機(jī)工程;2000年04期
6 趙偉,何丕廉,陳霞,謝振亮;Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J];計(jì)算機(jī)應(yīng)用;2003年05期
7 方成效;袁可風(fēng);;Web日志挖掘的數(shù)據(jù)預(yù)處理研究[J];計(jì)算機(jī)與現(xiàn)代化;2006年04期
本文關(guān)鍵詞:運(yùn)營商數(shù)據(jù)管理平臺(tái)中的獨(dú)立用戶識別研究,由筆耕文化傳播整理發(fā)布。
本文編號:320748
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/320748.html