基于流式計算的廣告特征提取系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于流式計算的廣告特征提取系統(tǒng)的設(shè)計與實現(xiàn)
更多相關(guān)文章: 機器學習 流式計算 Task Manager HDFS MapReduce
【摘要】:伴隨著互聯(lián)網(wǎng)日新月異的發(fā)展,信息呈現(xiàn)出劇烈的膨脹,人們獲取信息的途徑也更加多樣、更加便捷,同時對于信息的時效性要求也越來越高。對于絕大部分的商用搜索引擎,像Google、Bing和Baidu等,通常在用戶查詢響應(yīng)的結(jié)果頁中提供結(jié)構(gòu)化的Web結(jié)果,同時也插入基于流量的點擊付費模式的文本廣告。為了在頁面上最佳位置展現(xiàn)最相關(guān)的廣告,需要通過一些機器學習算法來動態(tài)估算給定上下文中一個廣告被點擊的可能性。上下文可能包括廣告權(quán)重、用戶偏好、歷史查詢、歷史點擊等信息。一個主搜索引擎可能每秒鐘處理上千萬次查詢,每個頁面都可能會包含多個廣告。為了及時處理用戶反饋,需要廣告數(shù)據(jù)處理引擎保證低延遲、可擴展和高可靠性。本文所介紹的流式廣告特征提取系統(tǒng)就是這樣一種實時的廣告數(shù)據(jù)處理引擎,通過從搜索引擎實時生成的檢索記錄的廣告展現(xiàn)日志和點擊日志中提取下游—廣告點擊率預估模型中各個機器學習算法所需要的廣告特征數(shù)據(jù),不斷訓練、更新廣告預估被點擊的概率,搜索引擎依據(jù)這些實時更新的廣告預估點擊率來決定下次檢索時應(yīng)該展現(xiàn)什么廣告,以實現(xiàn)用戶、廣告主與百度三方的共贏。本流式廣告特征提取系統(tǒng)基于百度自主開發(fā)的流式計算框架Task Manager,結(jié)合了HDFS、MapReduce等相關(guān)技術(shù)方法。在百度鳳巢廣告系統(tǒng)的應(yīng)用中,通過本流式廣告特征提取系統(tǒng),廣告展現(xiàn)日志和點擊日志數(shù)據(jù)反饋到廣告點擊率預估模型的時間縮短至分鐘級,系統(tǒng)每天處理的輸入廣告日志數(shù)據(jù)量達到數(shù)十T,生成的廣告特征數(shù)據(jù)量達到數(shù)百G。本文首先介紹了流式廣告特征提取系統(tǒng)的項目背景,然后將項目所涉及的相關(guān)技術(shù)背景和項目所使用的相關(guān)技術(shù)、框架做了簡要的說明,接著詳細描述了系統(tǒng)的需求分析、總體設(shè)計和模塊設(shè)計,并對系統(tǒng)的幾個關(guān)鍵模塊的設(shè)計和實現(xiàn)進行了詳盡的論述,最后對項目和論文的工作做了一個總結(jié),并且對后續(xù)的下一階段工作進行了展望。
【關(guān)鍵詞】:機器學習 流式計算 Task Manager HDFS MapReduce
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 引言11-15
- 1.1 項目背景11-12
- 1.2 搜索廣告日志處理的發(fā)展概況12
- 1.3 本文主要研究的工作12-13
- 1.4 本文的組織結(jié)構(gòu)13-15
- 第二章 技術(shù)綜述15-22
- 2.1 流式計算15-18
- 2.1.1 流式計算概述15-16
- 2.1.2 流式計算研究現(xiàn)狀16-18
- 2.2 Task Manager流式計算框架18-19
- 2.3 Hadoop相關(guān)技術(shù)19-21
- 2.4 本章小結(jié)21-22
- 第三章 廣告特征提取系統(tǒng)的分析與設(shè)計22-49
- 3.1 百度鳳巢廣告CTR預估系統(tǒng)簡介22-23
- 3.2 項目總體規(guī)劃23-24
- 3.3 系統(tǒng)需求分析24-34
- 3.3.1 功能需求24-25
- 3.3.2 非功能需求25-27
- 3.3.3 用例圖27-28
- 3.3.4 關(guān)鍵用例描述28-34
- 3.4 系統(tǒng)總體設(shè)計34-35
- 3.4.1 系統(tǒng)設(shè)計目標34
- 3.4.2 總體結(jié)構(gòu)34-35
- 3.5 系統(tǒng)模塊設(shè)計35-48
- 3.5.1 模塊劃分36-37
- 3.5.2 distcp模塊37-38
- 3.5.3 bundler_pretreat模塊38-40
- 3.5.4 bundler模塊40-42
- 3.5.5 extractor_asp模塊42-43
- 3.5.6 extractor_clk模塊43-44
- 3.5.7 extractor_feature模塊44-46
- 3.5.8 joiner模塊46-47
- 3.5.9 exporter模塊47-48
- 3.6 本章小結(jié)48-49
- 第四章 廣告特征提取系統(tǒng)的實現(xiàn)49-70
- 4.1 extractor_asp模塊的實現(xiàn)49-56
- 4.1.1 數(shù)據(jù)結(jié)構(gòu)49-53
- 4.1.2 詳細實現(xiàn)53-56
- 4.2 extractor_feature模塊的實現(xiàn)56-60
- 4.2.1 數(shù)據(jù)結(jié)構(gòu)56-58
- 4.2.2 詳細實現(xiàn)58-60
- 4.3 joiner模塊的實現(xiàn)60-65
- 4.3.1 數(shù)據(jù)結(jié)構(gòu)60-63
- 4.3.2 詳細實現(xiàn)63-65
- 4.4 部署與評估65-67
- 4.5 測試工作67-68
- 4.6 本章小結(jié)68-70
- 第五章 總結(jié)與展望70-72
- 5.1 總結(jié)70-71
- 5.2 進一步工作展望71-72
- 參考文獻72-74
- 致謝74-76
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺關(guān)鍵技術(shù)[J];信息技術(shù)與標準化;2013年10期
2 邵景峰;崔尊民;王進富;白曉波;;大數(shù)據(jù)下紡織制造執(zhí)行系統(tǒng)的構(gòu)建[J];紡織器材;2013年06期
3 張亞楠;譚躍生;;基于MapReduce的并行遮蓋文本聚類算法[J];內(nèi)蒙古科技大學學報;2013年03期
4 周國亮;朱永利;王桂蘭;;CC-MRSJ:Hadoop平臺下緩存敏感的星型聯(lián)接算法[J];電信科學;2013年10期
5 王鵬;黃焱;劉峰;安俊秀;;大數(shù)據(jù)技術(shù)中計算與數(shù)據(jù)的協(xié)作機制[J];成都信息工程學院學報;2014年01期
6 杜政頡;王鵬;黃焱;郎福通;;一種基于Storm編程模型的迭代Topology方案[J];成都信息工程學院學報;2014年01期
7 范飛;黃文明;鄧珍榮;;Oozie工作流在Mahout分布式數(shù)據(jù)挖掘中的應(yīng)用[J];桂林電子科技大學學報;2014年01期
8 丁玉成;諸葛晴鳳;沙行勉;;云計算環(huán)境下排序算法的性能分析[J];重慶大學學報;2014年04期
9 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預測[J];北京郵電大學學報;2014年S1期
10 劉瓊;趙榮;孫立堅;;Map/Reduce框架下的粗糙集空間數(shù)據(jù)挖掘改進算法[J];測繪科學;2014年05期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預測[A];2013年全國通信軟件學術(shù)會議論文集[C];2013年
2 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
3 陳佐旗;余柏蒗;吳健平;;基于GPU通用計算的遙感數(shù)據(jù)處理——以計算地表太陽輻射值為例[A];第十八屆中國環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年
4 白永超;付偉;辛陽;;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國青年通信學術(shù)年會論文集[C];2014年
5 李超越;徐國勝;;Hadoop公平調(diào)度算法的改進[A];第十九屆全國青年通信學術(shù)年會論文集[C];2014年
6 張愷玉;陳磊;;一種基于Hadoop架構(gòu)的指揮系統(tǒng)大數(shù)據(jù)挖掘方法[A];第三屆中國指揮控制大會論文集(上冊)[C];2015年
7 朱健軍;張彤;吳哲夫;;基于權(quán)值的Hadoop調(diào)度算法改進與實現(xiàn)[A];浙江省電子學會2014學術(shù)年會論文集[C];2014年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 李健;云計算環(huán)境下最小化運營開銷的調(diào)度技術(shù)研究[D];北京郵電大學;2013年
2 韓晶;大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D];北京郵電大學;2013年
3 程祥;高效可靠的虛擬網(wǎng)絡(luò)映射技術(shù)研究[D];北京郵電大學;2013年
4 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學;2013年
5 盧風順;面向CPU/GPU異構(gòu)體系結(jié)構(gòu)的并行計算關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2012年
6 孫鵬;動車組維修物聯(lián)網(wǎng)及其關(guān)鍵技術(shù)研究[D];中國鐵道科學研究院;2013年
7 肖奎;維基百科大數(shù)據(jù)的知識挖掘與管理方法研究[D];武漢大學;2013年
8 程興國;仿生算法的動態(tài)反饋機制及其并行化實現(xiàn)方法研究[D];華南理工大學;2013年
9 馬馮;數(shù)據(jù)密集型計算環(huán)境下貝葉斯網(wǎng)的學習、推理及應(yīng)用[D];云南大學;2013年
10 韓海雯;MapReduce計算任務(wù)調(diào)度的資源配置優(yōu)化研究[D];華南理工大學;2013年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 陳貞;HDFS環(huán)境下的訪問控制技術(shù)研究[D];重慶大學;2013年
2 張丹;HDFS中文件存儲優(yōu)化的相關(guān)技術(shù)研究[D];南京師范大學;2013年
3 潘吳斌;基于云計算的并行K-means氣象數(shù)據(jù)挖掘研究與應(yīng)用[D];南京信息工程大學;2013年
4 趙洪昌;云計算下的關(guān)聯(lián)分析和模糊聚類研究[D];南京信息工程大學;2013年
5 汪洋;通信網(wǎng)云計算平臺資源調(diào)度策略與算法研究[D];南昌大學;2013年
6 呂天然;基于MapReduce的可視化工作流遙感并行處理平臺及關(guān)鍵技術(shù)研究[D];河南大學;2013年
7 但光祥;云計算環(huán)境下混合加密算法研究與實現(xiàn)[D];重慶大學;2013年
8 周濤;基于Hadoop的遙感數(shù)字圖像處理方法研究[D];東北師范大學;2013年
9 程偉;海量信令并行即時分析系統(tǒng)的研究與設(shè)計[D];中國海洋大學;2013年
10 賈玉輝;面向語音交互的云計算系統(tǒng)的研究[D];中國海洋大學;2013年
,本文編號:1095034
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1095034.html