基于概率圖模型的數(shù)據(jù)密集型廣告點(diǎn)擊率預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-06-09 20:16
本文關(guān)鍵詞:基于概率圖模型的數(shù)據(jù)密集型廣告點(diǎn)擊率預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Web2.0、互聯(lián)網(wǎng)和電子商務(wù)的迅猛發(fā)展與廣泛應(yīng)用,互聯(lián)網(wǎng)廣告成為了互聯(lián)網(wǎng)公司最主要的收入模式。廣告點(diǎn)擊率是評(píng)價(jià)廣告投放成功與否的一個(gè)重要標(biāo)準(zhǔn),成功的廣告投放能顯著提升互聯(lián)網(wǎng)公司的收益。而且,對(duì)廣告的點(diǎn)擊率進(jìn)行準(zhǔn)確的預(yù)測(cè)有利于提升用戶的體驗(yàn)。 在線用戶之間都存在著瀏覽和搜索等行為上的相似性,這種相似性本身具有不確定性。然而,貝葉斯網(wǎng)作為一種重要的概率圖模型,是進(jìn)行不確定知識(shí)表示和推理的重要工具。因此,針對(duì)沒有瀏覽或點(diǎn)擊歷史記錄的用戶對(duì)潛在廣告的點(diǎn)擊率預(yù)測(cè)問題,我們利用貝葉斯網(wǎng)的不確定表示和推理方法對(duì)用戶之間存在的依賴關(guān)系進(jìn)行建模計(jì)算,最終預(yù)測(cè)目標(biāo)用戶對(duì)廣告的點(diǎn)擊率。 本文利用Hadoop平臺(tái)和MapReduce編程模型,以貝葉斯網(wǎng)作為支撐理論,從海量的用戶瀏覽和搜索廣告的歷史數(shù)據(jù)出發(fā),設(shè)計(jì)并實(shí)現(xiàn)了數(shù)據(jù)密集型的廣告點(diǎn)擊率預(yù)測(cè)分布式并行算法,包括數(shù)據(jù)預(yù)處理、貝葉斯網(wǎng)構(gòu)建和基于貝葉斯網(wǎng)推理的廣告點(diǎn)擊率預(yù)測(cè)算法,具體如下: ●基于MapReduce的海量的用戶廣告搜索歷史日志處理。我們將海量的用戶搜索廣告歷史數(shù)據(jù)存入分布式文件系統(tǒng)HDFS中,設(shè)計(jì)MapReduce算法讀取海量的用戶搜索廣告歷史數(shù)據(jù),提取搜索關(guān)鍵詞作為用戶特征,存入分布式數(shù)據(jù)庫HBase中,為后續(xù)的貝葉斯網(wǎng)有向無環(huán)圖結(jié)構(gòu)的構(gòu)建做好了準(zhǔn)備。 ●基于MapReduce的貝葉斯網(wǎng)構(gòu)建。通過并行讀取、處理HBase中的數(shù)據(jù),高效地構(gòu)建了貝葉斯網(wǎng)的有向無環(huán)圖結(jié)構(gòu),再利用MapReduce分布式框架并行處理HBase中的數(shù)據(jù),計(jì)算貝葉斯網(wǎng)中各個(gè)節(jié)點(diǎn)的條件概率表,均存入HBase。 ■基于MapReduce貝葉斯網(wǎng)推理的廣告點(diǎn)擊率預(yù)測(cè)。利用分布式框架快速、高效地計(jì)算出相似用戶集合,并利用用戶間的相似性進(jìn)行廣告點(diǎn)擊率的預(yù)測(cè)。 本文以上述三方面的研究工作為核心,實(shí)現(xiàn)了基于Hadoop平臺(tái)的數(shù)據(jù)密集型廣告點(diǎn)擊率預(yù)測(cè)系統(tǒng),可以使搜索引擎簡(jiǎn)單地通過調(diào)用系統(tǒng)的接口函數(shù)得到目標(biāo)用戶對(duì)廣告點(diǎn)擊率的預(yù)測(cè)結(jié)果。
【關(guān)鍵詞】:計(jì)算廣告 點(diǎn)擊率預(yù)測(cè) 用戶相似性 貝葉斯網(wǎng) 數(shù)據(jù)密集型計(jì)算
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52
【目錄】:
- 摘要3-4
- Abstract4-8
- 第1章 前言8-15
- 1.1 研究背景及意義8-11
- 1.2 研究現(xiàn)狀11-13
- 1.2.1 CTR 預(yù)測(cè)的研究現(xiàn)狀11-12
- 1.2.2 數(shù)據(jù)密集型計(jì)算的研究現(xiàn)狀12-13
- 1.3 本文的主要研究?jī)?nèi)容13-14
- 1.4 論文結(jié)構(gòu)14-15
- 第2章 背景知識(shí)15-27
- 2.1 Hadoop簡(jiǎn)介15-22
- 2.1.1 HDFS簡(jiǎn)介15-17
- 2.1.2 MapReduce簡(jiǎn)介17-19
- 2.1.3 HBase簡(jiǎn)介19-22
- 2.2 貝葉斯網(wǎng)22-26
- 2.2.1 概率論基礎(chǔ)知識(shí)23-25
- 2.2.2 貝葉斯網(wǎng)推理25-26
- 2.3 本章小結(jié)26-27
- 第3章 系統(tǒng)架構(gòu)及算法設(shè)計(jì)27-46
- 3.1 整體架構(gòu)27
- 3.2 數(shù)據(jù)預(yù)處理模塊27-30
- 3.2.1 海量數(shù)據(jù)處理與數(shù)據(jù)存儲(chǔ)28-30
- 3.3 貝葉斯網(wǎng)構(gòu)建30-37
- 3.3.1 貝葉斯網(wǎng)DAG構(gòu)建30-34
- 3.3.2 條件概率表計(jì)算34-37
- 3.4 廣告點(diǎn)擊率預(yù)測(cè)37-45
- 3.4.1 聯(lián)合概率分布表計(jì)算37-40
- 3.4.2 得到相似用戶集合40-42
- 3.4.3 廣告點(diǎn)擊率預(yù)測(cè)42-45
- 3.5 本章小結(jié)45-46
- 第4章 實(shí)驗(yàn)及分析46-53
- 4.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境46-48
- 4.1.1 實(shí)驗(yàn)數(shù)據(jù)設(shè)置46-47
- 4.1.2 實(shí)驗(yàn)環(huán)境設(shè)置47-48
- 4.2 系統(tǒng)的正確性驗(yàn)證48
- 4.3 系統(tǒng)的有效性驗(yàn)證48-52
- 4.3.1 系統(tǒng)的執(zhí)行時(shí)間49-51
- 4.3.2 系統(tǒng)的加速比與并行效率51-52
- 4.4 實(shí)驗(yàn)結(jié)果分析52-53
- 第5章 原型系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)53-64
- 5.1 系統(tǒng)分析53-54
- 5.2 系統(tǒng)模塊設(shè)計(jì)54-57
- 5.2.1 數(shù)據(jù)預(yù)處理模塊54
- 5.2.2 貝葉斯網(wǎng)構(gòu)建模塊54-55
- 5.2.3 廣告點(diǎn)擊率預(yù)測(cè)模塊55-57
- 5.3 系統(tǒng)整體架構(gòu)及時(shí)序圖57-58
- 5.4 系統(tǒng)運(yùn)行狀態(tài)演示58-64
- 5.4.1 數(shù)據(jù)預(yù)處理59-60
- 5.4.2 貝葉斯網(wǎng)構(gòu)建60-61
- 5.4.3 廣告點(diǎn)擊率預(yù)測(cè)61-64
- 第6章 總結(jié)與展望64-65
- 附錄65-71
- 參考文獻(xiàn)71-74
- 致謝74
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前7條
1 王珊;王會(huì)舉;覃雄派;周p
本文編號(hào):436597
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/436597.html
最近更新
教材專著