天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于XGBoost方法的廣告點(diǎn)擊率預(yù)估研究

發(fā)布時(shí)間:2020-11-12 09:01
【摘要】:長期以來,廣告變現(xiàn)是互聯(lián)網(wǎng)公司收入的主要來源之一;ヂ(lián)網(wǎng)領(lǐng)域的領(lǐng)頭羊(如谷歌、Facebook、阿里等)已將廣告作為公司的核心產(chǎn)業(yè),越來越多的公司意識(shí)到技術(shù)驅(qū)動(dòng)下的廣告投放更具競爭力。廣告點(diǎn)擊率(Click-Through-Rate,CTR)預(yù)估研究的本質(zhì)是使廣告主、廣告平臺(tái)、用戶三方利益最大化,即廣告主獲得高的點(diǎn)擊率、廣告平臺(tái)的收益能最大化、用戶的滿意度增加,因此,增加廣告變現(xiàn)的CTR預(yù)估研究具有挑戰(zhàn)性和重要性。目前,業(yè)界所進(jìn)行的CTR預(yù)估任務(wù)的研究已相對成熟,但仍存在一些不足之處值得我們深入思考。第一,應(yīng)用最多的LR模型是大多數(shù)公司做CTR預(yù)估時(shí)的首要選擇,這種模型簡單易實(shí)現(xiàn),訓(xùn)練速度快,面對億級別數(shù)據(jù)也能快速迭代完成,但這種方法學(xué)習(xí)能力有限,不能提取特征間的非線性關(guān)系,需要有計(jì)算廣告背景的工程師做人工特征組合。第二,隨著時(shí)間推移,公司業(yè)務(wù)不斷擴(kuò)展,需要處理的數(shù)據(jù)量也越來越多,如何利用當(dāng)前的模型快速的迭代計(jì)算CTR值,保證廣告投放模塊穩(wěn)定運(yùn)行,是值得關(guān)注的問題。圍繞以上問題,本文主要工作如下:(1)針對單一LR模型難以表達(dá)特征間非線性關(guān)系的問題,本文在該模型的基礎(chǔ)上加入了極限梯度提升樹模型(eXtreme Gradient Boosting,XGBoost),由于它具有自動(dòng)構(gòu)建組合特征、建樹過程并行化的優(yōu)勢,因此可用XGBoost特征優(yōu)化后的輸出作為LR迭代計(jì)算的輸入,這種XGBoost+LR的融合模型通過挖掘特征間隱藏關(guān)系,不僅能提高預(yù)估精度,還能加快計(jì)算速度。(2)針對廣告數(shù)據(jù)量可能發(fā)生差異性變化或者業(yè)務(wù)場景遷移問題,模型的計(jì)算環(huán)境需要部署為具有較好擴(kuò)展性、容錯(cuò)性、吞吐量高的分布式計(jì)算平臺(tái)。該平臺(tái)的主要工作是離線訓(xùn)練點(diǎn)擊率預(yù)估模型,將訓(xùn)練好的模型更新到線上,再實(shí)時(shí)計(jì)算候選廣告庫中的CTR值。
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F713.8;O212
【圖文】:

市場規(guī)模,廣告


p 等不僅改變了人們的生活方式,而且推動(dòng)了傳統(tǒng)產(chǎn)業(yè)不斷升級。今天已擁有數(shù)千億級別的市場,大多數(shù)媒體網(wǎng)站都是靠推送廣告求不斷涌現(xiàn),傳統(tǒng)的互聯(lián)網(wǎng)模式逐漸被淘汰,新的模式慢慢衍生網(wǎng)廣告模式已由“粗放式”投放轉(zhuǎn)變?yōu)椤熬珳?zhǔn)化”投放,由最初到競價(jià)廣告、再到現(xiàn)在的以數(shù)據(jù)產(chǎn)品為主導(dǎo)的大規(guī)模程序化交易算取代人工和服務(wù)。換句話說,互聯(lián)網(wǎng)廣告的核心是數(shù)據(jù)和計(jì)算廣告”隨之產(chǎn)生了[1]。余年里,互聯(lián)網(wǎng)廣告的爆炸式增長在經(jīng)歷嚴(yán)峻挑戰(zhàn)的同時(shí),也獲遇[2],Google、Facebook、百度、阿里等數(shù)個(gè)百億級、千億級互業(yè)已成為公司變現(xiàn)和收入的主要來源之一,未來互聯(lián)網(wǎng)廣告行業(yè)續(xù)上升。如圖 1-1,艾瑞咨詢[3]2018 年互聯(lián)網(wǎng)產(chǎn)業(yè)總結(jié)報(bào)告9 年中國互聯(lián)網(wǎng)廣告市場變化情況,規(guī)模已從 2011 年的 492.5 億8 年的 3420 億元,預(yù)計(jì)未來幾年仍會(huì)保持 15%左右的增速增長。

廣告,系統(tǒng)架構(gòu),廣告學(xué),廣告主


2.1 計(jì)算廣告學(xué)的相關(guān)知識(shí)2.1.1 計(jì)算廣告學(xué)計(jì)算廣告學(xué)是一門交叉學(xué)科,由信息科學(xué)、文本分析、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科融合而成。計(jì)算廣告主要研究上下文、用戶、廣告三者間的最佳匹配,目標(biāo)是最大化媒體、受眾、廣告主三方的利益。2.1.2 計(jì)算廣告系統(tǒng)一個(gè)高效的個(gè)性化計(jì)算廣告系統(tǒng)架構(gòu)中,廣告主、媒體、受眾等信息數(shù)據(jù)的收集、存儲(chǔ)、轉(zhuǎn)換、建模和使用是關(guān)鍵,因?yàn)樗鼜母旧蠜Q定了廣告投放帶來的利潤和變現(xiàn)能力,所以說數(shù)據(jù)驅(qū)動(dòng)下的廣告投放有著巨大的商業(yè)價(jià)值和高的發(fā)展空間。在實(shí)踐中,廣告系統(tǒng)的建立應(yīng)該是循序漸進(jìn)的。

工作機(jī)制


代的到來很好的解決了這一問題,它的思想是寧可移動(dòng)計(jì)算也不移動(dòng)數(shù)據(jù),同時(shí)每個(gè)節(jié)點(diǎn)既能存儲(chǔ)數(shù)據(jù)也能計(jì)算數(shù)據(jù)。Hadoop 最重要的兩個(gè)部分是分布式文件存儲(chǔ)系統(tǒng)和 MapReduce 編程模型,這兩者均源自于 Google 大數(shù)據(jù)技術(shù)方面的成果[34-36]。如今 Hadoop 已由 Apache 基金會(huì)維護(hù),新的生態(tài)系統(tǒng)不斷完善,例如有專為存儲(chǔ)稀疏數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫 HBase、做表格數(shù)據(jù)匯總的數(shù)據(jù)倉庫 Hive、還有擴(kuò)展機(jī)器學(xué)習(xí)算法的 Mahout 等。下面介紹 Hadoop 的兩個(gè)核心組件。(1)HDFSHDFS 是目前大數(shù)據(jù)領(lǐng)域運(yùn)用最成熟也是最廣泛的分布式存儲(chǔ)系統(tǒng),當(dāng)客戶端往HDFS中上傳數(shù)據(jù)時(shí),客戶端并不會(huì)直接往 datanode中寫數(shù)據(jù),而是先向namenode通信要上傳一份文件,此時(shí) namenode 會(huì)告知客戶端可以往哪些 datanode 中寫數(shù)據(jù),然后客戶端將文件劃分成若干個(gè)大小是 128M 的 block 塊,逐個(gè)上傳到對應(yīng) datanode上,接收到 block 塊的 datanode 同時(shí)還要向另外兩個(gè) datanode 寫入 block 塊的副本,默認(rèn)副本是三個(gè)。HDFS 的工作機(jī)制如圖 2-2 所示。
【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 鐘穎;邵毅明;吳文文;胡廣雪;;基于XGBoost的短時(shí)交通流預(yù)測模型[J];科學(xué)技術(shù)與工程;2019年30期

2 葉倩怡;饒泓;姬名書;;基于Xgboost的商業(yè)銷售預(yù)測[J];南昌大學(xué)學(xué)報(bào)(理科版);2017年03期

3 李學(xué)鋒;;基于XGBoost的個(gè)人信貸違約預(yù)測研究[J];電腦知識(shí)與技術(shù);2019年33期

4 蔡元?jiǎng)P;姚善化;鄭曉亮;;基于XGBoost的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評估模型研究[J];安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2019年05期

5 張洪俠;郭賀;王金霞;徐巖艷;呂斌;閆東;常佳;胡光瑞;王雪;李洪軍;劉天戟;李燕林;趙志強(qiáng);牛曉強(qiáng);;基于XGBoost算法的2型糖尿病精準(zhǔn)預(yù)測模型研究[J];中國實(shí)驗(yàn)診斷學(xué);2018年03期

6 李杰;蘭巧玲;;基于XGBoost集成模型的社會(huì)基本醫(yī)療保險(xiǎn)參保人欺詐風(fēng)險(xiǎn)預(yù)測研究[J];中國衛(wèi)生統(tǒng)計(jì);2019年06期

7 朱繼峰;閆飛;鄭水明;洪星蕓;徐正國;;基于XGBoost的磨煤機(jī)效率異常檢測[J];計(jì)算機(jī)應(yīng)用;2019年S2期

8 彭佳麗;劉春容;李旭;易芳;李佳圓;;采用XGBoost和隨機(jī)森林探索中國西部女性乳腺癌危險(xiǎn)因素[J];現(xiàn)代預(yù)防醫(yī)學(xué);2020年01期

9 蘇兵杰;周亦鵬;梁勛鴿;;基于XGBoost算法的電商評論文本情感識(shí)別模型[J];物聯(lián)網(wǎng)技術(shù);2018年01期

10 楊貴軍;徐雪;趙富強(qiáng);;基于XGBoost算法的用戶評分預(yù)測模型及應(yīng)用[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2019年01期


中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 楊承相;基于Xgboost和復(fù)雜網(wǎng)絡(luò)的大學(xué)生授信額度研究[D];云南大學(xué);2019年

2 曾虎;基于XGBoost方法的廣告點(diǎn)擊率預(yù)估研究[D];廣東工業(yè)大學(xué);2019年

3 王勇;基于多源數(shù)據(jù)和XGBoost算法的上海市能見度預(yù)測模型研究[D];華東師范大學(xué);2019年

4 王玉霞;基于XGBoost算法的電商企業(yè)商品銷量預(yù)測方法研究[D];河北工業(yè)大學(xué);2017年

5 王子通;基于XGBoost的滬深300股指期貨交易策略研究[D];西北大學(xué);2019年

6 邸海波;基于XGBOOST和隨機(jī)森林的熱門微博預(yù)測研究[D];天津大學(xué);2017年

7 賈文慧;基于XGBoost算法的骨科輔助診斷模型研究[D];太原理工大學(xué);2018年

8 李想;基于XGBoost算法的多因子量化選股方案策劃[D];上海師范大學(xué);2017年

9 張誠誠;基于深度自編碼器和XGBoost的轉(zhuǎn)錄調(diào)控構(gòu)建算法研究[D];哈爾濱工業(yè)大學(xué);2017年

10 徐彬心;基于優(yōu)化的xgboost模型的商業(yè)銀行電話營銷效果分析[D];蘭州大學(xué);2017年



本文編號:2880549

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2880549.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2862b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
99热九九在线中文字幕| 欧美丰满大屁股一区二区三区| 少妇淫真视频一区二区| 日本男人女人干逼视频| 老熟妇乱视频一区二区| 国产亚洲精品一二三区| 欧美成人国产精品高清| 麻豆91成人国产在线观看| 中文字幕日韩欧美一区| 国产精品伦一区二区三区在线| 日本av在线不卡一区| 中文字幕一区久久综合| 老司机精品视频免费入口| 一区二区三区免费公开| 欧美不卡午夜中文字幕| 欧美成人黄色一区二区三区| 欧美成人免费一级特黄| 91精品视频全国免费| 国产伦精品一区二区三区高清版| 国产乱人伦精品一区二区三区四区| 亚洲性生活一区二区三区| 亚洲中文字幕视频在线观看| 日系韩系还是欧美久久| 欧美一区二区在线日韩| 国产亚洲欧美日韩精品一区| 国内精品偷拍视频久久| 国产免费无遮挡精品视频| 中国一区二区三区不卡| 亚洲中文字幕在线综合视频| 麻豆91成人国产在线观看| 白丝美女被插入视频在线观看| 午夜色午夜视频之日本| 日本成人中文字幕一区| 91久久精品国产成人| 俄罗斯胖女人性生活视频| 四季av一区二区播放| 一区二区三区国产日韩| 欧美激情一区二区亚洲专区| 久久精品视频就在久久| 日韩亚洲激情在线观看| 中文字幕日韩一区二区不卡|