基于XGBoost方法的廣告點(diǎn)擊率預(yù)估研究
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:F713.8;O212
【圖文】:
p 等不僅改變了人們的生活方式,而且推動(dòng)了傳統(tǒng)產(chǎn)業(yè)不斷升級。今天已擁有數(shù)千億級別的市場,大多數(shù)媒體網(wǎng)站都是靠推送廣告求不斷涌現(xiàn),傳統(tǒng)的互聯(lián)網(wǎng)模式逐漸被淘汰,新的模式慢慢衍生網(wǎng)廣告模式已由“粗放式”投放轉(zhuǎn)變?yōu)椤熬珳?zhǔn)化”投放,由最初到競價(jià)廣告、再到現(xiàn)在的以數(shù)據(jù)產(chǎn)品為主導(dǎo)的大規(guī)模程序化交易算取代人工和服務(wù)。換句話說,互聯(lián)網(wǎng)廣告的核心是數(shù)據(jù)和計(jì)算廣告”隨之產(chǎn)生了[1]。余年里,互聯(lián)網(wǎng)廣告的爆炸式增長在經(jīng)歷嚴(yán)峻挑戰(zhàn)的同時(shí),也獲遇[2],Google、Facebook、百度、阿里等數(shù)個(gè)百億級、千億級互業(yè)已成為公司變現(xiàn)和收入的主要來源之一,未來互聯(lián)網(wǎng)廣告行業(yè)續(xù)上升。如圖 1-1,艾瑞咨詢[3]2018 年互聯(lián)網(wǎng)產(chǎn)業(yè)總結(jié)報(bào)告9 年中國互聯(lián)網(wǎng)廣告市場變化情況,規(guī)模已從 2011 年的 492.5 億8 年的 3420 億元,預(yù)計(jì)未來幾年仍會(huì)保持 15%左右的增速增長。
2.1 計(jì)算廣告學(xué)的相關(guān)知識(shí)2.1.1 計(jì)算廣告學(xué)計(jì)算廣告學(xué)是一門交叉學(xué)科,由信息科學(xué)、文本分析、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)等學(xué)科融合而成。計(jì)算廣告主要研究上下文、用戶、廣告三者間的最佳匹配,目標(biāo)是最大化媒體、受眾、廣告主三方的利益。2.1.2 計(jì)算廣告系統(tǒng)一個(gè)高效的個(gè)性化計(jì)算廣告系統(tǒng)架構(gòu)中,廣告主、媒體、受眾等信息數(shù)據(jù)的收集、存儲(chǔ)、轉(zhuǎn)換、建模和使用是關(guān)鍵,因?yàn)樗鼜母旧蠜Q定了廣告投放帶來的利潤和變現(xiàn)能力,所以說數(shù)據(jù)驅(qū)動(dòng)下的廣告投放有著巨大的商業(yè)價(jià)值和高的發(fā)展空間。在實(shí)踐中,廣告系統(tǒng)的建立應(yīng)該是循序漸進(jìn)的。
代的到來很好的解決了這一問題,它的思想是寧可移動(dòng)計(jì)算也不移動(dòng)數(shù)據(jù),同時(shí)每個(gè)節(jié)點(diǎn)既能存儲(chǔ)數(shù)據(jù)也能計(jì)算數(shù)據(jù)。Hadoop 最重要的兩個(gè)部分是分布式文件存儲(chǔ)系統(tǒng)和 MapReduce 編程模型,這兩者均源自于 Google 大數(shù)據(jù)技術(shù)方面的成果[34-36]。如今 Hadoop 已由 Apache 基金會(huì)維護(hù),新的生態(tài)系統(tǒng)不斷完善,例如有專為存儲(chǔ)稀疏數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫 HBase、做表格數(shù)據(jù)匯總的數(shù)據(jù)倉庫 Hive、還有擴(kuò)展機(jī)器學(xué)習(xí)算法的 Mahout 等。下面介紹 Hadoop 的兩個(gè)核心組件。(1)HDFSHDFS 是目前大數(shù)據(jù)領(lǐng)域運(yùn)用最成熟也是最廣泛的分布式存儲(chǔ)系統(tǒng),當(dāng)客戶端往HDFS中上傳數(shù)據(jù)時(shí),客戶端并不會(huì)直接往 datanode中寫數(shù)據(jù),而是先向namenode通信要上傳一份文件,此時(shí) namenode 會(huì)告知客戶端可以往哪些 datanode 中寫數(shù)據(jù),然后客戶端將文件劃分成若干個(gè)大小是 128M 的 block 塊,逐個(gè)上傳到對應(yīng) datanode上,接收到 block 塊的 datanode 同時(shí)還要向另外兩個(gè) datanode 寫入 block 塊的副本,默認(rèn)副本是三個(gè)。HDFS 的工作機(jī)制如圖 2-2 所示。
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鐘穎;邵毅明;吳文文;胡廣雪;;基于XGBoost的短時(shí)交通流預(yù)測模型[J];科學(xué)技術(shù)與工程;2019年30期
2 葉倩怡;饒泓;姬名書;;基于Xgboost的商業(yè)銷售預(yù)測[J];南昌大學(xué)學(xué)報(bào)(理科版);2017年03期
3 李學(xué)鋒;;基于XGBoost的個(gè)人信貸違約預(yù)測研究[J];電腦知識(shí)與技術(shù);2019年33期
4 蔡元?jiǎng)P;姚善化;鄭曉亮;;基于XGBoost的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評估模型研究[J];安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2019年05期
5 張洪俠;郭賀;王金霞;徐巖艷;呂斌;閆東;常佳;胡光瑞;王雪;李洪軍;劉天戟;李燕林;趙志強(qiáng);牛曉強(qiáng);;基于XGBoost算法的2型糖尿病精準(zhǔn)預(yù)測模型研究[J];中國實(shí)驗(yàn)診斷學(xué);2018年03期
6 李杰;蘭巧玲;;基于XGBoost集成模型的社會(huì)基本醫(yī)療保險(xiǎn)參保人欺詐風(fēng)險(xiǎn)預(yù)測研究[J];中國衛(wèi)生統(tǒng)計(jì);2019年06期
7 朱繼峰;閆飛;鄭水明;洪星蕓;徐正國;;基于XGBoost的磨煤機(jī)效率異常檢測[J];計(jì)算機(jī)應(yīng)用;2019年S2期
8 彭佳麗;劉春容;李旭;易芳;李佳圓;;采用XGBoost和隨機(jī)森林探索中國西部女性乳腺癌危險(xiǎn)因素[J];現(xiàn)代預(yù)防醫(yī)學(xué);2020年01期
9 蘇兵杰;周亦鵬;梁勛鴿;;基于XGBoost算法的電商評論文本情感識(shí)別模型[J];物聯(lián)網(wǎng)技術(shù);2018年01期
10 楊貴軍;徐雪;趙富強(qiáng);;基于XGBoost算法的用戶評分預(yù)測模型及應(yīng)用[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2019年01期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 楊承相;基于Xgboost和復(fù)雜網(wǎng)絡(luò)的大學(xué)生授信額度研究[D];云南大學(xué);2019年
2 曾虎;基于XGBoost方法的廣告點(diǎn)擊率預(yù)估研究[D];廣東工業(yè)大學(xué);2019年
3 王勇;基于多源數(shù)據(jù)和XGBoost算法的上海市能見度預(yù)測模型研究[D];華東師范大學(xué);2019年
4 王玉霞;基于XGBoost算法的電商企業(yè)商品銷量預(yù)測方法研究[D];河北工業(yè)大學(xué);2017年
5 王子通;基于XGBoost的滬深300股指期貨交易策略研究[D];西北大學(xué);2019年
6 邸海波;基于XGBOOST和隨機(jī)森林的熱門微博預(yù)測研究[D];天津大學(xué);2017年
7 賈文慧;基于XGBoost算法的骨科輔助診斷模型研究[D];太原理工大學(xué);2018年
8 李想;基于XGBoost算法的多因子量化選股方案策劃[D];上海師范大學(xué);2017年
9 張誠誠;基于深度自編碼器和XGBoost的轉(zhuǎn)錄調(diào)控構(gòu)建算法研究[D];哈爾濱工業(yè)大學(xué);2017年
10 徐彬心;基于優(yōu)化的xgboost模型的商業(yè)銀行電話營銷效果分析[D];蘭州大學(xué);2017年
本文編號:2880549
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2880549.html