基于軟決策樹的實時競價展示廣告成交價格預測
發(fā)布時間:2020-08-14 17:11
【摘要】:實時競價(Real-Time Bidding,RTB)是大數據時代新興的具有影響力的展示廣告購買機制,RTB系統(tǒng)基于對互聯網用戶產生的大量數據的分析,能夠識別每個廣告展現(Impression)目標受眾的特征和興趣,并自動投放最佳匹配的廣告。RTB系統(tǒng)中最受關注的是與需求方平臺(Demand-Side Platform,DSP)相關的研究工作,DSP代表了廣告主的訴求,DSP競價策略的優(yōu)劣直接影響廣告主獲取優(yōu)質流量的能力,進而影響廣告營銷所帶來的轉化。在DSP中,成交價格作為廣告展現的成本,能夠有效地指導競價策略的制定和投放預算的分配。本文針對成交價格預測展開了相關的研究工作,提出了基于軟決策樹的成交價預測模型,解決了兩方面的問題:(1)目前,關于成交價格預測的相關研究工作通常是假設成交價格服從某種參數化的函數分布形式。但在實際中,成交價格來自成百上千廣告主對某次廣告展現的競價,并不簡單服從于某種假定的函數分布形式。而決策樹模型可以避免這個問題,決策樹提供了從輸入到輸出的自學習過程,無需函數假設;(2)普通決策樹的構建過程忽視了維度間可能存在的相關性,而軟決策樹不同于普通決策樹,軟決策樹在結點分裂時能根據不同概率影響左右子結點,利用這種特性能夠建模維度間的相關性。此外,由于RTB過程采用第二競價機制,DSP只有競價成功才能觀測到成交價格,競價失敗只能知道自身的出價,因此在成交價格預測中會面臨數據缺失的問題。本文結合生存分析對軟決策樹模型提出了改進,采用K-M乘積限方法無偏估計競價成功概率,并使用逆概率加權方法修正成交價格的真實誤差,使競價成功和競價失敗的數據記錄能夠同時反饋到軟決策樹模型的學習中,減少了實際應用中成交價格數據缺失問題帶來的模型偏差。本文基于真實展示廣告數據集iPinYou設計實驗并進行實驗驗證,實驗分別對比了基于假設分布和基于普通決策樹的成交價格預測模型。實驗結果表明,對比其他模型,本文提出的模型在預測誤差上表現更佳,同時驗證了考慮缺失數據的有效性和必要性。最后在樹模型規(guī)模的比較上,本文提出的模型具有更小的樹模型復雜度。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:F713.8
【圖文】:
投放計劃(3427)的維度相關系數矩陣
21圖 3-2 投放計劃(3358)的維度相關系數矩陣本文采用 Sigmoid 作為軟決策樹的概率決策函數( )nf X ,Sigmoid 函數取值范1] ,滿足概率決策函數的要求,并且 Sigmoid 函數還具有連續(xù)單調遞增,關于中,易于求導等良好性質,在機器學習領域有非常廣泛且有效的應用。在接下來
4.4.1 在勝出數據集上的結果模型組 1 在勝出數據上的實驗結果如圖 4-2,可以從圖中看出,DT 模型在大部分投放計劃(除了 1458 和 2997)的均方誤差都低于 LM 模型,從一定程度上說明了樹結構模型的優(yōu)越性,而 SDT 在所有投放計劃上的均方誤差都比 LM 和 DT 低,說明基于軟決策樹的模型要優(yōu)于其他兩種模型;模型組 2 在勝出數據的實驗結果如圖 4-3,模型組 在訓練的時候都考慮缺失數據的影響,用模型組 2 預測勝出數據的成交價格,SDT_C 在所有投放計劃上優(yōu)于 LM_C 和 DT_C,但從整體來說,考慮了缺失數據的模型組 2,在勝出數據成交價格預測上,均方誤差要高于模型組 1。這是因為,模型組 1 的訓練過程只有勝出數據參與,模型過多了學習了勝出數據的特點,導致模型組 1 能非常好地預測勝出數據的成交價格,即模型組 1 在勝出數據上是過擬合的,這一點在接下來失敗數據的對比結果能很好地體現出來。其中各個模型的具體均方誤差以及基于軟決策樹模型的提升幅度見表 4-4 和表 4-5。
本文編號:2793310
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:F713.8
【圖文】:
投放計劃(3427)的維度相關系數矩陣
21圖 3-2 投放計劃(3358)的維度相關系數矩陣本文采用 Sigmoid 作為軟決策樹的概率決策函數( )nf X ,Sigmoid 函數取值范1] ,滿足概率決策函數的要求,并且 Sigmoid 函數還具有連續(xù)單調遞增,關于中,易于求導等良好性質,在機器學習領域有非常廣泛且有效的應用。在接下來
4.4.1 在勝出數據集上的結果模型組 1 在勝出數據上的實驗結果如圖 4-2,可以從圖中看出,DT 模型在大部分投放計劃(除了 1458 和 2997)的均方誤差都低于 LM 模型,從一定程度上說明了樹結構模型的優(yōu)越性,而 SDT 在所有投放計劃上的均方誤差都比 LM 和 DT 低,說明基于軟決策樹的模型要優(yōu)于其他兩種模型;模型組 2 在勝出數據的實驗結果如圖 4-3,模型組 在訓練的時候都考慮缺失數據的影響,用模型組 2 預測勝出數據的成交價格,SDT_C 在所有投放計劃上優(yōu)于 LM_C 和 DT_C,但從整體來說,考慮了缺失數據的模型組 2,在勝出數據成交價格預測上,均方誤差要高于模型組 1。這是因為,模型組 1 的訓練過程只有勝出數據參與,模型過多了學習了勝出數據的特點,導致模型組 1 能非常好地預測勝出數據的成交價格,即模型組 1 在勝出數據上是過擬合的,這一點在接下來失敗數據的對比結果能很好地體現出來。其中各個模型的具體均方誤差以及基于軟決策樹模型的提升幅度見表 4-4 和表 4-5。
【相似文獻】
相關期刊論文 前6條
1 吳霞;張家錄;王魯達;;命題邏輯公式模糊軟集語義及其在決策分析中的應用[J];模式識別與人工智能;2018年03期
2 呂國飛;王海燕;申曉紅;閆永勝;;非理想信道不同量化規(guī)則軟決策算法性能分析[J];電子設計工程;2013年07期
3 孫冰;;人事管理系統(tǒng)的決策方法介紹[J];自動化學報;1990年01期
4 相明,王昭,李宏,趙俊渭;一種分布式軟決策數據融合系統(tǒng)的性能分析[J];西北工業(yè)大學學報;2000年01期
5 郭黎利;高飛;孫志國;;基于局部軟決策的分布式檢測算法[J];華南理工大學學報(自然科學版);2016年01期
6 趙汝進;張啟衡;左顥睿;吳明軍;;一種基于直線特征的單目視覺位姿測量方法[J];光電子.激光;2010年06期
相關博士學位論文 前2條
1 肖智;基于軟信息的軟決策新方法研究[D];重慶大學;2003年
2 梁繼民;多傳感器決策融合方法研究[D];西安電子科技大學;1999年
相關碩士學位論文 前4條
1 陳喬偉;基于軟決策樹的實時競價展示廣告成交價格預測[D];華南理工大學;2019年
2 趙宇曦;基于SMSE的MIMO波形發(fā)生器設計及其參數優(yōu)化選取[D];哈爾濱工程大學;2018年
3 魏有權;基于噪聲估計的語音增強算法研究[D];昆明理工大學;2015年
4 連惠瓊;基于樹形關鍵詞集合的中文文本分類方法研究與實現[D];華南理工大學;2015年
本文編號:2793310
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2793310.html