基于寬深度模型的廣告點(diǎn)擊率預(yù)估方法
發(fā)布時(shí)間:2020-04-19 18:59
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)發(fā)展的日新月異,傳統(tǒng)廣告行業(yè)正在向新興的互聯(lián)網(wǎng)市場(chǎng)轉(zhuǎn)移,與互聯(lián)網(wǎng)企業(yè)營(yíng)收息息相關(guān)的廣告點(diǎn)擊率相關(guān)研究成為了各個(gè)互聯(lián)網(wǎng)企業(yè)最為熱衷的領(lǐng)域,同時(shí)也是學(xué)術(shù)研究在工業(yè)界落地的重要應(yīng)用場(chǎng)景。面向海量的用戶行為數(shù)據(jù),如何根據(jù)用戶行為數(shù)據(jù)向用戶推薦更符合用戶需求的廣告顯得尤為必要。本文著眼于實(shí)際的應(yīng)用場(chǎng)景,利用了用戶信息、廣告信息和用戶歷史行為信息,從寬度、深度這兩個(gè)模型切入,提出了基于寬深度模型的廣告點(diǎn)擊率預(yù)估算法,本文稱之為RD-FM算法,從而能更好地對(duì)針對(duì)不同用戶的喜好進(jìn)行廣告推送,提升廣告點(diǎn)擊率。本文的主要工作包括以下幾個(gè)方面:(1)調(diào)研了有關(guān)廣告點(diǎn)擊率相關(guān)國(guó)內(nèi)外研究現(xiàn)狀,并分析了它們的優(yōu)勢(shì)和存在的缺陷。(2)廣告點(diǎn)擊率數(shù)據(jù)預(yù)處理:本文分析了點(diǎn)擊率預(yù)估原始數(shù)據(jù)存在的問(wèn)題,提出了一套完整的點(diǎn)擊率預(yù)估流程,包括對(duì)采集到的用戶屬性、廣告信息、用戶歷史行為的數(shù)據(jù)清洗、數(shù)據(jù)采樣、數(shù)據(jù)規(guī)約和數(shù)據(jù)轉(zhuǎn)換。(3)基于寬深度模型的廣告點(diǎn)擊率預(yù)估算法:本文依據(jù)谷歌提出的寬深度模型模型,結(jié)合Deep-FM算法及廣告點(diǎn)擊率預(yù)估數(shù)據(jù)集的時(shí)序特點(diǎn),設(shè)計(jì)了RD-FM算法。該算法分為基于因子分解機(jī)模型的寬度層、融合時(shí)序特征的深度層以及兩者共享的Embedding層和輸出層等部分。(4)本文對(duì)比多個(gè)算法,對(duì)算法的有效性進(jìn)行實(shí)驗(yàn)。本文提出的RD-FM算法在AUC、RMSE兩個(gè)評(píng)價(jià)指標(biāo)上與傳統(tǒng)的點(diǎn)擊率預(yù)估算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果表明本文算法相比傳統(tǒng)點(diǎn)擊率預(yù)估算法在AUC和RMSE等指標(biāo)上具有更好的表現(xiàn),說(shuō)明該算法充分發(fā)揮了因子分解機(jī)模型和時(shí)序深度模型的優(yōu)勢(shì)。
【圖文】:
圖 2-1 DNN 模型結(jié)構(gòu)圖其中第一層為輸入層,一般為特征值,在點(diǎn)擊率預(yù)估中,尤其特征的稀疏性,一般 Embedding 后的特征。每條神經(jīng)元的連線代表一個(gè)輸入的權(quán)值,此外還會(huì)有一個(gè)偏置一個(gè)激活函數(shù)。從輸入層開(kāi)始,然后經(jīng)過(guò)第一層神經(jīng)元的運(yùn)算,得到輸出,作為第二的輸入,重復(fù)這個(gè)過(guò)程,最后一直到輸出層運(yùn)算,然后得到結(jié)果。通過(guò)合理地改變權(quán)和偏置一點(diǎn)點(diǎn),可以讓這個(gè)神經(jīng)網(wǎng)絡(luò)最后的結(jié)果向預(yù)期的結(jié)果進(jìn)軍,這整個(gè)過(guò)程即神網(wǎng)絡(luò)的訓(xùn)練過(guò)程。.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)普通的 DNN 模型雖然對(duì)大多數(shù)線性函數(shù)的擬合取得了不錯(cuò)的效果,但是實(shí)際的情遠(yuǎn)比實(shí)驗(yàn)中要復(fù)雜,而且在其訓(xùn)練的過(guò)程中也會(huì)出現(xiàn)各種情況。在預(yù)訓(xùn)練不充分的情下,DNN 模型也很難得到充分的發(fā)揮。針對(duì)處理問(wèn)題時(shí)紛繁復(fù)雜的情況,許多不同構(gòu)的深度網(wǎng)絡(luò)模型被提出。它們通常被運(yùn)用在各自的細(xì)分領(lǐng)域。對(duì)于特定的任務(wù),根[37]
圖 2-2 RNN 模型結(jié)構(gòu)圖從圖中可以看到,每個(gè)圓圈可以看作是一個(gè)單元,每一個(gè)單元對(duì)應(yīng)一個(gè)時(shí)間節(jié)點(diǎn) t,此時(shí)的網(wǎng)絡(luò)都有個(gè)一個(gè)輸入和一個(gè)輸出,隱藏層的值為。其中的值不僅由此刻的輸入值決定,而且還受到之前節(jié)點(diǎn)隱藏層的值影響。因此,前面的時(shí)序特征會(huì)隨著序列化的網(wǎng)絡(luò)一層一層的傳遞下去,對(duì)于所有的節(jié)點(diǎn),當(dāng)前時(shí)刻的輸出結(jié)果會(huì)包含所有之前時(shí)刻的特征。所以 RNN 是一個(gè)序列到序列的模型,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)將前一個(gè)神經(jīng)元的狀態(tài)層層傳遞,同時(shí)輸出本神經(jīng)的狀態(tài),所以可以將循環(huán)神經(jīng)網(wǎng)絡(luò)的這種特性比喻成人類的記憶力。對(duì)于某個(gè)廣告 V,獨(dú)熱編碼后的特征記為。這個(gè)向量會(huì)作為 t+1 時(shí)刻的狀態(tài)輸入到RNN 中,而輸出結(jié)果就是一個(gè)概率向量,代表了被點(diǎn)擊的概率。由于 RNN 的特點(diǎn),,輸出結(jié)果會(huì)綜合用戶之前的點(diǎn)擊信息。通常為了提高 RNN 模型的效率,算法設(shè)計(jì)者會(huì)限制參數(shù)傳遞的時(shí)長(zhǎng),假設(shè)模型只考慮最近兩個(gè)會(huì)話訪問(wèn),并將其余的訪問(wèn)記錄整合成歷史狀態(tài)節(jié)點(diǎn),其公式可以如下公式(2-11)所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP301.6;F713.8
本文編號(hào):2633630
【圖文】:
圖 2-1 DNN 模型結(jié)構(gòu)圖其中第一層為輸入層,一般為特征值,在點(diǎn)擊率預(yù)估中,尤其特征的稀疏性,一般 Embedding 后的特征。每條神經(jīng)元的連線代表一個(gè)輸入的權(quán)值,此外還會(huì)有一個(gè)偏置一個(gè)激活函數(shù)。從輸入層開(kāi)始,然后經(jīng)過(guò)第一層神經(jīng)元的運(yùn)算,得到輸出,作為第二的輸入,重復(fù)這個(gè)過(guò)程,最后一直到輸出層運(yùn)算,然后得到結(jié)果。通過(guò)合理地改變權(quán)和偏置一點(diǎn)點(diǎn),可以讓這個(gè)神經(jīng)網(wǎng)絡(luò)最后的結(jié)果向預(yù)期的結(jié)果進(jìn)軍,這整個(gè)過(guò)程即神網(wǎng)絡(luò)的訓(xùn)練過(guò)程。.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)普通的 DNN 模型雖然對(duì)大多數(shù)線性函數(shù)的擬合取得了不錯(cuò)的效果,但是實(shí)際的情遠(yuǎn)比實(shí)驗(yàn)中要復(fù)雜,而且在其訓(xùn)練的過(guò)程中也會(huì)出現(xiàn)各種情況。在預(yù)訓(xùn)練不充分的情下,DNN 模型也很難得到充分的發(fā)揮。針對(duì)處理問(wèn)題時(shí)紛繁復(fù)雜的情況,許多不同構(gòu)的深度網(wǎng)絡(luò)模型被提出。它們通常被運(yùn)用在各自的細(xì)分領(lǐng)域。對(duì)于特定的任務(wù),根[37]
圖 2-2 RNN 模型結(jié)構(gòu)圖從圖中可以看到,每個(gè)圓圈可以看作是一個(gè)單元,每一個(gè)單元對(duì)應(yīng)一個(gè)時(shí)間節(jié)點(diǎn) t,此時(shí)的網(wǎng)絡(luò)都有個(gè)一個(gè)輸入和一個(gè)輸出,隱藏層的值為。其中的值不僅由此刻的輸入值決定,而且還受到之前節(jié)點(diǎn)隱藏層的值影響。因此,前面的時(shí)序特征會(huì)隨著序列化的網(wǎng)絡(luò)一層一層的傳遞下去,對(duì)于所有的節(jié)點(diǎn),當(dāng)前時(shí)刻的輸出結(jié)果會(huì)包含所有之前時(shí)刻的特征。所以 RNN 是一個(gè)序列到序列的模型,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)將前一個(gè)神經(jīng)元的狀態(tài)層層傳遞,同時(shí)輸出本神經(jīng)的狀態(tài),所以可以將循環(huán)神經(jīng)網(wǎng)絡(luò)的這種特性比喻成人類的記憶力。對(duì)于某個(gè)廣告 V,獨(dú)熱編碼后的特征記為。這個(gè)向量會(huì)作為 t+1 時(shí)刻的狀態(tài)輸入到RNN 中,而輸出結(jié)果就是一個(gè)概率向量,代表了被點(diǎn)擊的概率。由于 RNN 的特點(diǎn),,輸出結(jié)果會(huì)綜合用戶之前的點(diǎn)擊信息。通常為了提高 RNN 模型的效率,算法設(shè)計(jì)者會(huì)限制參數(shù)傳遞的時(shí)長(zhǎng),假設(shè)模型只考慮最近兩個(gè)會(huì)話訪問(wèn),并將其余的訪問(wèn)記錄整合成歷史狀態(tài)節(jié)點(diǎn),其公式可以如下公式(2-11)所示:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP301.6;F713.8
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 方敏;;集成學(xué)習(xí)的多分類器動(dòng)態(tài)融合方法研究[J];系統(tǒng)工程與電子技術(shù);2006年11期
2 于玲;吳鐵軍;;集成學(xué)習(xí):Boosting算法綜述[J];模式識(shí)別與人工智能;2004年01期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條
1 楊志燁;展示廣告點(diǎn)擊率預(yù)估方法研究[D];哈爾濱工業(yè)大學(xué);2018年
2 田源;基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法研究[D];湖南大學(xué);2018年
3 張茜;移動(dòng)互聯(lián)網(wǎng)廣告營(yíng)銷研究[D];黑龍江大學(xué);2014年
4 李志;互聯(lián)網(wǎng)廣告精準(zhǔn)投放平臺(tái)的研究[D];華中師范大學(xué);2013年
本文編號(hào):2633630
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2633630.html
最近更新
教材專著