基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測
本文關(guān)鍵詞:基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測,,由筆耕文化傳播整理發(fā)布。
【摘要】:點(diǎn)擊率(CTR)預(yù)測是互聯(lián)網(wǎng)公司中重要的研究課題,其結(jié)果與上下文、用戶屬性和廣告屬性息息相關(guān),CTR的有效預(yù)測對于提高其公司的收入至關(guān)重要。CTR預(yù)估中最常見的模型是邏輯回歸(LR),然而LR實質(zhì)上屬于廣義線性模型。對于計算廣告而言,特征變量不僅多,而且特征與特征之間存在關(guān)聯(lián)。一方面,實際業(yè)務(wù)需要快速有效的篩選特征并進(jìn)行特征組合,這在很大程度上只能依靠人工經(jīng)驗,耗時耗力同時并不一定會帶來效果的提升。另一方面,廣告數(shù)據(jù)是實時產(chǎn)生的,批量的處理會面臨時效性等問題,在線計算就顯得尤為重要。本文在對傳統(tǒng)LR模型的相關(guān)原理和參數(shù)優(yōu)化算法介紹的基礎(chǔ)上,抽離出用戶特征和廣告特征,并用XTAS(XTAV)T表示用戶與廣告之間的關(guān)聯(lián),將其添加到sigmoid函數(shù)中得到新的LR模型。和以往求解方法不同的是,本文采用在線最優(yōu)化算法FTRL提高參數(shù)計算效率,采用混合正則化來防止訓(xùn)練過擬合。在實驗部分,我們主要考慮AUC和log-loss兩種評估指標(biāo),根據(jù)之前的模型和算法,最后從準(zhǔn)確性、參數(shù)敏感性和可靠性分析并得出結(jié)論。本文的主要成果體現(xiàn)在三個方面。第一,本文考慮了用戶與廣告的特征關(guān)聯(lián),且根據(jù)關(guān)聯(lián)矩陣的稀疏性和大規(guī)模等特點(diǎn)將其分解,從而使得其比傳統(tǒng)的LR模型有著更強(qiáng)的非線性擬合能力。第二,本文的模型能自動消除無用的特征,使得在線預(yù)測更加迅速,尤其對于大規(guī)模稀疏性數(shù)據(jù)和特征。第三,利用FTRL在線算法,能實時處理數(shù)據(jù),效率高且避免了批量處理。
【關(guān)鍵詞】:點(diǎn)擊率預(yù)估 邏輯回歸 特征關(guān)聯(lián) FTRL 混合正則化
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:F713.8
【目錄】:
- 摘要3-4
- Abstract4-6
- 第1章 引言6-10
- 1.1 研究背景6-7
- 1.2 相關(guān)內(nèi)容研究進(jìn)展7-9
- 1.2.1 CTR預(yù)估的主要模型7
- 1.2.2 最優(yōu)化算法7-8
- 1.2.3 正則化8-9
- 1.3 研究思路和主要內(nèi)容9-10
- 第2章 邏輯回歸的求解方法10-23
- 2.1 邏輯回歸作為分類問題的一般表述10-11
- 2.2 邏輯回歸作為二分類問題的依據(jù)11-13
- 2.3 為什么一定是sigmoid函數(shù)13-14
- 2.4 為什么用對數(shù)損失函數(shù)14-15
- 2.5 梯度下降法15-17
- 2.6 擬牛頓法17-18
- 2.7 帶正則項的處理18-23
- 第3章 基于FTRL算法對傳統(tǒng)邏輯回歸的優(yōu)化23-37
- 3.1 CTR預(yù)估的技術(shù)和優(yōu)化算法23-24
- 3.2 關(guān)聯(lián)特征的引入和求解24-27
- 3.3 在線最優(yōu)化算法的比較27-30
- 3.4 基于FTRL在線算法的求解30-33
- 3.4.1 算法設(shè)計與流程30-31
- 3.4.2 細(xì)節(jié)討論與說明31-33
- 3.5 相關(guān)性質(zhì)和推導(dǎo)33-37
- 第4章 實驗結(jié)果與分析37-42
- 4.1 實驗數(shù)據(jù)和設(shè)計37-38
- 4.2 廣告點(diǎn)擊率的評估指標(biāo)38-39
- 4.3 廣告點(diǎn)擊率估計的結(jié)果分析39-41
- 4.4 結(jié)論41-42
- 參考文獻(xiàn)42-44
- 致謝44
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 周春平;;收入、收入滿意度對居民主觀幸福感影響實證研究——來自江蘇的證據(jù)[J];南京航空航天大學(xué)學(xué)報(社會科學(xué)版);2013年01期
2 劉遵雄;黃志強(qiáng);鄭淑娟;張恒;;基于內(nèi)點(diǎn)法的稀疏邏輯回歸財務(wù)預(yù)警模型[J];計算機(jī)工程與設(shè)計;2013年06期
3 ;《信用風(fēng)險評分卡研究》[J];銀行家;2014年02期
4 張秀蘭;;邏輯回歸模型下的企業(yè)財務(wù)預(yù)警實證研究[J];求索;2012年01期
5 劉遵雄;黃志強(qiáng);孫清;張恒;;SCAD懲罰邏輯回歸的財務(wù)預(yù)警模型[J];統(tǒng)計與信息論壇;2012年12期
6 邢秋菊,趙純勇,高克昌,郭躍;基于GIS的滑坡危險性邏輯回歸評價研究[J];地理與地理信息科學(xué);2004年03期
7 林辰樂;呂翔濤;;影響城市低保受助者就業(yè)的政策因素分析——就業(yè)的雙項邏輯回歸模型及訪談實證研究[J];中國軟科學(xué);2012年08期
8 李霞;;基于邏輯回歸的電子企業(yè)員工工作滿意度研究[J];鄭州航空工業(yè)管理學(xué)院學(xué)報;2010年01期
9 田永峰;王仕軍;;讓經(jīng)濟(jì)邏輯回歸文化自覺——亞當(dāng)·斯密理論體系中兩條主線關(guān)系的辨正[J];湖北經(jīng)濟(jì)學(xué)院學(xué)報;2012年01期
10 趙路明;;ST公司有效利用盈余管理的實證研究[J];黑龍江科技信息;2007年02期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張道軍;邏輯回歸空間加權(quán)技術(shù)及其在礦產(chǎn)資源信息綜合中的應(yīng)用[D];中國地質(zhì)大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 粟武林;一種基于邏輯回歸的微博用戶可信度評估方法[D];河北大學(xué);2015年
2 胡俊;基于多元邏輯回歸和鄰域信息的高光譜遙感影像半監(jiān)督分類[D];中國礦業(yè)大學(xué);2015年
3 伊瑤瑤;基于Hadoop的數(shù)據(jù)挖掘技術(shù)研究[D];南京郵電大學(xué);2015年
4 張曉旭;基于復(fù)雜網(wǎng)絡(luò)理論的厄爾尼諾分析與預(yù)測[D];中國海洋大學(xué);2015年
5 喬寧;多元邏輯回歸在實時競價中的應(yīng)用研究[D];河北工業(yè)大學(xué);2015年
6 李雁林;小樣本低質(zhì)量數(shù)據(jù)下貸款需求分類模型研究[D];吉林大學(xué);2016年
7 代成雷;基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測[D];浙江大學(xué);2016年
8 董純潔;基于實例與邏輯回歸的多標(biāo)簽分類模型[D];南京大學(xué);2013年
9 祁全昌;基于內(nèi)容廣告平臺的點(diǎn)擊率預(yù)估系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學(xué);2012年
10 劉力銀;基于邏輯回歸的推薦技術(shù)研究及應(yīng)用[D];電子科技大學(xué);2013年
本文關(guān)鍵詞:基于邏輯回歸的在線廣告CTR優(yōu)化和預(yù)測,由筆耕文化傳播整理發(fā)布。
本文編號:288743
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/288743.html