基于特征優(yōu)化的邏輯回歸模型在廣告點(diǎn)擊率問題中的應(yīng)用研究
發(fā)布時(shí)間:2021-05-23 04:29
隨著信息科技、計(jì)算機(jī)科技及互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)廣告已經(jīng)成為互聯(lián)網(wǎng)變現(xiàn)和收入的主要來源之一。點(diǎn)擊率(Click-Through Rate Prediction,CTR)在一定程度上代表了廣告的受歡迎程度和被用戶觀看的次數(shù)。因此,當(dāng)前大部分的廣告營收均采用點(diǎn)擊付費(fèi)的方式,廣告媒介所獲得的收益為單次點(diǎn)擊費(fèi)用率和點(diǎn)擊率的乘積。為此,準(zhǔn)確地預(yù)估廣告點(diǎn)擊率是非常重要的,是件一舉三得的事情。對(duì)廣告主而言,產(chǎn)品得到了有力推廣,增加了潛在用戶,能夠有效提高創(chuàng)收;對(duì)搜索引擎公司而言,更高的廣告點(diǎn)擊率意味著更多的收入;對(duì)用戶而言,按照點(diǎn)擊率大小排序所呈現(xiàn)的廣告正是當(dāng)下情境中的所需,提升了用戶體驗(yàn),讓他們更樂于點(diǎn)擊。CTR預(yù)估是一件復(fù)雜、涉及面廣泛的問題。邏輯回歸模型(Logistic Regression,LR)作為優(yōu)良的二分類預(yù)測(cè)模型,常被運(yùn)用在點(diǎn)擊率的預(yù)估問題中。與傳統(tǒng)線性模型相比,LR使用了 Logit變換將函數(shù)值映射到0~1區(qū)間,映射后的函數(shù)值就是CTR的預(yù)估值。而傳統(tǒng)的邏輯回歸模型受限于CTR和變量間之間的對(duì)數(shù)線性關(guān)系,訓(xùn)練出來的預(yù)估模型有效性往往有待提高。針對(duì)這一問題,本文研究比較了幾種...
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究狀況簡(jiǎn)介
1.3 論文的章節(jié)安排
第2章 相關(guān)方法技術(shù)介紹
2.1 邏輯斯蒂回歸模型
2.1.1 邏輯斯蒂分布
2.1.2 二項(xiàng)邏輯斯蒂回歸模型
2.2 主成分分析方法
2.2.1 主成分分析思想原理
2.2.2 主成分分析數(shù)學(xué)模型
2.2.3 主成分分析優(yōu)缺點(diǎn)
2.3 決策樹
2.3.1 決策樹模型
2.3.2 決策樹學(xué)習(xí)步驟
2.3.3 決策樹優(yōu)缺點(diǎn)
2.4 GBDT算法
2.4.1 背景知識(shí)
2.4.2 梯度提升樹
2.4.3 GBDT與LR的融合
2.5 ROC曲線及AUC值
2.5.1 ROC曲線
2.5.2 AUC值
2.5.3 ROC曲線的優(yōu)點(diǎn)
第3章 傳統(tǒng)邏輯回歸模型在CTR中的應(yīng)用
3.1 數(shù)據(jù)清洗和樣本選取
3.1.1 數(shù)據(jù)選擇
3.1.2 無效變量剔除
3.1.3 字符型變量的處理
3.1.4 缺失值處理
3.2 基于傳統(tǒng)邏輯回歸的建模
3.2.1 樣本集的構(gòu)成
3.2.2 初步模型建立
3.2.3 模型結(jié)果
第4章 基于PCA的特征工程
4.1 確定主成分個(gè)數(shù)
4.2 PCA與LR融合模型(一)
4.2.1 基于碎石圖與平行分析的主成分
4.2.2 基于累積方差貢獻(xiàn)率的主成分
4.3 PCA與LR融合模型(二)
4.3.1 基于碎石圖與平行分析的主成分
4.3.2 基于累計(jì)方差貢獻(xiàn)率的主成分
4.4 模型評(píng)價(jià)與分析
第5章 基于決策樹的特征選擇
5.1 經(jīng)典決策樹
5.1.1 經(jīng)典決策樹的算法步驟
5.1.2 基于信息增益的特征選擇
5.2 條件推斷樹
5.2.1 條件推斷樹的算法步驟
5.2.2 基于條件推斷樹的特征選擇
5.3 模型評(píng)價(jià)與分析
第6章 基于GBDT的特征優(yōu)化
6.1 GBDT的調(diào)參
6.2 one-hot編碼
6.3 變量重要性
6.4 GBDT與LR的融合模型
6.5 模型評(píng)價(jià)與分析
6.6 幾種方法的對(duì)比分析
6.6.1 流程對(duì)比
6.6.2 變量對(duì)比
6.6.3 模型結(jié)果對(duì)比
總結(jié)與展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]廣告點(diǎn)擊率預(yù)估技術(shù)綜述[J]. 陳巧紅,余仕敏,賈宇波. 浙江理工大學(xué)學(xué)報(bào). 2015(11)
[2]基于特征學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估技術(shù)研究[J]. 張志強(qiáng),周永,謝曉芹,潘海為. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[3]基于LDA的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)研究[J]. 朱志北,李斌,劉學(xué)軍,胡平. 計(jì)算機(jī)應(yīng)用研究. 2016(04)
[4]基于平衡采樣的輕量級(jí)廣告點(diǎn)擊率預(yù)估方法[J]. 施夢(mèng)圜,顧津吉. 計(jì)算機(jī)應(yīng)用研究. 2014(01)
[5]廣告點(diǎn)擊率估算技術(shù)綜述[J]. 紀(jì)文迪,王曉玲,周傲英. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(03)
碩士論文
[1]基于GBDT的社區(qū)問題標(biāo)簽推薦技術(shù)研究[D]. 孫萬龍.哈爾濱工業(yè)大學(xué) 2015
[2]一種基于邏輯回歸模型的搜索廣告點(diǎn)擊率預(yù)估方法的研究[D]. 王兵.浙江大學(xué) 2013
本文編號(hào):3202286
【文章來源】:華中師范大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:53 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究狀況簡(jiǎn)介
1.3 論文的章節(jié)安排
第2章 相關(guān)方法技術(shù)介紹
2.1 邏輯斯蒂回歸模型
2.1.1 邏輯斯蒂分布
2.1.2 二項(xiàng)邏輯斯蒂回歸模型
2.2 主成分分析方法
2.2.1 主成分分析思想原理
2.2.2 主成分分析數(shù)學(xué)模型
2.2.3 主成分分析優(yōu)缺點(diǎn)
2.3 決策樹
2.3.1 決策樹模型
2.3.2 決策樹學(xué)習(xí)步驟
2.3.3 決策樹優(yōu)缺點(diǎn)
2.4 GBDT算法
2.4.1 背景知識(shí)
2.4.2 梯度提升樹
2.4.3 GBDT與LR的融合
2.5 ROC曲線及AUC值
2.5.1 ROC曲線
2.5.2 AUC值
2.5.3 ROC曲線的優(yōu)點(diǎn)
第3章 傳統(tǒng)邏輯回歸模型在CTR中的應(yīng)用
3.1 數(shù)據(jù)清洗和樣本選取
3.1.1 數(shù)據(jù)選擇
3.1.2 無效變量剔除
3.1.3 字符型變量的處理
3.1.4 缺失值處理
3.2 基于傳統(tǒng)邏輯回歸的建模
3.2.1 樣本集的構(gòu)成
3.2.2 初步模型建立
3.2.3 模型結(jié)果
第4章 基于PCA的特征工程
4.1 確定主成分個(gè)數(shù)
4.2 PCA與LR融合模型(一)
4.2.1 基于碎石圖與平行分析的主成分
4.2.2 基于累積方差貢獻(xiàn)率的主成分
4.3 PCA與LR融合模型(二)
4.3.1 基于碎石圖與平行分析的主成分
4.3.2 基于累計(jì)方差貢獻(xiàn)率的主成分
4.4 模型評(píng)價(jià)與分析
第5章 基于決策樹的特征選擇
5.1 經(jīng)典決策樹
5.1.1 經(jīng)典決策樹的算法步驟
5.1.2 基于信息增益的特征選擇
5.2 條件推斷樹
5.2.1 條件推斷樹的算法步驟
5.2.2 基于條件推斷樹的特征選擇
5.3 模型評(píng)價(jià)與分析
第6章 基于GBDT的特征優(yōu)化
6.1 GBDT的調(diào)參
6.2 one-hot編碼
6.3 變量重要性
6.4 GBDT與LR的融合模型
6.5 模型評(píng)價(jià)與分析
6.6 幾種方法的對(duì)比分析
6.6.1 流程對(duì)比
6.6.2 變量對(duì)比
6.6.3 模型結(jié)果對(duì)比
總結(jié)與展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]廣告點(diǎn)擊率預(yù)估技術(shù)綜述[J]. 陳巧紅,余仕敏,賈宇波. 浙江理工大學(xué)學(xué)報(bào). 2015(11)
[2]基于特征學(xué)習(xí)的廣告點(diǎn)擊率預(yù)估技術(shù)研究[J]. 張志強(qiáng),周永,謝曉芹,潘海為. 計(jì)算機(jī)學(xué)報(bào). 2016(04)
[3]基于LDA的互聯(lián)網(wǎng)廣告點(diǎn)擊率預(yù)測(cè)研究[J]. 朱志北,李斌,劉學(xué)軍,胡平. 計(jì)算機(jī)應(yīng)用研究. 2016(04)
[4]基于平衡采樣的輕量級(jí)廣告點(diǎn)擊率預(yù)估方法[J]. 施夢(mèng)圜,顧津吉. 計(jì)算機(jī)應(yīng)用研究. 2014(01)
[5]廣告點(diǎn)擊率估算技術(shù)綜述[J]. 紀(jì)文迪,王曉玲,周傲英. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(03)
碩士論文
[1]基于GBDT的社區(qū)問題標(biāo)簽推薦技術(shù)研究[D]. 孫萬龍.哈爾濱工業(yè)大學(xué) 2015
[2]一種基于邏輯回歸模型的搜索廣告點(diǎn)擊率預(yù)估方法的研究[D]. 王兵.浙江大學(xué) 2013
本文編號(hào):3202286
本文鏈接:http://sikaile.net/shekelunwen/ljx/3202286.html
最近更新
教材專著