搜索引擎廣告中廣告商狀態(tài)建模
本文關(guān)鍵詞:搜索引擎廣告中廣告商狀態(tài)建模,由筆耕文化傳播整理發(fā)布。
計算機研究與發(fā)展
ISSN
1000—12391CN11—1777/TP
!墜蘭壘』竺壘三壘絲墜:窒!壘.!竺!呈!竺!里竺竺里竺竺!墾。。。。。。!呈!望竺!竺旦竺:些=============三===============================222====222252225——————————————————————————一。搜索引擎廣告中廣告商狀態(tài)建模
姜昌浩h2門
張
敏1’2’3高斌4
北京
劉奕群1’2‘3
100084)
馬少平1’2’3
1(智能技術(shù)與系統(tǒng)國家重點實驗室
z(清華信息科學與技術(shù)國家實驗室(籌)。(清華大學計算機科學與技術(shù)系,北京
4(微軟亞洲研究院北京(jch.cst@gmail.corn)
100080)
北京
100084)
100084)
AdvertiserStatus
ModelinginSponsoredSearch
JiangChangha01’2~,ZhangMinl?2~,GaoBin4,LiuYiqunl’2~,andMaShaopin91?2’3
1(StateKeyLaboratoryofIntelligentTechnologyandSystems,Beijing100084)2(TsinghuaNationalLaboratoryfor
InformationScienceandTechnology,Beijing100084)
3(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)
4(Microsoit
Abstract
ResearchAsia,Beijing100080)
Sponsoredsearchis
source
a
successfulbusinessmodelcurrently
on
theInternet.Ithasbecomethe
mainincome
ofsearchenginecompaniesandhasofferedgreatopportunitiesforadvertisers.
user
Searchengine,advertiserand
tire
thethreemaincomponentsinsponsoredsearch.Searchengine
contents
offerstechnologyandadvertisementservice,advertiseroffersadvertisementandclicksadvertisements.Relatedtechnologiesofsearchengineand
user
while
user
views
behaviorhavebeenstudied
status
anddevelopedbymanyresearchers.However,advertisersespeciallythebeenstudiedwellinthearea.Basedadvertisers.Technically,suchthe
cost
status
on
ofadvertisershas
on
not
suchsituation,weconducteddeepanalysis
the
status
of
iSdemonstratedbytheimpressionnumber,theclicknumberand
oftheadvertiser’Sadvertisements.Thenhidden
status
MarkovmodeliSutilizedin
demonstrating
suchsequential
ofadvertisers.Thefocusis
on
introducingmethodologiesofmachinelearning
anddataminingintoadvertisermodeling.Atthesametime,wegethighprecisionwhenpredictingadvertiserKeywords
status
with
our
model,whichconvinces
US
thatsuchmethodiSsuitable.
sponsoredsearch;advertiser;tailadvertiser;statusmodeling;hidden
Markovmodel
(HMM)
摘要搜索引擎廣告是目前互聯(lián)網(wǎng)上一種非常成功的商業(yè)模式,它已成為搜索引擎公司的主要收入來源并為廣告商們提供了許多商機.搜索引擎、廣告商和搜索用戶構(gòu)成了搜索引擎廣告的3個主要組成部
分——搜索引擎提供技術(shù)和服務(wù)、廣告商提供廣告內(nèi)容、用戶瀏覽并點擊廣告.其中搜索引擎相關(guān)技術(shù)
以及用戶行為都有比較多的研究和成型的技術(shù),但對廣告商尤其是廣告商狀態(tài)的研究卻并不多見.基于此背景,對搜索引擎廣告中廣告商的狀態(tài)進行了深入的研究.在方法上按照廣告商相關(guān)廣告的展示次數(shù)、點擊次數(shù)以及廣告費用來對其潛在狀態(tài)進行描述和劃分,并使用隱Markov模型對廣告商的時序狀態(tài)進行建模.重點在于將機器學習和數(shù)據(jù)挖掘的方法應(yīng)用于廣告商的建模之中,并取得了不錯的預測正
確率.
關(guān)鍵詞搜索引擎廣告;廣告商;長尾廣告商;狀態(tài)建模;隱Markov模型
中圖法分類號TP391.4
收稿日期:201卜12—30;修回日期:2013—05—31
萬方數(shù)據(jù)
2622
從概念上講,互聯(lián)網(wǎng)廣告就是在互聯(lián)網(wǎng)上傲的廣告.網(wǎng)站利用廣告橫幅、文本鏈接或者多媒體的方法,在互聯(lián)網(wǎng)上刊登以及發(fā)布廣告,旨在通過網(wǎng)絡(luò)作為媒介將廣告信息傳遞給互聯(lián)網(wǎng)用戶.隨著經(jīng)濟的發(fā)展,互聯(lián)網(wǎng)的普及應(yīng)用率也越來越高,互聯(lián)網(wǎng)越來越滲入到平常百姓的生活當中.與傳統(tǒng)的傳播媒
體——報紙、雜志、電視、廣播等比起來,互聯(lián)網(wǎng)廣告
有很多得天獨厚的優(yōu)勢,越來越成為現(xiàn)代營銷戰(zhàn)略的重要組成部分.
來自eMarket.corn的統(tǒng)計分析數(shù)據(jù)表明,人們的空閑時間花費在互聯(lián)網(wǎng)上的時間達到了總量的29%,然而廣告商花費在互聯(lián)網(wǎng)上的廣告費用支出只占總支出的8%.報紙作為傳統(tǒng)廣告媒介只占用了人們8%的時間,卻吸引了高達20%的廣告費用投入在其上.可見廣告價值與實際投人之間還留有一定空間和差距.另一方面也可以有力地說明,互聯(lián)網(wǎng)廣告還有巨大的潛力和商業(yè)價值等待廣告商和互聯(lián)網(wǎng)公司去挖掘.
搜索引擎廣告是目前互聯(lián)網(wǎng)上一種非常成功的商業(yè)模式,它已成為搜索引擎公司的主要收入來源并為廣告商們提供了許多商機n≈].參參與搜索引擎廣告的3個主體分別是廣告商、搜索引擎和搜索用戶.一個搜索引擎只有擁有足夠數(shù)量的廣告商,才能夠有機會將足量的廣告提供給用戶,并贏得收入;只有擁有高質(zhì)量的廣告商,才能夠給用戶提供高質(zhì)量、高相關(guān)性的廣告,才能贏得用戶的信賴,提高用戶體驗.由此看來廣告商對搜索引擎來說是非常重要的.
然而事實上,搜索引擎廣告中廣告商流失率很高,許多廣告商注冊一段時間就變成非活躍狀態(tài)或者離開.如何留住更多的廣告商,如何檢測廣告商狀態(tài)并根據(jù)該狀態(tài)向廣告商提供個性化的服務(wù)已經(jīng)成為制約搜索引擎提高其服務(wù)質(zhì)量的瓶頸.所以,搜索引擎有必要對廣告商的狀態(tài)進行區(qū)分和定義,并利用歷史數(shù)據(jù)來估計廣告商的當前狀態(tài)并對未來發(fā)展的趨勢進行預測.
目前對廣告商的狀態(tài)并沒有統(tǒng)一的定義,按照我們的理解,廣告商的狀態(tài)應(yīng)該指廣告商所處的一種形態(tài),而這種形態(tài)能夠?qū)V告商當前的表征進行解釋并影響廣告商未來的行為.例如,“不積極”可以是一種狀態(tài),“不滿意”也可以作為描述狀態(tài)的一種不錯的方式.但由于這些主觀性的衡量難以實際操作,所以在本文的研究中,我們利用廣告商支付廣告
萬方數(shù)據(jù)
計算機研究與發(fā)展2013,50(12)
費用的多少來對廣告商的積極性以及滿意程度進行衡量,并利用廣告商潛在的發(fā)展趨勢對廣告商的狀態(tài)進行區(qū)分.基于此,本文的研究工作主要集中在如何可行地定義并區(qū)分廣告商的狀態(tài)以及如何對廣告商的狀態(tài)進行建模.
1相關(guān)工作
在搜索引擎廣告領(lǐng)域,與提高性能和廣告相關(guān)性等相關(guān)研究方興未艾[3。7],廣告商狀態(tài)研究并沒有很多已發(fā)表的結(jié)果,學術(shù)界對搜索引擎廣告的廣告商并未投入足夠的關(guān)注.但在電信業(yè),關(guān)于電信用戶流失的預測和分析吸引了大量的研究.因為客戶流失管理是電信運營商通過對客戶需求的滿意度調(diào)查而進行的有針對性地挽留客戶的重要方法和必要前提.客戶流失管理中重要的一環(huán)就是對客戶的流失行為進行預測和分析.
而關(guān)于電信用戶流失的預測則與本研究中對廣告商的建模及分析比較類似.首先,在電信業(yè)中,電
信用戶是付費方,電信公司依賴用戶繳納的服務(wù)費作為主要收入,搜索引擎廣告中廣告商是付費方,搜
索引擎通過向廣告商提供廣告服務(wù)而收取廣告費用.其次,電信用戶或廣告商是否繼續(xù)使用該電信公司或搜索引擎公司所提供的服務(wù),取決于對該電信公司或搜索引擎公司所提供服務(wù)的滿意程度與付費方自身對資費的承受能力.最后,這種滿意度或者承受能力是難以衡量的,需要使用用戶的其他特征來進行建模、分析和預測.
在電信領(lǐng)域中,很多研究人員已經(jīng)開始利用機器學習的方法來對電信客戶的流失情況進行預測睜10].從結(jié)果來看,上述方法能夠?qū)﹄娦趴蛻暨M行比較準確的流失預測.可見,電信領(lǐng)域用戶流失預測的分析方法可以作為廣告商流失預測的參考.但由于領(lǐng)域畢竟有所差異,數(shù)據(jù)的形式和維度有所不同,相關(guān)方法并不能直接利用到搜索引擎廣告中.
2搜索引擎廣告數(shù)據(jù)分析
本節(jié)將具體介紹本研究中實驗數(shù)據(jù)的來源和基本情況,將根據(jù)一些規(guī)則將廣告商分成巨頭廣告商和長尾廣告商.并按照不同的分類對廣告商相關(guān)數(shù)據(jù)進行分析.通過分析可以看出廣告商的一些性質(zhì),從中也能夠說明廣告商建模相關(guān)研究的必要性.
姜昌浩等:搜索引擎廣告中廣告商狀態(tài)建模
2623
_一_—————————————————————————————————————————————————————一
商從展示次數(shù)開始就展示出了巨大的差異.
2.1
數(shù)據(jù)及預處理
本文的數(shù)據(jù)來源于某商業(yè)搜索引擎在美國廣告
業(yè)務(wù)的真實數(shù)據(jù).
本文使用的廣告商日常特征數(shù)據(jù)為2010年全年的數(shù)據(jù)采樣(廣告商名稱、賬戶信息等涉及隱私的信息均不可見).
廣告商賬戶數(shù)據(jù)庫主要使用了廣告商的賬戶建立時間以及新建信息,我們從2009—12下旬到2010一01月底之間新建賬戶的廣告商中隨機采樣并作為備選,參與到廣告商的模型建立和測試之中.這樣選取是希望能夠?qū)V告商的進入時間對齊,也方便對廣告商的整個生命周期的研究.經(jīng)統(tǒng)計發(fā)現(xiàn),有些廣告商賬戶的維持時間非常短,并且由于本研究集中于廣告商的長期時序行為,所以需要將抽樣賬戶中維持時間較短(在2010—12前注銷)的廣告商過濾掉.另外,對于那些雖然并沒有刪除賬戶,但是自始自終沒有建立廣告或者沒有向搜索引擎付款的廣告商,在本研究中被認定為沒有參與到廣告業(yè)務(wù)中來,所以將抽樣集內(nèi)這類廣告商也過濾掉.經(jīng)過抽樣和過濾后,廣告商數(shù)目依然足夠多,滿足建模要求.因涉及搜索引擎商業(yè)秘密,此處并不列出相關(guān)數(shù)據(jù)大小的具體描述.2.2廣告商數(shù)據(jù)分析
廣告費用是搜索引擎衡量一個廣告商的主要因素,也是衡量一個廣告商在搜索引擎廣告上投入程度的很好標準.我們按照費用的多少,通過設(shè)置一個
∞
Fig.2
Distributionofadvertisernumbernumber.
on
,‘’
一..
Impression(LOG)BucketNumber(LinearIncreasing)
Fig.1
Distributionofadvertisernumbernumber.
on
impression
圖1展示次數(shù)的廣告商數(shù)量分布
A‘??_?-?Giant
/\…Tan
/’、/
\\
了-…夕、.|\≮
click
圖2點擊次數(shù)的廣告商數(shù)量分布
閾值尺,將廣告商分成巨頭廣告商(Giant)和長尾廣告商(Tail).閾值的選取保證了巨頭廣告商的廣告費用之和為總廣告費用的90%.
于是,我們得到如下幾種廣告商的分類:1)長尾廣告商.如果一個廣告商的廣告費用小于R,我們稱之為長尾廣告商.
2)巨頭廣告商.如果一個廣告商的廣告費用大于R,我們稱之為巨頭廣告商.
如圖l~3所示,3幅坐標圖分別表示3種特征(展示次數(shù)、點擊次數(shù)和廣告費用)上廣告商數(shù)量的分布①.其中橫坐標為不同區(qū)間(Bucket)的標號.從上述統(tǒng)計結(jié)果和分析中可以看出,圖3中廣告費用上呈現(xiàn)出了長尾效應(yīng),廣告商中少量(5%左右)的巨頭廣告商就能夠提供給搜索引擎全部收入中的絕大部分(90%).而圖2中點擊次數(shù)上的差距要略小于廣告費用.從圖1可以看出,長尾廣告商與巨頭廣告
Fig.3
∞∞
一Giam
If\…喇?
∞
m
O
1
.rf-’j、.I
j。l
i…℃…~
on
revenue
Revenue(LOG)Bucket
Number(LinearIncreasing)
Distributionofadvertisernumber
圖3廣告費用的廣告商數(shù)量分布
3廣告商狀態(tài)建模
在本節(jié)中我們將討論廣告商日常特征模型.將具體討論模型基本思路、模型中相關(guān)的特征設(shè)定、模型如何選取抽象的觀測以及模型的具體設(shè)置.
①3種特征值依據(jù)大小不同按對數(shù)均分成多個區(qū)間,因商業(yè)機密,此處列出區(qū)間號,,并不展示絕對數(shù)值
萬方數(shù)據(jù)
2624
計算機研究與發(fā)展2013,50(12)
3.1基本思路
廣告商的各種特征和狀態(tài)都是時間序列,過去利用該類特征時往往忽略時序的特性,本研究希望利用時間序列來進行分析,通過建立一般易觀測的特征與狀態(tài)之間的聯(lián)系,利用時序數(shù)據(jù)進行建模,并對最后的結(jié)果進行預測和分析.3.2狀態(tài)與觀測的抽象
本文中采用搜索引擎收入,也就是廣告商支付給搜索引擎的廣告費用來衡量廣告商狀態(tài).我們認為廣告費用體現(xiàn)了廣告商的一種支付意愿,也是點擊量和廣告出價的一種綜合表現(xiàn),所以廣告費用在一定程度上能夠衡量廣告商的表現(xiàn).從搜索引擎角度,廣告費用是搜索引擎的直接收入,是搜索引擎衡量廣告商重要程度的主要指標.于是我們按照廣告費用數(shù)值的高低,將廣告商分成3種類型(type):巨頭廣告商、一般廣告商(Ordinary)和長尾廣告商.按照變化趨勢的上升、下降或穩(wěn)定,將廣告商分成3種:上升期廣告商(Ascending)、穩(wěn)定期廣告商(Stable)以及下降期廣告商(Descending).通過區(qū)分兩個維度(每種維度分別有3種狀態(tài)),我們將廣告商分到3×3共9個離散的狀態(tài)(status)中.具體的參數(shù)設(shè)置將在4.1節(jié)中進行具體介紹.
廣告商的點擊次數(shù)和展示次數(shù)與廣告費用一樣,也是重要的指標.同時,比起廣告費用,這2個數(shù)據(jù)更容易獲得.在實驗中,我們?yōu)榱撕喕撃P,直接利用了點擊次數(shù)和展示次數(shù)的發(fā)展趨勢.于是我們同樣是按照上升、穩(wěn)定和下降3種趨勢將點擊次數(shù)和展示次數(shù)2種特征進行離散化,于是在點擊次數(shù)和展示次數(shù)2個維度上,我們將廣告商在每月的表現(xiàn)分成3×3個共9種離散的觀測(observation).于是我們就建立了離散的9種狀態(tài)和9種觀測.
根據(jù)上述劃分原則,我們得到并命名如下狀態(tài)和觀測如表1、表2所示:
Table1
DescriptionsofNineObservations
表1
9種抽象觀測的說明
Table2
Descriptions
ofNineStatuses
表29種抽象狀態(tài)的說明
3.3基于HMM的模型設(shè)計
我們利用隱Markov模型(HMM)[1卜”]來描述廣告商的狀態(tài)和觀測之間的關(guān)系,如圖4所示.其中隱變量為廣告商不同月份的狀態(tài),顯示變量為不同月份的觀測數(shù)據(jù).可見,隱變量之間有時序的依賴關(guān)系,相同月份的狀態(tài)會影響觀測.
Fig.4
HMMmodeldesign.HMM模型設(shè)計
圖4
們得出了該模型的預測正確率.4.1狀態(tài)區(qū)分及參數(shù)選取
4實驗與數(shù)據(jù)統(tǒng)計
在本節(jié)中,我們對第3節(jié)內(nèi)容中提出的廣告商模型進行實驗分析和具體的數(shù)據(jù)處理.通過實驗,我
我們已經(jīng)選定了狀態(tài)的劃分方法,但在實驗中,要具體選取參數(shù)來確定狀態(tài)的區(qū)分規(guī)則.參數(shù)的選取既需要照顧到我們對于狀態(tài)的定義,也同時要使
萬方數(shù)據(jù)
本文關(guān)鍵詞:搜索引擎廣告中廣告商狀態(tài)建模,由筆耕文化傳播整理發(fā)布。
本文編號:66926
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/66926.html