基于淘寶商品行為的向量化內(nèi)容召回方法研究
發(fā)布時間:2021-06-22 03:30
隨著內(nèi)容營銷成為越來越重要的營銷方式,淘寶App開始在其首頁推薦欄下進(jìn)行電商內(nèi)容的推薦。電商內(nèi)容推薦的初期會面臨推薦系統(tǒng)常見的冷啟動問題,而淘寶已經(jīng)積累了多年的用戶商品行為日志,通過利用用戶在商品上的行為信息可以有效緩解內(nèi)容推薦在起步階段的冷啟動問題。推薦系統(tǒng)最重要的兩個階段為召回和排序,召回階段從海量的資源池中篩選出用戶感興趣的資源作為排序階段的候選集合。召回階段決定了排序階段的準(zhǔn)確率上限,且需要在毫秒級別的時間內(nèi)完成。為此,本文針對淘寶在內(nèi)容推薦初期的冷啟動問題,在召回階段的算法進(jìn)行了以下研究工作:提出了一個將用戶在商品上的行為編碼為向量的用戶模型,融合了用戶在商品上的點擊和搜索兩種行為序列的文本信息,引入了用戶行為序列中的時序和時間間隔信息,將用戶的行為信息從商品空間映射到文本語義空間。通過淘寶全網(wǎng)搜索記錄構(gòu)建一個用戶興趣詞表,基于該詞表通過一個多標(biāo)簽興趣分類任務(wù)對用戶模型進(jìn)行評估,通過抽取淘寶一億用戶半個月的行為日志作為實驗數(shù)據(jù),設(shè)計實驗驗證了用戶模型的有效性。使用一個基于雙向自注意力機(jī)制編碼器的內(nèi)容模型提取內(nèi)容向量。采用淘寶中達(dá)人分享內(nèi)容作為實驗樣本,并利用淘寶經(jīng)驗的搜索索引...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
(a)手機(jī)淘寶
第一章緒論3千以下。此階段篩選的候選集合決定了下一階段排序部分的準(zhǔn)確率的上限,此外由于需要從海量的資源池中進(jìn)行候選集合的篩選,這對算法的效率要求也非常高。排序部分:對于召回部分篩選出的候選集合,排序部分會對其進(jìn)行更精細(xì)化的打分,根據(jù)不同的優(yōu)化目標(biāo)進(jìn)行排序,例如點擊率、瀏覽時長、轉(zhuǎn)化率等一系列指標(biāo),獲得一份推薦列表。結(jié)果展示部分:結(jié)果展示部分根據(jù)不同的產(chǎn)品需求用不同界面將推薦列表進(jìn)行展示。圖1-2推薦系統(tǒng)的一般流程完整的推薦系統(tǒng)還包括很多輔助模塊,但以上流程是最主要的幾個步驟,本文主要研究其中的召回部分,其承擔(dān)著在海量資源中篩選出候選集合的任務(wù),對其算法的準(zhǔn)確性和效率要求非常高,是推薦系統(tǒng)中的重要組成部分。1.2.2推薦系統(tǒng)的召回方法將用戶和資源表示為向量是推薦系統(tǒng)中常用的方法,特別是在召回階段。這是由于將用戶和資源用向量表示后,可以直接用K最近鄰(k-NearestNeighbor,KNN)[3]方法計算與用戶或者用戶點擊/購買過的資源最相似的k個資源進(jìn)行召回,例如阿里巴巴使用了開源的KNN庫Faiss(FacebookAISimilaritySearch)進(jìn)行向量化的索引召回。Faiss是Facebook開源的主要用于向量相似性搜索的算法庫,包含了在任何大小的矢量集合里進(jìn)行搜索的算法,利用該算法在10億的資源池進(jìn)行向量化召回只需要耗時17.7微秒,完全滿足召回階段的效率要求。因此,工業(yè)級推薦系統(tǒng)在召回階段常常利用向量化進(jìn)行用戶和資源的表示以及相似度計算。由于基于KNN方法進(jìn)行向量化的相似度計算非常高效,因此推薦系統(tǒng)的召回階段常常對內(nèi)容和資源進(jìn)行向量化表示,召回時直接取最相似的k個資源作為候選集。傳統(tǒng)方法主要有基于協(xié)同過濾的方法[4,5,6]和基于內(nèi)容的方法[7,8,9]。隨著分布式表示學(xué)習(xí)[10]的出現(xiàn),利用訓(xùn)練神
華南理工大學(xué)工程碩士學(xué)位論文10表示,再利用用戶向量和資源向量計算用戶相似度和資源相似度進(jìn)行推薦。但這種協(xié)同過濾方法將每個用戶和每個資源都看成獨立的單位,導(dǎo)致評分矩陣非常巨大,在沒有充足的數(shù)據(jù)的情況下,容易出現(xiàn)數(shù)據(jù)稀疏的問題。這與自然語言處理中對詞進(jìn)行獨熱編碼面臨的問題很相似,即同義詞在獨熱編碼中會被視為兩個完全不相關(guān)的詞。自然語言處理中通過用低維的向量對詞進(jìn)行表示,如詞向量,解決獨熱編碼的問題。在推薦領(lǐng)域也可以借鑒這樣的思路,利用低維稠密的向量對用戶和資源進(jìn)行表示,提高泛化性。2.4詞向量詞向量是Google在2013年提出的一種詞向量生成方法,通過詞向量可以為文章中的每個詞訓(xùn)練一個詞向量,使得意思相近的詞的詞向量距離也比較近。在推薦場景中也可以借鑒這種方式,用戶在一定時間范圍內(nèi)點擊資源具有一定的相關(guān)性或者相似性。這與文章中詞的共現(xiàn)性的原理一樣,因此推薦場景也可以利用word2vec對每個資源訓(xùn)練一個向量。詞向量具有兩種訓(xùn)練方式,一種名為CBOW(ContinuousBagofWord),利用詞的上下文對中心詞詞進(jìn)行預(yù)測,如下圖2-1;另一種名為Skip-gram,利用中心詞詞對詞的上下文進(jìn)行預(yù)測,如下圖2-2。下面將對這兩種訓(xùn)練方式進(jìn)行詳細(xì)介紹。圖2-1CBOW訓(xùn)練方式如上圖2-1所示,CBOW的輸入為中心詞的上下文1,2,…,。其中表示訓(xùn)練
本文編號:3242024
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
(a)手機(jī)淘寶
第一章緒論3千以下。此階段篩選的候選集合決定了下一階段排序部分的準(zhǔn)確率的上限,此外由于需要從海量的資源池中進(jìn)行候選集合的篩選,這對算法的效率要求也非常高。排序部分:對于召回部分篩選出的候選集合,排序部分會對其進(jìn)行更精細(xì)化的打分,根據(jù)不同的優(yōu)化目標(biāo)進(jìn)行排序,例如點擊率、瀏覽時長、轉(zhuǎn)化率等一系列指標(biāo),獲得一份推薦列表。結(jié)果展示部分:結(jié)果展示部分根據(jù)不同的產(chǎn)品需求用不同界面將推薦列表進(jìn)行展示。圖1-2推薦系統(tǒng)的一般流程完整的推薦系統(tǒng)還包括很多輔助模塊,但以上流程是最主要的幾個步驟,本文主要研究其中的召回部分,其承擔(dān)著在海量資源中篩選出候選集合的任務(wù),對其算法的準(zhǔn)確性和效率要求非常高,是推薦系統(tǒng)中的重要組成部分。1.2.2推薦系統(tǒng)的召回方法將用戶和資源表示為向量是推薦系統(tǒng)中常用的方法,特別是在召回階段。這是由于將用戶和資源用向量表示后,可以直接用K最近鄰(k-NearestNeighbor,KNN)[3]方法計算與用戶或者用戶點擊/購買過的資源最相似的k個資源進(jìn)行召回,例如阿里巴巴使用了開源的KNN庫Faiss(FacebookAISimilaritySearch)進(jìn)行向量化的索引召回。Faiss是Facebook開源的主要用于向量相似性搜索的算法庫,包含了在任何大小的矢量集合里進(jìn)行搜索的算法,利用該算法在10億的資源池進(jìn)行向量化召回只需要耗時17.7微秒,完全滿足召回階段的效率要求。因此,工業(yè)級推薦系統(tǒng)在召回階段常常利用向量化進(jìn)行用戶和資源的表示以及相似度計算。由于基于KNN方法進(jìn)行向量化的相似度計算非常高效,因此推薦系統(tǒng)的召回階段常常對內(nèi)容和資源進(jìn)行向量化表示,召回時直接取最相似的k個資源作為候選集。傳統(tǒng)方法主要有基于協(xié)同過濾的方法[4,5,6]和基于內(nèi)容的方法[7,8,9]。隨著分布式表示學(xué)習(xí)[10]的出現(xiàn),利用訓(xùn)練神
華南理工大學(xué)工程碩士學(xué)位論文10表示,再利用用戶向量和資源向量計算用戶相似度和資源相似度進(jìn)行推薦。但這種協(xié)同過濾方法將每個用戶和每個資源都看成獨立的單位,導(dǎo)致評分矩陣非常巨大,在沒有充足的數(shù)據(jù)的情況下,容易出現(xiàn)數(shù)據(jù)稀疏的問題。這與自然語言處理中對詞進(jìn)行獨熱編碼面臨的問題很相似,即同義詞在獨熱編碼中會被視為兩個完全不相關(guān)的詞。自然語言處理中通過用低維的向量對詞進(jìn)行表示,如詞向量,解決獨熱編碼的問題。在推薦領(lǐng)域也可以借鑒這樣的思路,利用低維稠密的向量對用戶和資源進(jìn)行表示,提高泛化性。2.4詞向量詞向量是Google在2013年提出的一種詞向量生成方法,通過詞向量可以為文章中的每個詞訓(xùn)練一個詞向量,使得意思相近的詞的詞向量距離也比較近。在推薦場景中也可以借鑒這種方式,用戶在一定時間范圍內(nèi)點擊資源具有一定的相關(guān)性或者相似性。這與文章中詞的共現(xiàn)性的原理一樣,因此推薦場景也可以利用word2vec對每個資源訓(xùn)練一個向量。詞向量具有兩種訓(xùn)練方式,一種名為CBOW(ContinuousBagofWord),利用詞的上下文對中心詞詞進(jìn)行預(yù)測,如下圖2-1;另一種名為Skip-gram,利用中心詞詞對詞的上下文進(jìn)行預(yù)測,如下圖2-2。下面將對這兩種訓(xùn)練方式進(jìn)行詳細(xì)介紹。圖2-1CBOW訓(xùn)練方式如上圖2-1所示,CBOW的輸入為中心詞的上下文1,2,…,。其中表示訓(xùn)練
本文編號:3242024
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3242024.html
最近更新
教材專著