天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于個人數(shù)據(jù)的用戶畫像的算法研究與實現(xiàn)

發(fā)布時間:2021-08-02 21:58
  隨著互聯(lián)網(wǎng)發(fā)展,其用戶規(guī)模以及所產(chǎn)生的數(shù)據(jù)規(guī)模呈指數(shù)級增長,“信息過載”現(xiàn)象也隨之產(chǎn)生。如何從大量的數(shù)據(jù)中提取出對用戶有用的信息、為用戶推薦感興趣的內(nèi)容成為目前各大互聯(lián)網(wǎng)公司面臨的問題。推薦系統(tǒng)可以很好的解決這些問題,用戶畫像作為推薦系統(tǒng)的基礎(chǔ),通過對用戶屬性、行為等信息進行全面分析實現(xiàn)對用戶的分類,從而可以為用戶提供更好的服務(wù),更好的防止用戶的流失。良好的用戶畫像可以提升推薦系統(tǒng)的性能。本文的主要任務(wù)是根據(jù)用戶歷史一個月的搜索詞來對用戶的屬性進行用戶畫像。針對傳統(tǒng)用戶畫像模型在泛化性和準(zhǔn)確率方面的不足,本文研究提出了一種改進的用戶畫像模型。本文提出了一種基于融合算法的二級用戶畫像模型,第一級模型主要實現(xiàn)用戶與搜索用詞在不同層次上的關(guān)聯(lián)關(guān)系的功能;第二級模型利用融合算法對用戶屬性與搜索用詞在不同層次上的關(guān)聯(lián)關(guān)系進行結(jié)合,構(gòu)建搜索用詞與用戶之間的最終映射模型。本文的主要研究工作如下:(1)提出了一種將SVMEM算法。針對人工標(biāo)注數(shù)據(jù)集稀缺的問題,本文通過將SVM與EM結(jié)合,利用少量的人工標(biāo)注的數(shù)據(jù)集和部分未標(biāo)注的數(shù)據(jù)集來訓(xùn)練分類器,降低了人工標(biāo)注的成本。實驗表明,結(jié)... 

【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校

【文章頁數(shù)】:67 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于個人數(shù)據(jù)的用戶畫像的算法研究與實現(xiàn)


用戶畫像標(biāo)簽化

網(wǎng)絡(luò)行為,畫像,數(shù)據(jù),用戶興趣


圖 2-2 用戶畫像構(gòu)建Figure 2-2 User Portrait Construction基礎(chǔ)數(shù)據(jù)收集中的數(shù)據(jù)主要是指網(wǎng)絡(luò)行為數(shù)據(jù)、服務(wù)內(nèi)行為數(shù)據(jù)、用戶興好數(shù)據(jù)、交易數(shù)據(jù)等相關(guān)的用戶數(shù)據(jù)。網(wǎng)絡(luò)行為數(shù)據(jù)是指對網(wǎng)頁的訪問數(shù)網(wǎng)頁的停留時間等相關(guān)數(shù)據(jù);服務(wù)內(nèi)行為數(shù)據(jù)是指瀏覽的路徑、頁面停留時問深度、瀏覽頁面次數(shù)等相關(guān)數(shù)據(jù);用戶內(nèi)容偏好數(shù)據(jù)是指用戶最長瀏覽以藏的內(nèi)容、評價的內(nèi)容、互動內(nèi)容、喜歡的品牌等相關(guān)數(shù)據(jù);用戶交易數(shù)據(jù)用戶的購買數(shù)據(jù)、經(jīng)常買的產(chǎn)品、拒收率、簽收率、回頭率、購買產(chǎn)品的相格等相關(guān)的數(shù)據(jù)。行為建模主要是對上一步驟中收集到的數(shù)據(jù)進行處理,在這個階段中,利器學(xué)習(xí)對用戶的行為、偏好等進行相關(guān)的預(yù)測與評估。類似于 y=kx+b 中的,x 表示已知信息,y 表示用戶的偏好,需要通過不斷的實驗來精確 k 和終可精確的求得 y。行為建模其實是將大概率事件篩選出來,利用相關(guān)的算模型可以排除掉用戶的偶然行為。行為建模中會用到大量的模型對用戶信息標(biāo)簽化,比如:用戶汽車模型、身高體型模型等相關(guān)的模型。

分布情況,標(biāo)簽,多級分類,模型更新


圖 2-3 用戶畫像的模型更新Figure 2-3 Model Updates for User Portraits的方式有兩種,分別為多級標(biāo)簽和多級分類,比如第一級。在第一級標(biāo)簽中,還包括很多類的標(biāo)簽,這一級標(biāo)簽中標(biāo)簽,比如:年齡、性別等類似的標(biāo)簽,而這些人口屬性簽中的分類標(biāo)簽。像的相關(guān)模型,存在有很多的不同的用戶模型的表示方法,比如:基于、基于加權(quán)關(guān)鍵字的向量空間模型的表示法、基于主題模型表示法等。多種表示方法如下所示:理統(tǒng)計分析的表示法:它主要是基于數(shù)學(xué)中的數(shù)理統(tǒng)計的進行計算,分別計算出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系以及分布情況統(tǒng)計、分析和整理并進行歸納和總結(jié)。該表示方法的缺點糙。


本文編號:3318350

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3318350.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7b82***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com