基于動(dòng)態(tài)主題模型的微博用戶分類畫像應(yīng)用研究
發(fā)布時(shí)間:2020-05-30 09:05
【摘要】:近年來,以Facebook、Twitter、新浪微博等為代表的社交網(wǎng)絡(luò)服務(wù)飛速發(fā)展,用戶量和覆蓋率逐年攀升,已經(jīng)成為人們?nèi)粘I钪兄匾纳缃粖蕵贩绞?也成為了各大企業(yè)進(jìn)行品牌建設(shè)、精準(zhǔn)營銷等個(gè)性化服務(wù)的切入點(diǎn)。用戶在社交網(wǎng)站上留下的個(gè)人信息和行為信息,成為企業(yè)研究用戶特征,了解用戶需求,深入剖析用戶的重要數(shù)據(jù)來源。用戶畫像技術(shù)可以通過對(duì)用戶數(shù)據(jù)的分析和挖掘,將用戶表達(dá)為多標(biāo)簽組成的用戶原型,能夠幫助企業(yè)精準(zhǔn)定位目標(biāo)用戶,是后續(xù)個(gè)性化推薦等服務(wù)的基礎(chǔ),有著重要的商業(yè)價(jià)值。在這一背景下,本文主要研究了基于動(dòng)態(tài)主題模型的微博用戶畫像構(gòu)建問題。在傳統(tǒng)的社交用戶畫像構(gòu)建技術(shù)中,研究者將用戶發(fā)布的文本內(nèi)容看做無序的語料庫,進(jìn)而提取用戶的興趣特征。然而,用戶的興趣特征會(huì)隨著時(shí)間發(fā)生變化,近期的特征表現(xiàn)所占權(quán)重更高,更利于準(zhǔn)確的描述用戶特征。因此,本文將時(shí)間因素引入微博用戶的興趣提取流程中,通過動(dòng)態(tài)主題模型分析用戶的興趣在時(shí)間維度上的變化。整體而言,本文的主要內(nèi)容和創(chuàng)新點(diǎn)可以概括為兩個(gè)方面:1.提出了基于動(dòng)態(tài)主題模型的微博用戶興趣提取方法,根據(jù)微博內(nèi)容的時(shí)間戳將語料庫分為不同的時(shí)間切片,實(shí)現(xiàn)主題在時(shí)間軸方向上的演化,最終得出用戶的興趣特征;2.構(gòu)建了不同類型微博用戶的細(xì)分畫像,根據(jù)用戶的活躍度指數(shù)將用戶分為四種不同類別,并結(jié)合用戶的靜態(tài)特征和興趣特征構(gòu)建更加全面的用戶畫像,分析不同類別用戶畫像之間的差異。
【圖文】:
還需要融合用戶在多個(gè)平臺(tái)上的行為數(shù)據(jù),打通信息渠道。用戶在不同類型的社交網(wǎng)站上所表達(dá)出來的信息也表達(dá)了用戶在不同方面的特征屬性。比如,同一個(gè)用戶會(huì)在微博上分享他的日常生活,同時(shí)會(huì)在豆瓣上標(biāo)記和評(píng)論他所喜歡的電影或書籍,這兩者都是刻畫用戶特征的重要組成部分。如果能夠?qū)⑼挥脩粼诓煌缃痪W(wǎng)絡(luò)上的信息整合起來,互相補(bǔ)充,也能夠?qū)τ脩艚S兴鶐椭。解決這一問題的難點(diǎn)在于保證不同網(wǎng)站不同賬戶下的用戶是同一個(gè)人。國外也有很多學(xué)者針對(duì)這一問題,設(shè)計(jì)了賬戶匹配算法,試圖通過用戶基礎(chǔ)屬性的相似度對(duì)比來實(shí)現(xiàn)跨平臺(tái)用戶識(shí)別[21]。2.1.2 用戶畫像構(gòu)建流程目前主流的用戶畫像的生成包括基礎(chǔ)數(shù)據(jù)采集、用戶特征提取和多維畫像構(gòu)建三個(gè)步驟。
主題模型是一種生成模型,它的基礎(chǔ)假定是文檔中不同詞語的生成某一概率模型選定一個(gè)主題,然后再依據(jù)該主題對(duì)詞語的概率分布進(jìn)的。主題模型中的“主題”(topic)表示某一個(gè)方面或概念,表現(xiàn)為一率分布。主題模型中最為常用的兩種是 pLSA 和 LDA,pLSA 中每個(gè)服從多項(xiàng)分布,每個(gè)主題中的詞語也服從多項(xiàng)分布,,而 LDA 模型則上加入了 Dirichlet 先驗(yàn)分布得到的,需要提供先驗(yàn)分布的參數(shù)才能模型估計(jì)。A 方法在形成文檔時(shí),第一步是確定一個(gè)主題向量θ,表示每個(gè)主概率,然后再根據(jù)θ選擇某一主題 z,按照 z 的詞語概率分布生成單詞如下圖所示:
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F49;F274;TP391.1
本文編號(hào):2687912
【圖文】:
還需要融合用戶在多個(gè)平臺(tái)上的行為數(shù)據(jù),打通信息渠道。用戶在不同類型的社交網(wǎng)站上所表達(dá)出來的信息也表達(dá)了用戶在不同方面的特征屬性。比如,同一個(gè)用戶會(huì)在微博上分享他的日常生活,同時(shí)會(huì)在豆瓣上標(biāo)記和評(píng)論他所喜歡的電影或書籍,這兩者都是刻畫用戶特征的重要組成部分。如果能夠?qū)⑼挥脩粼诓煌缃痪W(wǎng)絡(luò)上的信息整合起來,互相補(bǔ)充,也能夠?qū)τ脩艚S兴鶐椭。解決這一問題的難點(diǎn)在于保證不同網(wǎng)站不同賬戶下的用戶是同一個(gè)人。國外也有很多學(xué)者針對(duì)這一問題,設(shè)計(jì)了賬戶匹配算法,試圖通過用戶基礎(chǔ)屬性的相似度對(duì)比來實(shí)現(xiàn)跨平臺(tái)用戶識(shí)別[21]。2.1.2 用戶畫像構(gòu)建流程目前主流的用戶畫像的生成包括基礎(chǔ)數(shù)據(jù)采集、用戶特征提取和多維畫像構(gòu)建三個(gè)步驟。
主題模型是一種生成模型,它的基礎(chǔ)假定是文檔中不同詞語的生成某一概率模型選定一個(gè)主題,然后再依據(jù)該主題對(duì)詞語的概率分布進(jìn)的。主題模型中的“主題”(topic)表示某一個(gè)方面或概念,表現(xiàn)為一率分布。主題模型中最為常用的兩種是 pLSA 和 LDA,pLSA 中每個(gè)服從多項(xiàng)分布,每個(gè)主題中的詞語也服從多項(xiàng)分布,,而 LDA 模型則上加入了 Dirichlet 先驗(yàn)分布得到的,需要提供先驗(yàn)分布的參數(shù)才能模型估計(jì)。A 方法在形成文檔時(shí),第一步是確定一個(gè)主題向量θ,表示每個(gè)主概率,然后再根據(jù)θ選擇某一主題 z,按照 z 的詞語概率分布生成單詞如下圖所示:
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F49;F274;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 曹麗娜;唐錫晉;;基于主題模型的BBS話題演化趨勢(shì)分析[J];管理科學(xué)學(xué)報(bào);2014年11期
2 丁宇新;肖驍;吳美晶;張逸彬;董麗;;基于半監(jiān)督學(xué)習(xí)的社交網(wǎng)絡(luò)用戶屬性預(yù)測(cè)[J];通信學(xué)報(bào);2014年08期
3 廖君華;孫克迎;鐘麗霞;;一種基于時(shí)序主題模型的網(wǎng)絡(luò)熱點(diǎn)話題演化分析系統(tǒng)[J];圖書情報(bào)工作;2013年09期
4 胡艷麗;白亮;張維明;;網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J];國防科技大學(xué)學(xué)報(bào);2012年01期
本文編號(hào):2687912
本文鏈接:http://sikaile.net/guanlilunwen/sjfx/2687912.html
最近更新
教材專著