微博用戶的相似性度量及其應(yīng)用
本文關(guān)鍵詞:微博用戶的相似性度量及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
1期
徐志明等:微博用戶的相似性度量及其應(yīng)用
209
括可分為幾個部分:數(shù)據(jù)獲取、節(jié)點分析、關(guān)系分析、博用戶關(guān)系分析的技術(shù)平臺(如圖1所示),本文下網(wǎng)絡(luò)分析、信息推薦.將它們組合起來,形成一個微
面分別詳細介紹各個部分的工作原理.
微博數(shù)據(jù)獲取
!
i微博節(jié)點分析
微博關(guān)系分析
t
/
l熟尋茍點。}
列表/
微博用戶信息
微博用戶表示
:屬性相似度計算I
0
l背景信息I
。I
8目女;I一
H背景相似度I:
l微博I
用戶
l爬蟲】
I微博文本l
{—一文本相似度I
相似
』
I…。…’o:;o。。!唬
bl文本向量I-
{{;。。h…。:∥
Ij\人度計
算
l∈博數(shù)據(jù)庫葉
I社交信息I;卜1I社交向量lII:71”x+'IEIo”“I
。
l交互行為1
-I姬頻次向量I
,l交互性I
一
微博網(wǎng)絡(luò)分析.
●
用戶相似性網(wǎng)絡(luò)
。1mⅫ日¨**i7llml圩Ⅲm】6Ⅷ
。l_{Ⅻ』b““J1。lmⅫ-mH★&#7l…““”“11
l””“”1‘”
.
一’
圖1微博用戶關(guān)系分析的技術(shù)平臺
2.1微博數(shù)據(jù)獲取
(2)Tweet(U):表示U發(fā)布的全部微博所拼接該部分根據(jù)新浪微博開放平臺的API接口,設(shè)成的長文本.本文將其表示為一個文本向量.過程
計了一個微博爬蟲算法.它選擇一組微博用戶作為如下:
種子節(jié)點,利用雪球采樣策略采集一組微博用戶的文本預(yù)處理.對Tweet(“)進行分詞、停用詞過個人數(shù)據(jù),作為本文的實驗數(shù)據(jù).主要思想如下.
濾、詞性標(biāo)注等處理;
(1)選擇一組微博用戶{1D,,ID。,…,ID。)作特征提取.采用信息增益的特征選擇算法提取為種子節(jié)點,加入待爬行節(jié)點隊列Q.
Tweet(“)的特征詞,對文本進行降維處理;
(2)如果Q—NULL或超過閾值(預(yù)設(shè)的爬行權(quán)重計算.Tweet(U)中的每個特征詞i的權(quán)時間或擴展層數(shù)),則退出;否則從Q中取出一個用重硼。,本文采用£,*idf方法來計算,即硼i=戶lDt.
tf,(Tweet(“))×logN/ni,其中tf,(Tweet(M))表示(3)利用新浪微博API訪問函數(shù),抓取該用戶特征詞i在Tweet(“)中的頻率,logN/ni為特征詞i節(jié)點ID。的個人信息,將用戶的背景信息(位置信
的逆文檔頻率.
息、標(biāo)簽信息、個人描述)、社交信息(關(guān)注信息、粉絲
向量表示.Tweet(甜)一(訓(xùn)l,訓(xùn)2,…,訓(xùn)。),其中信息)、微博文本、交互信息(轉(zhuǎn)發(fā)信息、評論信息),硼,為微博文本的某個特征詞i的權(quán)重.
分別存入微博用戶信息數(shù)據(jù)庫.
(3)Relation(“):表示U的社交信息,包括兩種(4)擴展該節(jié)點ID。,將其鄰居節(jié)點(ID。的關(guān)注屬性信息(關(guān)注信息、粉絲信息),本文將它們分列表中的全部用戶ID)加入Q,轉(zhuǎn)到(2).別表示為兩個向量:關(guān)注向量Followee(“)、粉絲向2.2微博節(jié)點分析
量Follower(U),則Relation(U)一{Followee(U),該部分討論微博用戶信息的模型表示方法.對Follower(“)).具體方法是:將所有用戶編號{0,1,于給定的一個用戶“,,其用戶信息包含4種屬性信2,…,n},若用戶“關(guān)注了編號為i的用戶,則息(背景信息、微博文本、社交信息、交互信息),因此Followee(“)的第i個分量為1,否則為0;同理,如果U的模型表示問題可分解為4種屬性信息表示問編號為i的用戶關(guān)注了用戶U,則Follower(“)的第題.即Profile(U)一{Background(“),Tweet(U),i個分量為l,否則為0.
Relation(u),Interaction(“)),具體說明如下:
(4)Interaction(“):表示U的交互信息,包括(1)Background(“):表示U的背景信息,包含兩種屬性信息(gq發(fā)信息、評論信息).本文將它們U的3種屬性信息(位置信息、標(biāo)簽信息、個人描述),分別表示為兩個向量:轉(zhuǎn)發(fā)向量Retweet(“)、評論均是短文本,可表示為字符串.Background(U)一
向量Comment(U).Interaction(U)={Retweet(U),{Place(“),Tag(“),Introduction(“)}.
Comment(“)).具體方法是:將所有用戶編號{0,1,
本文關(guān)鍵詞:微博用戶的相似性度量及其應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號:232071
本文鏈接:http://sikaile.net/wenshubaike/xxkj/232071.html