用戶驅(qū)動(dòng)的微博可視化搜索
【圖文】:
,以微博源用戶驅(qū)動(dòng)微博搜索過程。2本文方法首先對(duì)微博源數(shù)據(jù)進(jìn)行預(yù)處理,抽取出微博用戶行為特征和興趣特征,建立微博用戶模型庫(kù)。在給定檢索詞條件下,基于用戶模型庫(kù)構(gòu)建用戶興趣特征網(wǎng)絡(luò)(特征詞-用戶網(wǎng)絡(luò)),再基于檢索詞執(zhí)行關(guān)注度傳遞算法,計(jì)算興趣特征詞、微博用戶的搜索相關(guān)性;谂d趣特征詞與檢索詞間的相關(guān)性進(jìn)行擴(kuò)展查詢,基于微博用戶與檢索詞間的相關(guān)性縮小微博搜索空間,提高搜索效率,并且用氣泡圖(bub-blecloud)可視化出特征詞、用戶的搜索相關(guān)性,提供交互式的微博搜索可視化接口,其流程圖如圖1所示。圖1流程圖Fig.1Flowchart2.1用戶建模用戶建模分為用戶興趣特征建模和用戶行為特征建模兩部分。2.1.1用戶興趣特征建模新浪微博作為一個(gè)信息分享平臺(tái),用戶可以通過網(wǎng)頁(yè)、外部程序,手機(jī)短信、彩信等發(fā)布140漢字(280字符)以內(nèi)的信息,并可包含圖片、視頻鏈接、網(wǎng)頁(yè)鏈接的資源,來分享他們的感興趣的信息。本文將從微博文本內(nèi)容中提取出用戶的興趣特征。首先要對(duì)微博條目進(jìn)行過濾處理,刪除掉一些與用戶興趣無關(guān)的內(nèi)容,如圖片、視頻鏈接,表情,以及微博常用詞語(yǔ)、符號(hào),如“轉(zhuǎn)發(fā)微博”,“//@用戶名”,“#”等。借助漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(http://ict-clas.nlpir.org/)以每個(gè)用戶為單位對(duì)其微博文本進(jìn)行分詞和POS(PartofSpeech)詞性標(biāo)注。POS標(biāo)注主要包含名詞、時(shí)間詞、處所詞、動(dòng)詞、形容詞、外文單詞等,其中名詞(n)包含以下幾個(gè)子類:人名(nr)、地名(ns)、機(jī)構(gòu)團(tuán)體名(nt)等。由于本文關(guān)注的是用戶的興趣特征,所以借助POS標(biāo)注,過濾掉除名詞和外文詞外的其他詞,并計(jì)算用戶微博詞頻。這里使用向量空間模型(VSM)來描述用戶微博,表示為Dk=(〈ti,tf1〉,〈t2,tf2
第20卷/第5期/2015年5月周霞娟,汪飛,金玲,陳為,,王章野/用戶驅(qū)動(dòng)的微博可視化搜索0719圖2用戶-特征詞關(guān)系圖Fig.2User-featurewordrelationship(〈u1,w1〉,〈u2,w2〉,…,〈unk,wnk〉)k,nk為與Tk關(guān)聯(lián)的用戶數(shù)。基于檢索詞的用戶可以表示為U(k)={wq,k,Behk,Dk}。給定檢索詞q,可以從用戶興趣特征網(wǎng)絡(luò)中提取出搜索關(guān)注子網(wǎng),關(guān)注子網(wǎng)以檢索詞q為中心。如果搜索者關(guān)注特征詞q,將有可能關(guān)注與q連接的微博用戶u,同時(shí)如果用戶關(guān)注u,那么也會(huì)關(guān)注與u相關(guān)的特征詞,以此類推,搜索關(guān)注度將會(huì)在關(guān)注子網(wǎng)傳遞。下面,將在關(guān)注子網(wǎng)執(zhí)行關(guān)注度傳遞算法,計(jì)算用戶對(duì)特征詞、微博用戶的關(guān)注度。初始狀態(tài)下,給定檢索詞q,其關(guān)注度為Att(q)=1.0,其他特征詞與用戶的被關(guān)注度初始值為0。每一次迭代分為兩個(gè)過程,如圖3所示,關(guān)注度由詞結(jié)點(diǎn)傳遞給用戶結(jié)點(diǎn),再由用戶結(jié)點(diǎn)傳遞給詞結(jié)點(diǎn)。如此不斷迭代,直至用戶和詞結(jié)點(diǎn)的關(guān)注度值趨于穩(wěn)定狀態(tài)。圖3關(guān)注度迭代過程Fig.3Iterationprocessofattentiondegree詞結(jié)點(diǎn)ti到用戶結(jié)點(diǎn)uj的關(guān)注度傳遞過程計(jì)算公式為Att(uj)=wti(uj)ΣNuk=1wti(uk)·Att(ti)(6)Nu為與詞結(jié)點(diǎn)ti關(guān)聯(lián)的用戶數(shù),wti(uj)為詞結(jié)點(diǎn)ti到用戶結(jié)點(diǎn)uj的關(guān)注度傳遞系數(shù),同時(shí)考慮用戶的興趣特征權(quán)重和用戶行為特征,定義為wti(uj)=θ·wti,uj+(1-θ)·wbeh(uj),其中wti,uj為用戶uj興趣特征向量中對(duì)應(yīng)于特征詞ti的權(quán)重,wbeh(uj)為用戶uj的行為特征值,θ為調(diào)節(jié)參數(shù)。θ取值范圍為[0,1],搜索者可以依據(jù)自己的搜索需求進(jìn)
【作者單位】: 浙江大學(xué)CAD&CG國(guó)家重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61232012);國(guó)家自然科學(xué)基金面上項(xiàng)目(61272302) 浙江省自然科學(xué)基金項(xiàng)目(LR13F020001) 教育部博士點(diǎn)基金項(xiàng)目(20120101110134)
【分類號(hào)】:TP393.092;TP391.3
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 王晶;朱珂;汪斌強(qiáng);;基于信息數(shù)據(jù)分析的微博研究綜述[J];計(jì)算機(jī)應(yīng)用;2012年07期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 陳舜華;王曉彤;郝志峰;蔡瑞初;肖曉軍;盧宇;;基于微博API的分布式抓取技術(shù)[J];電信科學(xué);2013年08期
2 游翔;葛衛(wèi)麗;;微博數(shù)據(jù)獲取技術(shù)及展望[J];電子科技;2014年10期
3 許筠蕓;陸賢彬;;移動(dòng)社會(huì)化媒體技術(shù)接受與匹配影響因素研究——以移動(dòng)微博客戶端發(fā)布行為為例[J];經(jīng)濟(jì)與管理;2013年02期
4 吳凱;季新生;劉彩霞;;基于行為預(yù)測(cè)的微博網(wǎng)絡(luò)信息傳播建模[J];計(jì)算機(jī)應(yīng)用研究;2013年06期
5 陳慧娟;鄭嘯;陳欣;;微博網(wǎng)絡(luò)信息傳播研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2014年02期
6 鄭眾杰;林學(xué)練;;SFEN-Inf:一種微博信息傳播網(wǎng)絡(luò)推理算法[J];計(jì)算機(jī)研究與發(fā)展;2014年S2期
7 鄒艷菁;;基于語(yǔ)料庫(kù)的中文微博話語(yǔ)特征研究初探[J];中國(guó)報(bào)業(yè);2012年18期
8 李祥;;群體性突發(fā)事件微博輿情演化分析[J];科技資訊;2014年34期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 尹航;信息推薦系統(tǒng)中的協(xié)同過濾技術(shù)研究[D];東北大學(xué);2012年
2 王新媛;基于本體建模的微博信息管理機(jī)理研究[D];吉林大學(xué);2015年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 許曉東;肖銀濤;朱士瑞;;微博社區(qū)的謠言傳播仿真研究[J];計(jì)算機(jī)工程;2011年10期
2 李爽;;從微博中挖掘有用信息[J];網(wǎng)絡(luò)與信息;2011年06期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 翟東海;杜佳;崔靜靜;聶洪玉;;基于雙粒度模型的中文情感特征詞提取研究[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
2 李廣原;一種特征詞權(quán)重調(diào)整算法的研究[J];電腦與信息技術(shù);2005年04期
3 李德容;干靜;張s
本文編號(hào):2522249
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2522249.html