基于LSA和結(jié)構(gòu)特性的微博話題檢測(cè)
發(fā)布時(shí)間:2017-12-06 06:26
本文關(guān)鍵詞:基于LSA和結(jié)構(gòu)特性的微博話題檢測(cè)
更多相關(guān)文章: 微博 話題檢測(cè) 文本聚類 語(yǔ)義空間 潛在語(yǔ)義分析
【摘要】:針對(duì)傳統(tǒng)的話題檢測(cè)方法在處理大規(guī)模微博短文本時(shí)出現(xiàn)的降維能力不足和語(yǔ)義信息丟失等問(wèn)題,提出基于潛在語(yǔ)義分析和結(jié)構(gòu)特性相結(jié)合的微博話題檢測(cè)方法。根據(jù)微博的對(duì)話屬性和傳播模型,首先要合并微博討論樹(shù)擴(kuò)展微博文本,創(chuàng)建基于潛在語(yǔ)義分析(LSA)的微博文本模型以解決數(shù)據(jù)稀疏性問(wèn)題,最后結(jié)合時(shí)間信息給出新的相似度計(jì)算方法,并采用凝聚層次聚類法檢測(cè)微博話題。實(shí)驗(yàn)結(jié)果表明,提出的方法降低了話題檢測(cè)的錯(cuò)失率,大大提高了微博話題檢測(cè)的性能。
【作者單位】: 上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61074087) 上海市教育委員會(huì)科研創(chuàng)新項(xiàng)目(12ZZ144) 上海市一流學(xué)科(系統(tǒng)科學(xué))資助項(xiàng)目(XTKX2012)
【分類號(hào)】:TP391.1;TP393.092
【正文快照】: 0引言微博是一種基于Web 2.0技術(shù)實(shí)現(xiàn)的社會(huì)媒體(socialmedia),其允許用戶通過(guò)Web、WAP以及各種客戶端設(shè)備及時(shí)更新簡(jiǎn)短文本并公開(kāi)發(fā)布,是一種基于用戶關(guān)系的信息分享、傳播及獲取平臺(tái)。隨著網(wǎng)絡(luò)全球化進(jìn)程的加快以及移動(dòng)技術(shù)的推廣,微博已經(jīng)成為了網(wǎng)絡(luò)輿論的主要源頭和重要的
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 陳國(guó)蘭;孫國(guó)梓;;微博平臺(tái)監(jiān)測(cè)網(wǎng)絡(luò)突發(fā)事件的關(guān)鍵問(wèn)題研究[J];情報(bào)探索;2014年08期
2 ;[J];;年期
,本文編號(hào):1257676
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1257676.html
最近更新
教材專著