基于回歸模型與譜聚類的微博突發(fā)話題檢測方法
本文關(guān)鍵詞:基于回歸模型與譜聚類的微博突發(fā)話題檢測方法 出處:《計(jì)算機(jī)工程》2015年12期 論文類型:期刊論文
更多相關(guān)文章: 微博 突發(fā)話題檢測 詞頻分析 回歸模型 譜聚類 大數(shù)據(jù)
【摘要】:微博社交網(wǎng)絡(luò)短文本具有數(shù)據(jù)規(guī)模巨大、快速傳播、模態(tài)多樣、質(zhì)量較低等特性,導(dǎo)致現(xiàn)有傳統(tǒng)的話題檢測與跟蹤技術(shù)在對其進(jìn)行數(shù)據(jù)處理時(shí)面臨復(fù)雜度高、特征稀疏和噪聲干擾等問題。為此,提出一種在回歸預(yù)測和譜聚類基礎(chǔ)上的突發(fā)話題檢測方法。該方法針對關(guān)鍵詞詞頻變動(dòng)趨勢,基于回歸模型,量化微博關(guān)鍵詞的突發(fā)程度,從詞頻趨勢分析的角度準(zhǔn)確地提取出突發(fā)詞集合。設(shè)計(jì)一個(gè)基于譜聚類思想的突發(fā)詞聚類方法提高聚類結(jié)果的準(zhǔn)確性。在大規(guī)模微博數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明,與baseline方法相比,該方法的準(zhǔn)確率、召回率、F值都有較大提高,在微博信息分析領(lǐng)域有著較好的應(yīng)用前景。
[Abstract]:Weibo social network short text has the characteristics of large data scale, rapid transmission, diverse modes, low quality and other characteristics, resulting in the existing traditional topic detection and tracking technology in its data processing faces a high complexity. Based on regression prediction and spectral clustering, a method of burst topic detection is proposed. The method is based on regression model for word frequency change trend of keywords. Quantifying the burst degree of Weibo's keywords. From the angle of word frequency trend analysis, the burst word set is extracted accurately. A burst word clustering method based on spectral clustering is designed to improve the accuracy of the clustering results. Compared with the baseline method, the accuracy of the method and the recall rate of F value are greatly improved, and it has a better application prospect in the field of Weibo information analysis.
【作者單位】: 武漢大學(xué)計(jì)算機(jī)學(xué)院;武漢大學(xué)深圳研究院;
【基金】:國家自然科學(xué)基金資助項(xiàng)目“社會網(wǎng)絡(luò)的主題演化分析與傳播趨勢預(yù)測研究”(61472291) 深圳市知識創(chuàng)新計(jì)劃基礎(chǔ)研究基金資助項(xiàng)目“基于壓縮感知的社交網(wǎng)絡(luò)主題提取與演化分析”
【分類號】:TP393.092;TP391.1
【正文快照】: 中文引用格式:彭敏,張?zhí)┈|,黃佳佳,等.基于回歸模型與譜聚類的微博突發(fā)話題檢測方法[J].計(jì)算機(jī)工程,2015,41(12):176-181.英文引用格式:Peng Min,Zhang Taiwei,Huang Jiajia,et al.Microblog Sudden Topic Detection Method Based onRegression Models and Spectral Clusterin
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王娜;杜海峰;莊健;余進(jìn)濤;王孫安;;三種典型的基于圖分割的譜聚類方法比較[J];系統(tǒng)仿真學(xué)報(bào);2009年11期
2 王會青;陳俊杰;;基于圖劃分的譜聚類方法的研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年01期
3 王春騰;符傳誼;邢潔清;;基于非負(fù)約束的譜聚類方法[J];電腦知識與技術(shù);2011年17期
4 何飛;王曉晨;馬粹;梁治國;;生產(chǎn)狀態(tài)的測地距離譜聚類分析[J];計(jì)算機(jī)工程與應(yīng)用;2012年24期
5 薛寧靜;;生產(chǎn)狀態(tài)的熵值評估譜聚類分析[J];計(jì)算機(jī)工程與應(yīng)用;2012年19期
6 管濤;王杰;;譜聚類的算子理論研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2013年S1期
7 周文剛;陳雷霆;董仕;;基于譜聚類的網(wǎng)絡(luò)流量分類識別算法[J];電子測量與儀器學(xué)報(bào);2013年12期
8 王玲;薄列峰;焦李成;;密度敏感的半監(jiān)督譜聚類[J];軟件學(xué)報(bào);2007年10期
9 林立;胡俠;朱俊彥;;基于譜聚類的多文檔摘要新方法[J];計(jì)算機(jī)工程;2010年22期
10 劉馨月;李靜偉;于紅;尤全增;林鴻飛;;基于共享近鄰的自適應(yīng)譜聚類[J];小型微型計(jì)算機(jī)系統(tǒng);2011年09期
相關(guān)博士學(xué)位論文 前1條
1 孔敏;關(guān)聯(lián)圖的譜分析及譜聚類方法研究[D];安徽大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 何心琪;基于譜聚類的水聲圖像分割技術(shù)研究[D];哈爾濱工程大學(xué);2013年
2 趙冬琴;基于譜聚類的MCI影像學(xué)分類特征研究與應(yīng)用[D];太原理工大學(xué);2014年
3 張俊英;基于譜聚類的圖書目錄重構(gòu)[D];浙江大學(xué);2010年
4 張?zhí)鞆?qiáng);基于譜聚類的親友通話圈挖掘[D];華南理工大學(xué);2013年
5 鄭偉;基于核與特征選擇的譜聚類社區(qū)檢測算法[D];西安電子科技大學(xué);2013年
6 朱正偉;譜聚類研究及其在入侵檢測中的應(yīng)用[D];重慶大學(xué);2010年
7 由里;基于譜聚類的圖像分割方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 張洪;結(jié)合概率潛在語義分析的文本譜聚類研究[D];重慶大學(xué);2012年
9 陳志豪;基于阻尼距離的譜聚類集成算法研究與實(shí)現(xiàn)[D];華南理工大學(xué);2013年
10 鄧小燕;譜聚類在基因表達(dá)數(shù)據(jù)分析中的應(yīng)用與研究[D];重慶大學(xué);2010年
,本文編號:1437214
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1437214.html