基于句子成分的微博熱點主題挖掘模型研究
發(fā)布時間:2018-01-07 15:08
本文關(guān)鍵詞:基于句子成分的微博熱點主題挖掘模型研究 出處:《情報科學(xué)》2015年11期 論文類型:期刊論文
更多相關(guān)文章: 句法分析 知網(wǎng) 熱點主題 句子成分
【摘要】:由于傳統(tǒng)聚類分析中文本相似度計算方法不適用于短文本,本文選用基于句子成分的相似度計算方法來計算微博文本之間的相似度。首先對文本進行句子劃分,再通過句法分析獲取微博的句子成分,選擇構(gòu)成句子成分的詞語為特征詞。利用知網(wǎng)計算兩個微博文本之間相同成分詞語的語義相似度,將語義相似度值按句子成分種類加權(quán)相加得到微博文本之間的相似度值。據(jù)此,構(gòu)建文本相似矩陣,進行聚類分析,找到微博熱點主題。最后,用實驗證明本文方法的可行性。
[Abstract]:Because the traditional clustering analysis Chinese text similarity calculation method is not suitable for short text, this paper uses the similarity calculation method based on sentence components to calculate the similarity between Weibo text. Firstly, the text is divided into sentences. Then the syntactic analysis is used to obtain the sentence components of Weibo, and the words that constitute the sentence components are selected as feature words. The semantic similarity of the same component words between the two Weibo texts is calculated by using the knowledge net. The semantic similarity value is weighted according to sentence composition category to get the similarity value between Weibo texts. Based on this, text similarity matrix is constructed, clustering analysis is carried out, and Weibo hot topic is found. Finally. The feasibility of this method is proved by experiments.
【作者單位】: 南京大學(xué)信息管理學(xué)院;武漢大學(xué)信息管理學(xué)院;
【基金】:國家自然科學(xué)基金項目(71273194)
【分類號】:TP391.1;TP393.092
【正文快照】: 1引言隨著互聯(lián)網(wǎng)技術(shù)的進步,社會化媒體得到迅速普及,微博更是發(fā)展迅速。2011年社科院發(fā)布的《社會藍皮書》指出【1】:傳統(tǒng)的社會輿論格局正在被微博等網(wǎng)絡(luò)平臺所改變,微博話題成為其中最具影響力的一種【2】,因此對微博數(shù)據(jù)進行熱點挖掘研究意義重大。由于微博數(shù)據(jù)有文本長度
【參考文獻】
相關(guān)期刊論文 前10條
1 蔡淑琴;張靜;王e,
本文編號:1393067
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1393067.html
最近更新
教材專著