基于主題提取的海量微博情感分析
本文關(guān)鍵詞: 海量微博 聚類 主題提取 情感分類 出處:《南京大學(xué)學(xué)報(bào)(自然科學(xué))》2017年03期 論文類型:期刊論文
【摘要】:從海量微博數(shù)據(jù)中分析公眾對(duì)某一社會(huì)事件的情感傾向具有重要研究意義,而海量微博文本稀疏規(guī)模龐大,導(dǎo)致傳統(tǒng)方法處理這一任務(wù)時(shí)面臨諸多挑戰(zhàn).提出一種基于主題聚類的海量微博情感分析方法.首先基于高質(zhì)量微博數(shù)據(jù)挖掘頻繁項(xiàng)集,設(shè)定語(yǔ)義相關(guān)閾值,篩選重要頻繁項(xiàng)集進(jìn)行譜聚類,得到主題關(guān)鍵詞.基于主題關(guān)鍵詞對(duì)海量微博數(shù)據(jù)依據(jù)語(yǔ)義相關(guān)度歸類,最后結(jié)合情感詞典對(duì)每類中的微博檢索主題關(guān)鍵詞前后修飾距離內(nèi)情感詞及否定詞,結(jié)合表情符號(hào)計(jì)算微博情感值.在百萬(wàn)規(guī)模中文微博上進(jìn)行實(shí)驗(yàn),證明該方法能準(zhǔn)確按主題歸類且能有效在該主題上進(jìn)行情感分類.
[Abstract]:It is of great significance to analyze the emotional tendency of the public on a certain social event from the massive Weibo data. As a result, traditional methods face many challenges when dealing with this task. This paper proposes a massive Weibo affective analysis method based on topic clustering. Firstly, based on the frequent itemset mining of high-quality Weibo data, the semantic correlation threshold is set. The important frequent itemsets are selected for spectral clustering, and the topic keywords are obtained. Based on the topic keywords, the massive Weibo data are classified according to the semantic relevance. Finally, the emotion words and negative words in the distance before and after the subject keywords are retrieved by Weibo in each category are combined with the emotion dictionary, and then the emotional value of Weibo is calculated by using emoji. The experiment is carried out on the million-scale Chinese Weibo. It is proved that this method can accurately classify the subject and can effectively classify the emotion on the topic.
【作者單位】: 山東管理學(xué)院信息工程學(xué)院;南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【基金】:國(guó)家自然科學(xué)基金青年項(xiàng)目(71301086) 山東省電子政務(wù)項(xiàng)目(2150511) 山東省科技廳星火計(jì)劃(2013XH17003) 教育廳科技計(jì)劃(J14LN62)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 肖基毅,鄒臘梅,劉豐;頻繁項(xiàng)集挖掘算法研究[J];情報(bào)雜志;2005年11期
2 蔡進(jìn);薛永生;張東站;;基于分區(qū)分類法快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)工程與應(yīng)用;2007年09期
3 胡學(xué)鋼;徐勇;王德興;張晶;;基于多剪枝格的頻繁項(xiàng)集表示與挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
4 胡學(xué)鋼;劉衛(wèi);王德興;;基于剪枝概念格模型的頻繁項(xiàng)集表示及挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年09期
5 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[J];微電子學(xué)與計(jì)算機(jī);2008年10期
6 李彥偉;戴月明;王金鑫;;一種挖掘加權(quán)頻繁項(xiàng)集的改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年15期
7 陳立潮,張建華,劉玉樹;提高頻繁項(xiàng)集挖掘算法效率的方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2002年10期
8 朱玉全,孫志揮,趙傳申;快速更新頻繁項(xiàng)集[J];計(jì)算機(jī)研究與發(fā)展;2003年01期
9 宋寶莉;張幫華;何炎祥;朱驍峰;;帶有多個(gè)可轉(zhuǎn)化約束的頻繁項(xiàng)集挖掘算法[J];計(jì)算機(jī)科學(xué);2003年12期
10 王自強(qiáng),馮博琴;頻繁項(xiàng)集的簡(jiǎn)潔表示方法研究[J];系統(tǒng)工程理論與實(shí)踐;2004年07期
相關(guān)會(huì)議論文 前10條
1 欒鸞;李云;盛艷;;多關(guān)系頻繁項(xiàng)集的并行獲取[A];2008年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年
2 楊曉明;王晨;汪衛(wèi);張守志;施伯樂;;頻繁項(xiàng)集的精簡(jiǎn)表達(dá)與還原問題研究[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 鄧傳國(guó);;頻繁項(xiàng)集挖掘與學(xué)生素質(zhì)測(cè)評(píng)應(yīng)用研究[A];2007系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2007年
4 李彤巖;李興明;;基于分布式關(guān)聯(lián)規(guī)則挖掘的告警相關(guān)性研究[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2007年
5 王洪利;馮玉強(qiáng);;頻繁項(xiàng)集挖掘算法Apriori的改進(jìn)研究[A];全國(guó)第九屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2005年
6 陳曉云;李龍杰;馬志新;白伸伸;王磊;;AFP-Miner:一種新高效的頻繁項(xiàng)集挖掘算法[A];2006年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2006年
7 李坤;王永炎;王宏安;;一種基于樂觀裁剪策略的挖掘數(shù)據(jù)流滑動(dòng)窗口上閉合頻繁項(xiàng)集的算法[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
8 鄒遠(yuǎn)婭;周皓峰;王晨;汪衛(wèi);施伯樂;;FSC——利用頻繁項(xiàng)集挖掘估算視圖大小[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
9 楊曉雪;衡紅軍;;一種對(duì)XML數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的方法研究[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
10 謝志軍;陳紅;;EFIM——數(shù)據(jù)流上頻繁項(xiàng)集挖掘的高性能算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)博士學(xué)位論文 前3條
1 溫磊;基于有向項(xiàng)集圖的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用[D];天津大學(xué);2004年
2 董杰;基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類研究[D];大連理工大學(xué);2009年
3 賈彩燕;關(guān)聯(lián)規(guī)則挖掘的取樣復(fù)雜性分析[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
相關(guān)碩士學(xué)位論文 前10條
1 王立俊;基于多重最小支持度的氋效用頻繁項(xiàng)集挖掘算法研究[D];廣西大學(xué);2015年
2 陳國(guó)俊;基于Hadoop的云存儲(chǔ)系統(tǒng)的研究與應(yīng)用[D];電子科技大學(xué);2014年
3 尹艷紅;基于Apriori算法的增量式關(guān)聯(lián)規(guī)則控制研究[D];大連理工大學(xué);2015年
4 田苗鳳;大數(shù)據(jù)背景下并行動(dòng)態(tài)關(guān)聯(lián)規(guī)則挖掘研究[D];蘭州交通大學(xué);2015年
5 李雪迪;基于本體論的精細(xì)化數(shù)據(jù)分析[D];南京郵電大學(xué);2015年
6 廖友金;基于有向圖的關(guān)聯(lián)規(guī)則挖掘研究與改進(jìn)[D];東南大學(xué);2015年
7 王蘇琦;基于Hadoop的不確定頻繁項(xiàng)集并行挖掘方法研究[D];南京大學(xué);2013年
8 韓宏瑩;并行數(shù)據(jù)挖掘技術(shù)在電信網(wǎng)管告警中的應(yīng)用研究[D];長(zhǎng)春工業(yè)大學(xué);2016年
9 張敏;頻繁項(xiàng)集挖掘算法在高職院校教師評(píng)價(jià)系統(tǒng)中的應(yīng)用研究[D];長(zhǎng)春工業(yè)大學(xué);2016年
10 林晨;頻繁項(xiàng)集挖掘算法及其基于Spark的并行化研究[D];華東師范大學(xué);2016年
,本文編號(hào):1529295
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1529295.html