天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博輿情分析系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2018-06-26 02:17

  本文選題:微博輿情 + 微博API。 參考:《華南理工大學》2015年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,微博作為一個新興的社交網(wǎng)絡(luò)平臺,得到了廣泛的應(yīng)用。在滿足了人們的網(wǎng)絡(luò)社交需求的同時,微博也成為了網(wǎng)絡(luò)輿情發(fā)生與傳播的重要場域,微博輿情分析的必要性也日益凸顯。微博具有文本簡短、傳播較快、數(shù)據(jù)量大等特征,故而微博輿情分析與傳統(tǒng)的網(wǎng)絡(luò)輿情分析相比存在許多不同。本文對網(wǎng)絡(luò)輿情分析的相關(guān)技術(shù)進行研究,結(jié)合微博的特點,設(shè)計并實現(xiàn)了一個微博輿情分析系統(tǒng)。本文中的微博輿情分析系統(tǒng)主要有這些特征:第一,通過調(diào)用微博API實現(xiàn)對微博數(shù)據(jù)的實時采集,同時應(yīng)用微博過濾策略,對原始微博數(shù)據(jù)進行過濾;第二,調(diào)用NLPIR系統(tǒng)接口對微博文本進行中文分詞與詞性標注,并自建一個用戶詞典,擴展了用戶在分詞過程中的自主能力;第三,應(yīng)用停用詞過濾策略,從詞匯詞性、詞匯長度、停用詞表三個方面進行停用詞過濾,剔除文本信息量較低的詞匯;第四,對微博文本集合進行低頻詞過濾,在此基礎(chǔ)上建立LDA主題模型,并以困惑度為評價標準,選擇LDA主題模型的最優(yōu)主題數(shù),最后將微博文本表征為主題向量的形式;第五,以Jensen-Shannon距離作為相似性度量標準,對微博文本集合進行K-MEANS聚類分析,并考慮了LDA主題模型最優(yōu)主題數(shù)與文本類別數(shù)之間存在的聯(lián)系,將初始K值設(shè)置為與最優(yōu)主題數(shù)相關(guān)。第六,從微博文本的主題概率分布的角度出發(fā),提取微博文本聚類結(jié)果中的話題信息,并考慮了微博的時序特征,以微博數(shù)量和增長速度為標準,評判話題的熱度并對其進行排序。
[Abstract]:With the rapid development of the Internet, Weibo, as a new social network platform, has been widely used. At the same time, Weibo has become an important field for the occurrence and dissemination of network public opinion, and the necessity of Weibo public opinion analysis has become increasingly prominent. Weibo has the characteristics of short text, fast transmission and large amount of data, so there are many differences between Weibo public opinion analysis and traditional network public opinion analysis. Based on the characteristics of Weibo, a Weibo public opinion analysis system is designed and implemented in this paper. The Weibo public opinion analysis system in this paper mainly has these characteristics: first, by calling the Weibo API to realize the real-time collection of Weibo data, at the same time, using the Weibo filtering strategy to filter the original Weibo data; second, Using NLPIR system interface, the Chinese word segmentation and part of speech tagging of Weibo text are carried out, and a user dictionary is built to expand the autonomous ability of the user in the process of word segmentation. Three aspects of stop word list are used to filter the stop word and eliminate the words with low text information. Fourthly, the low frequency word filter is carried out on the text set of Weibo. Based on this, the topic model of Weibo is established, and the degree of confusion is taken as the evaluation standard. Finally, the Weibo text is represented as the form of topic vector. Fifth, using Jensen-Shannon distance as similarity measure, K-MEANS clustering analysis of Weibo text set is carried out. Considering the relationship between the optimal number of topics and the number of text categories in the LDA topic model, the initial K value is set to be related to the optimal number of topics. Sixth, from the point of view of the topic probability distribution of Weibo text, the topic information is extracted from the clustering result of Weibo text, and the temporal characteristics of Weibo are considered, which is based on the quantity and growth rate of Weibo. Judge the heat of the topic and rank it.
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092

【參考文獻】

相關(guān)期刊論文 前7條

1 龍樹全;趙正文;唐華;;中文分詞算法概述[J];電腦知識與技術(shù);2009年10期

2 劉志明;劉魯;;微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J];系統(tǒng)工程;2011年06期

3 劉群,張華平,俞鴻魁,程學旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期

4 周欽強,孫炳達,王義;文本自動分類系統(tǒng)文本預(yù)處理方法的研究[J];計算機應(yīng)用研究;2005年02期

5 羅杰;陳力;夏德麟;王凱;;基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J];計算機應(yīng)用研究;2006年04期

6 胡潔;;高維數(shù)據(jù)特征降維研究綜述[J];計算機應(yīng)用研究;2008年09期

7 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學報;2012年01期

相關(guān)碩士學位論文 前4條

1 楊冠超;微博客熱點話題發(fā)現(xiàn)策略研究[D];浙江大學;2011年

2 張嵐嵐;新浪微博的網(wǎng)絡(luò)輿情分析研究[D];華東師范大學;2011年

3 任剛;面向?qū)W科相關(guān)性分析的文本關(guān)聯(lián)規(guī)則挖掘技術(shù)研究[D];中南大學;2011年

4 魯芳;多重文本數(shù)字水印技術(shù)研究[D];湖南大學;2005年

,

本文編號:2068618

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2068618.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶051ad***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com