基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用

發(fā)布時間：2021-10-15 03:02

　　隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們?nèi)粘Ｉ钪惺褂镁W(wǎng)絡(luò)的時刻也越來越多,越來越多的人習慣于在網(wǎng)上針對于社會熱點、時事新聞發(fā)表自己的看法,而互聯(lián)網(wǎng)作為這樣一個自由的虛擬平臺,并不意味著它不需要任何管理,及時發(fā)現(xiàn)話題熱點,遏制不實謠言的傳播,引導輿論向正確的方向發(fā)展,保證一個良好的互聯(lián)網(wǎng)環(huán)境,是互聯(lián)網(wǎng)時代政府相關(guān)工作人員的新職責。然而面對如此海量的文本數(shù)據(jù),如何從中提煉出話題,及時地為之后的管理、引導工作指明方向,正是該項研究工作的第一大難點。本文結(jié)合了自然語言處理、機器學習、大數(shù)據(jù)處理這幾種相關(guān)技術(shù),致力于解決這一難點問題。本文針對網(wǎng)絡(luò)輿情分析中的話題檢測部分,提出了一種基于多特征融合的Single-Pass-SOM組合模型的話題檢測方法。該話題檢測方法分為了兩部分,一部分為文本表示,一部分為話題聚類。針對文本表示部分,本文提出了基于時間衰減因子的LDA&&word2vec文本表示模型,利用LDA模型提取主題特征,利用word2vec模型提取語義特征,將文本的這兩種特征融合在一起,并設(shè)計了時間衰減因子,將時間特征也加入其中,從而獲取更加全面的文本信息,提高話題檢測的精度。針對話...

【文章來源】：中國科學院大學(中國科學院沈陽計算技術(shù)研究所)遼寧省

【文章頁數(shù)】：71 頁

【學位級別】：碩士

【部分圖文】：

網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率

流程圖,流程,文本,輿情

第2章相關(guān)技術(shù)研究9第2章相關(guān)技術(shù)研究2.1文本分析概述文本分析，作為自然語言處理的分支之一，一直是機器學習研究的一大熱門領(lǐng)域，它是將非結(jié)構(gòu)化的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的計算機可以理解和處理的信息，從而可以使用分類、聚類等機器學習算法，對結(jié)構(gòu)化的文本信息進行進一步的處理，從而從文本中獲得更多的、更重要的信息，這樣，顯著減少了文本處理的時間，加快了信息獲取的速度。文本分析技術(shù)現(xiàn)在被廣泛應(yīng)用在輿情監(jiān)測、新聞推薦等領(lǐng)域，為人們提供了更多、更便利的應(yīng)用。本文主要研究的是網(wǎng)絡(luò)輿情分析中的話題檢測方法，旨在提高話題檢測的準確率和召回率，以方便相關(guān)人員更容易抓住輿論中的話題熱點，及時引導熱點話題的發(fā)展方向。而在探索熱點話題檢測方法的過程中，文本分析技術(shù)則是必不可少的，其基本流程如圖2.1所示：圖2.1文本分析流程Figure2.1theFlowofTextAnalysis從上圖中可以看出，文本分析主要包括以下五大步驟：（1）文本預處理：文本預處理是對文本數(shù)據(jù)進行粗略的處理操作，過濾掉一些非文本的垃圾信息，對其進行分詞，并去除無任何語義信息的詞語，如虛詞、助詞等。

生態(tài)系統(tǒng)

基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用16的算子封裝等級更高，更容易滿足用戶的實際需求。2.4.3Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)也被稱為伯克利數(shù)據(jù)分析棧（BDAS），其核心框架是Spark。它在Sparkcore的基礎(chǔ)上，涵蓋了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本組件，并且，擁有YARN、Mesos、Standalone等調(diào)度框架。Spark生態(tài)系統(tǒng)結(jié)構(gòu)如圖2.2所示：圖2.2Spark生態(tài)系統(tǒng)Figure2.2theEcosystemofSpark（1）SparkcoreSparkcore是Spark框架的通用基礎(chǔ)執(zhí)行引擎，它采用內(nèi)存計算的方式優(yōu)化了迭代計算，加快了數(shù)據(jù)計算的能力，而其他的所有功能，包括內(nèi)存管理、任務(wù)調(diào)度、容錯機制以及文件存儲等，都是建立在Sparkcore之上。并且Sparkcore不僅支持內(nèi)部的調(diào)度框架，而且還支持外部的調(diào)度框架。（2）SparkSQL（Armbrust等，2015）SparkSQL是一種支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的交互式SQL數(shù)據(jù)查詢工具。用戶可以通過SparkSQL，使用SQL語句或者Hive版本的HQL語句來查詢數(shù)據(jù)。SparkSQL支持多種類型的數(shù)據(jù)源，包括json、Hive表等。而且SparkSQL不僅為用戶提供了一個SQL接口，還支持用戶將SQL語句寫入到應(yīng)用程序中，更為方便快捷。

本文編號：3437306

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3437306.html

上一篇：基于全卷積網(wǎng)絡(luò)的乳腺超聲圖像語義分割方法
下一篇：基于ZigBee/GPRS的管道漏水信號采集系統(tǒng)軟件設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用