基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用
發(fā)布時間:2021-10-15 03:02
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們?nèi)粘I钪惺褂镁W(wǎng)絡(luò)的時刻也越來越多,越來越多的人習慣于在網(wǎng)上針對于社會熱點、時事新聞發(fā)表自己的看法,而互聯(lián)網(wǎng)作為這樣一個自由的虛擬平臺,并不意味著它不需要任何管理,及時發(fā)現(xiàn)話題熱點,遏制不實謠言的傳播,引導輿論向正確的方向發(fā)展,保證一個良好的互聯(lián)網(wǎng)環(huán)境,是互聯(lián)網(wǎng)時代政府相關(guān)工作人員的新職責。然而面對如此海量的文本數(shù)據(jù),如何從中提煉出話題,及時地為之后的管理、引導工作指明方向,正是該項研究工作的第一大難點。本文結(jié)合了自然語言處理、機器學習、大數(shù)據(jù)處理這幾種相關(guān)技術(shù),致力于解決這一難點問題。本文針對網(wǎng)絡(luò)輿情分析中的話題檢測部分,提出了一種基于多特征融合的Single-Pass-SOM組合模型的話題檢測方法。該話題檢測方法分為了兩部分,一部分為文本表示,一部分為話題聚類。針對文本表示部分,本文提出了基于時間衰減因子的LDA&&word2vec文本表示模型,利用LDA模型提取主題特征,利用word2vec模型提取語義特征,將文本的這兩種特征融合在一起,并設(shè)計了時間衰減因子,將時間特征也加入其中,從而獲取更加全面的文本信息,提高話題檢測的精度。針對話...
【文章來源】:中國科學院大學(中國科學院沈陽計算技術(shù)研究所)遼寧省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
第2章相關(guān)技術(shù)研究9第2章相關(guān)技術(shù)研究2.1文本分析概述文本分析,作為自然語言處理的分支之一,一直是機器學習研究的一大熱門領(lǐng)域,它是將非結(jié)構(gòu)化的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的計算機可以理解和處理的信息,從而可以使用分類、聚類等機器學習算法,對結(jié)構(gòu)化的文本信息進行進一步的處理,從而從文本中獲得更多的、更重要的信息,這樣,顯著減少了文本處理的時間,加快了信息獲取的速度。文本分析技術(shù)現(xiàn)在被廣泛應(yīng)用在輿情監(jiān)測、新聞推薦等領(lǐng)域,為人們提供了更多、更便利的應(yīng)用。本文主要研究的是網(wǎng)絡(luò)輿情分析中的話題檢測方法,旨在提高話題檢測的準確率和召回率,以方便相關(guān)人員更容易抓住輿論中的話題熱點,及時引導熱點話題的發(fā)展方向。而在探索熱點話題檢測方法的過程中,文本分析技術(shù)則是必不可少的,其基本流程如圖2.1所示:圖2.1文本分析流程Figure2.1theFlowofTextAnalysis從上圖中可以看出,文本分析主要包括以下五大步驟:(1)文本預處理:文本預處理是對文本數(shù)據(jù)進行粗略的處理操作,過濾掉一些非文本的垃圾信息,對其進行分詞,并去除無任何語義信息的詞語,如虛詞、助詞等。
基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用16的算子封裝等級更高,更容易滿足用戶的實際需求。2.4.3Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)也被稱為伯克利數(shù)據(jù)分析棧(BDAS),其核心框架是Spark。它在Sparkcore的基礎(chǔ)上,涵蓋了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本組件,并且,擁有YARN、Mesos、Standalone等調(diào)度框架。Spark生態(tài)系統(tǒng)結(jié)構(gòu)如圖2.2所示:圖2.2Spark生態(tài)系統(tǒng)Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基礎(chǔ)執(zhí)行引擎,它采用內(nèi)存計算的方式優(yōu)化了迭代計算,加快了數(shù)據(jù)計算的能力,而其他的所有功能,包括內(nèi)存管理、任務(wù)調(diào)度、容錯機制以及文件存儲等,都是建立在Sparkcore之上。并且Sparkcore不僅支持內(nèi)部的調(diào)度框架,而且還支持外部的調(diào)度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一種支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的交互式SQL數(shù)據(jù)查詢工具。用戶可以通過SparkSQL,使用SQL語句或者Hive版本的HQL語句來查詢數(shù)據(jù)。SparkSQL支持多種類型的數(shù)據(jù)源,包括json、Hive表等。而且SparkSQL不僅為用戶提供了一個SQL接口,還支持用戶將SQL語句寫入到應(yīng)用程序中,更為方便快捷。
本文編號:3437306
【文章來源】:中國科學院大學(中國科學院沈陽計算技術(shù)研究所)遼寧省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
第2章相關(guān)技術(shù)研究9第2章相關(guān)技術(shù)研究2.1文本分析概述文本分析,作為自然語言處理的分支之一,一直是機器學習研究的一大熱門領(lǐng)域,它是將非結(jié)構(gòu)化的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的計算機可以理解和處理的信息,從而可以使用分類、聚類等機器學習算法,對結(jié)構(gòu)化的文本信息進行進一步的處理,從而從文本中獲得更多的、更重要的信息,這樣,顯著減少了文本處理的時間,加快了信息獲取的速度。文本分析技術(shù)現(xiàn)在被廣泛應(yīng)用在輿情監(jiān)測、新聞推薦等領(lǐng)域,為人們提供了更多、更便利的應(yīng)用。本文主要研究的是網(wǎng)絡(luò)輿情分析中的話題檢測方法,旨在提高話題檢測的準確率和召回率,以方便相關(guān)人員更容易抓住輿論中的話題熱點,及時引導熱點話題的發(fā)展方向。而在探索熱點話題檢測方法的過程中,文本分析技術(shù)則是必不可少的,其基本流程如圖2.1所示:圖2.1文本分析流程Figure2.1theFlowofTextAnalysis從上圖中可以看出,文本分析主要包括以下五大步驟:(1)文本預處理:文本預處理是對文本數(shù)據(jù)進行粗略的處理操作,過濾掉一些非文本的垃圾信息,對其進行分詞,并去除無任何語義信息的詞語,如虛詞、助詞等。
基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用16的算子封裝等級更高,更容易滿足用戶的實際需求。2.4.3Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)也被稱為伯克利數(shù)據(jù)分析棧(BDAS),其核心框架是Spark。它在Sparkcore的基礎(chǔ)上,涵蓋了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本組件,并且,擁有YARN、Mesos、Standalone等調(diào)度框架。Spark生態(tài)系統(tǒng)結(jié)構(gòu)如圖2.2所示:圖2.2Spark生態(tài)系統(tǒng)Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基礎(chǔ)執(zhí)行引擎,它采用內(nèi)存計算的方式優(yōu)化了迭代計算,加快了數(shù)據(jù)計算的能力,而其他的所有功能,包括內(nèi)存管理、任務(wù)調(diào)度、容錯機制以及文件存儲等,都是建立在Sparkcore之上。并且Sparkcore不僅支持內(nèi)部的調(diào)度框架,而且還支持外部的調(diào)度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一種支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的交互式SQL數(shù)據(jù)查詢工具。用戶可以通過SparkSQL,使用SQL語句或者Hive版本的HQL語句來查詢數(shù)據(jù)。SparkSQL支持多種類型的數(shù)據(jù)源,包括json、Hive表等。而且SparkSQL不僅為用戶提供了一個SQL接口,還支持用戶將SQL語句寫入到應(yīng)用程序中,更為方便快捷。
本文編號:3437306
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3437306.html
最近更新
教材專著