基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用
發(fā)布時(shí)間:2021-10-15 03:02
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們?nèi)粘I钪惺褂镁W(wǎng)絡(luò)的時(shí)刻也越來(lái)越多,越來(lái)越多的人習(xí)慣于在網(wǎng)上針對(duì)于社會(huì)熱點(diǎn)、時(shí)事新聞發(fā)表自己的看法,而互聯(lián)網(wǎng)作為這樣一個(gè)自由的虛擬平臺(tái),并不意味著它不需要任何管理,及時(shí)發(fā)現(xiàn)話題熱點(diǎn),遏制不實(shí)謠言的傳播,引導(dǎo)輿論向正確的方向發(fā)展,保證一個(gè)良好的互聯(lián)網(wǎng)環(huán)境,是互聯(lián)網(wǎng)時(shí)代政府相關(guān)工作人員的新職責(zé)。然而面對(duì)如此海量的文本數(shù)據(jù),如何從中提煉出話題,及時(shí)地為之后的管理、引導(dǎo)工作指明方向,正是該項(xiàng)研究工作的第一大難點(diǎn)。本文結(jié)合了自然語(yǔ)言處理、機(jī)器學(xué)習(xí)、大數(shù)據(jù)處理這幾種相關(guān)技術(shù),致力于解決這一難點(diǎn)問(wèn)題。本文針對(duì)網(wǎng)絡(luò)輿情分析中的話題檢測(cè)部分,提出了一種基于多特征融合的Single-Pass-SOM組合模型的話題檢測(cè)方法。該話題檢測(cè)方法分為了兩部分,一部分為文本表示,一部分為話題聚類。針對(duì)文本表示部分,本文提出了基于時(shí)間衰減因子的LDA&&word2vec文本表示模型,利用LDA模型提取主題特征,利用word2vec模型提取語(yǔ)義特征,將文本的這兩種特征融合在一起,并設(shè)計(jì)了時(shí)間衰減因子,將時(shí)間特征也加入其中,從而獲取更加全面的文本信息,提高話題檢測(cè)的精度。針對(duì)話...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)遼寧省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
第2章相關(guān)技術(shù)研究9第2章相關(guān)技術(shù)研究2.1文本分析概述文本分析,作為自然語(yǔ)言處理的分支之一,一直是機(jī)器學(xué)習(xí)研究的一大熱門領(lǐng)域,它是將非結(jié)構(gòu)化的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的計(jì)算機(jī)可以理解和處理的信息,從而可以使用分類、聚類等機(jī)器學(xué)習(xí)算法,對(duì)結(jié)構(gòu)化的文本信息進(jìn)行進(jìn)一步的處理,從而從文本中獲得更多的、更重要的信息,這樣,顯著減少了文本處理的時(shí)間,加快了信息獲取的速度。文本分析技術(shù)現(xiàn)在被廣泛應(yīng)用在輿情監(jiān)測(cè)、新聞推薦等領(lǐng)域,為人們提供了更多、更便利的應(yīng)用。本文主要研究的是網(wǎng)絡(luò)輿情分析中的話題檢測(cè)方法,旨在提高話題檢測(cè)的準(zhǔn)確率和召回率,以方便相關(guān)人員更容易抓住輿論中的話題熱點(diǎn),及時(shí)引導(dǎo)熱點(diǎn)話題的發(fā)展方向。而在探索熱點(diǎn)話題檢測(cè)方法的過(guò)程中,文本分析技術(shù)則是必不可少的,其基本流程如圖2.1所示:圖2.1文本分析流程Figure2.1theFlowofTextAnalysis從上圖中可以看出,文本分析主要包括以下五大步驟:(1)文本預(yù)處理:文本預(yù)處理是對(duì)文本數(shù)據(jù)進(jìn)行粗略的處理操作,過(guò)濾掉一些非文本的垃圾信息,對(duì)其進(jìn)行分詞,并去除無(wú)任何語(yǔ)義信息的詞語(yǔ),如虛詞、助詞等。
基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用16的算子封裝等級(jí)更高,更容易滿足用戶的實(shí)際需求。2.4.3Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)也被稱為伯克利數(shù)據(jù)分析棧(BDAS),其核心框架是Spark。它在Sparkcore的基礎(chǔ)上,涵蓋了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本組件,并且,擁有YARN、Mesos、Standalone等調(diào)度框架。Spark生態(tài)系統(tǒng)結(jié)構(gòu)如圖2.2所示:圖2.2Spark生態(tài)系統(tǒng)Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基礎(chǔ)執(zhí)行引擎,它采用內(nèi)存計(jì)算的方式優(yōu)化了迭代計(jì)算,加快了數(shù)據(jù)計(jì)算的能力,而其他的所有功能,包括內(nèi)存管理、任務(wù)調(diào)度、容錯(cuò)機(jī)制以及文件存儲(chǔ)等,都是建立在Sparkcore之上。并且Sparkcore不僅支持內(nèi)部的調(diào)度框架,而且還支持外部的調(diào)度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一種支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的交互式SQL數(shù)據(jù)查詢工具。用戶可以通過(guò)SparkSQL,使用SQL語(yǔ)句或者Hive版本的HQL語(yǔ)句來(lái)查詢數(shù)據(jù)。SparkSQL支持多種類型的數(shù)據(jù)源,包括json、Hive表等。而且SparkSQL不僅為用戶提供了一個(gè)SQL接口,還支持用戶將SQL語(yǔ)句寫入到應(yīng)用程序中,更為方便快捷。
本文編號(hào):3437306
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所)遼寧省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
第2章相關(guān)技術(shù)研究9第2章相關(guān)技術(shù)研究2.1文本分析概述文本分析,作為自然語(yǔ)言處理的分支之一,一直是機(jī)器學(xué)習(xí)研究的一大熱門領(lǐng)域,它是將非結(jié)構(gòu)化的文字信息轉(zhuǎn)換為結(jié)構(gòu)化的計(jì)算機(jī)可以理解和處理的信息,從而可以使用分類、聚類等機(jī)器學(xué)習(xí)算法,對(duì)結(jié)構(gòu)化的文本信息進(jìn)行進(jìn)一步的處理,從而從文本中獲得更多的、更重要的信息,這樣,顯著減少了文本處理的時(shí)間,加快了信息獲取的速度。文本分析技術(shù)現(xiàn)在被廣泛應(yīng)用在輿情監(jiān)測(cè)、新聞推薦等領(lǐng)域,為人們提供了更多、更便利的應(yīng)用。本文主要研究的是網(wǎng)絡(luò)輿情分析中的話題檢測(cè)方法,旨在提高話題檢測(cè)的準(zhǔn)確率和召回率,以方便相關(guān)人員更容易抓住輿論中的話題熱點(diǎn),及時(shí)引導(dǎo)熱點(diǎn)話題的發(fā)展方向。而在探索熱點(diǎn)話題檢測(cè)方法的過(guò)程中,文本分析技術(shù)則是必不可少的,其基本流程如圖2.1所示:圖2.1文本分析流程Figure2.1theFlowofTextAnalysis從上圖中可以看出,文本分析主要包括以下五大步驟:(1)文本預(yù)處理:文本預(yù)處理是對(duì)文本數(shù)據(jù)進(jìn)行粗略的處理操作,過(guò)濾掉一些非文本的垃圾信息,對(duì)其進(jìn)行分詞,并去除無(wú)任何語(yǔ)義信息的詞語(yǔ),如虛詞、助詞等。
基于Spark的網(wǎng)絡(luò)輿情分析方法的研究與應(yīng)用16的算子封裝等級(jí)更高,更容易滿足用戶的實(shí)際需求。2.4.3Spark生態(tài)系統(tǒng)Spark生態(tài)系統(tǒng)也被稱為伯克利數(shù)據(jù)分析棧(BDAS),其核心框架是Spark。它在Sparkcore的基礎(chǔ)上,涵蓋了SparkSQL、SparkStreaming、SparkMLlib、GraphX四大基本組件,并且,擁有YARN、Mesos、Standalone等調(diào)度框架。Spark生態(tài)系統(tǒng)結(jié)構(gòu)如圖2.2所示:圖2.2Spark生態(tài)系統(tǒng)Figure2.2theEcosystemofSpark(1)SparkcoreSparkcore是Spark框架的通用基礎(chǔ)執(zhí)行引擎,它采用內(nèi)存計(jì)算的方式優(yōu)化了迭代計(jì)算,加快了數(shù)據(jù)計(jì)算的能力,而其他的所有功能,包括內(nèi)存管理、任務(wù)調(diào)度、容錯(cuò)機(jī)制以及文件存儲(chǔ)等,都是建立在Sparkcore之上。并且Sparkcore不僅支持內(nèi)部的調(diào)度框架,而且還支持外部的調(diào)度框架。(2)SparkSQL(Armbrust等,2015)SparkSQL是一種支持結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的交互式SQL數(shù)據(jù)查詢工具。用戶可以通過(guò)SparkSQL,使用SQL語(yǔ)句或者Hive版本的HQL語(yǔ)句來(lái)查詢數(shù)據(jù)。SparkSQL支持多種類型的數(shù)據(jù)源,包括json、Hive表等。而且SparkSQL不僅為用戶提供了一個(gè)SQL接口,還支持用戶將SQL語(yǔ)句寫入到應(yīng)用程序中,更為方便快捷。
本文編號(hào):3437306
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3437306.html
最近更新
教材專著