基于Spark的高校網(wǎng)絡(luò)輿情實(shí)時(shí)分析與系統(tǒng)實(shí)現(xiàn)
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.1論文組織架構(gòu)圖
基于Spark的高校網(wǎng)絡(luò)輿情實(shí)時(shí)分析與系統(tǒng)實(shí)現(xiàn)5語(yǔ)言處理,可視化分析,針高校網(wǎng)絡(luò)輿情進(jìn)行實(shí)時(shí)分析和可視化,并進(jìn)行實(shí)時(shí)預(yù)警。從實(shí)際開源項(xiàng)目中遇到的問(wèn)題,從機(jī)器學(xué)習(xí)算法改進(jìn)入手,提出基于SparkMLlib的分布式機(jī)器學(xué)習(xí)增量貝葉斯算法,應(yīng)用于本輿情分析系統(tǒng)。1.4論文組織架構(gòu)圖1.....
圖2.1通用網(wǎng)絡(luò)爬蟲工作原理[37]
基于Spark的高校網(wǎng)絡(luò)輿情實(shí)時(shí)分析與系統(tǒng)實(shí)現(xiàn)8通用網(wǎng)絡(luò)爬蟲的工作原理如圖2.1所示。圖2.1通用網(wǎng)絡(luò)爬蟲工作原理[37](2)聚集網(wǎng)絡(luò)爬蟲[38],是基于主題關(guān)鍵字的爬蟲,和通用網(wǎng)絡(luò)爬蟲不同的是,聚集網(wǎng)絡(luò)爬蟲只爬取與主題關(guān)鍵字想關(guān)的數(shù)據(jù),并且會(huì)對(duì)采集到的URL數(shù)據(jù)進(jìn)行過(guò)濾只保留....
圖2.2聚集網(wǎng)絡(luò)爬蟲框架[37]
基于Spark的高校網(wǎng)絡(luò)輿情實(shí)時(shí)分析與系統(tǒng)實(shí)現(xiàn)8通用網(wǎng)絡(luò)爬蟲的工作原理如圖2.1所示。圖2.1通用網(wǎng)絡(luò)爬蟲工作原理[37](2)聚集網(wǎng)絡(luò)爬蟲[38],是基于主題關(guān)鍵字的爬蟲,和通用網(wǎng)絡(luò)爬蟲不同的是,聚集網(wǎng)絡(luò)爬蟲只爬取與主題關(guān)鍵字想關(guān)的數(shù)據(jù),并且會(huì)對(duì)采集到的URL數(shù)據(jù)進(jìn)行過(guò)濾只保留....
圖2.3文檔TF-IDF計(jì)算過(guò)程
基于Spark的高校網(wǎng)絡(luò)輿情實(shí)時(shí)分析與系統(tǒng)實(shí)現(xiàn)11圖2.3文檔TF-IDF計(jì)算過(guò)程TF-IDF是輿情分類中非常常用的文本預(yù)處理基本步驟,使用了IF-IDF并標(biāo)準(zhǔn)化以后,我們就可以使用各個(gè)文本的詞特征向量作為文本的特征,進(jìn)行輿情分類或者聚類分析。2.3.2文本預(yù)處理文本預(yù)處理過(guò)程包....
本文編號(hào):3983474
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3983474.html