食品安全大數(shù)據(jù)監(jiān)測(cè)分析系統(tǒng)研究開(kāi)發(fā)
發(fā)布時(shí)間:2023-04-08 21:41
近年來(lái)發(fā)生了多起食品安全事件,這些事件在爆發(fā)后引起了大眾和國(guó)家對(duì)食品安全問(wèn)題的重視與擔(dān)憂,食品安全成為人們關(guān)注的焦點(diǎn)。另一方面,伴隨著我國(guó)互聯(lián)網(wǎng)的高速發(fā)展,國(guó)內(nèi)網(wǎng)民數(shù)量急劇增加,微博、微信、博客等媒體已經(jīng)成為發(fā)布輿論的主要陣地,而相關(guān)的食品安全信息呈現(xiàn)出海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低這四大特征,并且在獲取、存儲(chǔ)、管理、分析等方面已經(jīng)大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具的能力,所以食品安全信息的監(jiān)測(cè)分析對(duì)預(yù)防與監(jiān)控食品安全事件的發(fā)生和發(fā)展有著重要的意義。本文首先介紹了食品安全大數(shù)據(jù)監(jiān)測(cè)分析的研究背景和現(xiàn)狀,闡述了設(shè)計(jì)大數(shù)據(jù)輿情監(jiān)測(cè)分析系統(tǒng)的目的和意義。其次根據(jù)食品安全輿情的特點(diǎn)和系統(tǒng)需求進(jìn)行技術(shù)選型與模塊劃分。之后在實(shí)現(xiàn)過(guò)程中采用基于Scrapy的主題爬蟲程序收集微博上的與食品安全相關(guān)的輿情數(shù)據(jù),搭建了 Hadoop與Spark相互結(jié)合的可用于對(duì)大量數(shù)據(jù)進(jìn)行存儲(chǔ)與研究的平臺(tái)。本系統(tǒng)采取在多個(gè)本地節(jié)點(diǎn)上部署HDFS程序的方式來(lái)提供儲(chǔ)存大量數(shù)據(jù)的能力,并通過(guò)專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎Spark對(duì)數(shù)據(jù)進(jìn)行分析計(jì)算。分析計(jì)算包括基于K-means的話題發(fā)現(xiàn)與...
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 論文研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 食品安全監(jiān)測(cè)分析研究現(xiàn)狀
1.2.2 文本情感分類研究現(xiàn)狀
1.2.3 大數(shù)據(jù)框架研究現(xiàn)狀
1.3 本文組織結(jié)構(gòu)
2 理論基礎(chǔ)和相關(guān)技術(shù)
2.1 Hadoop分布式系統(tǒng)
2.2 Spark計(jì)算框架
2.3 文本采集與預(yù)處理技術(shù)
2.3.1 文本采集
2.3.2 中文分詞
2.3.3 停用詞過(guò)濾
2.3.4 文本特征選擇
2.4 聚類算法
2.5 Flume與Kafka技術(shù)
2.5.1 Kafka
2.5.2 Flume
2.6 Sqoop
2.7 本章小結(jié)
3 食品安全大數(shù)據(jù)監(jiān)測(cè)分析系統(tǒng)需求分析
3.1 概述
3.2 系統(tǒng)功能性需求分析
3.2.1 數(shù)據(jù)爬取功能需求
3.2.2 數(shù)據(jù)存儲(chǔ)功能需求
3.2.3 文本預(yù)處理功能需求
3.2.4 數(shù)據(jù)分析功能需求
3.2.5 Web展示功能需求
3.3 系統(tǒng)非功能性需求分析
3.3.1 高可擴(kuò)展性需求
3.3.2 高可靠性需求
3.3.3 可維護(hù)性需求
3.3.4 安全性需求
3.3.5 易用性需求
3.4 本章小結(jié)
4 食品安全大數(shù)據(jù)監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 系統(tǒng)架構(gòu)設(shè)計(jì)
4.2 Hadoop平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
4.3 Spark平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
4.4 數(shù)據(jù)爬取功能設(shè)計(jì)與實(shí)現(xiàn)
4.5 數(shù)據(jù)存儲(chǔ)功能設(shè)計(jì)與實(shí)現(xiàn)
4.5.1 Mysql存儲(chǔ)
4.5.2 HDFS存儲(chǔ)
4.6 文本預(yù)處理功能設(shè)計(jì)與實(shí)現(xiàn)
4.6.1 文本分詞
4.6.2 文本去停用詞
4.7 基于K-means的話題發(fā)現(xiàn)
4.8 Fasttext情感分類
4.9 Web應(yīng)用展示功能設(shè)計(jì)與實(shí)現(xiàn)
4.10 本章小結(jié)
5 系統(tǒng)測(cè)試分析
5.1 系統(tǒng)功能性能測(cè)試
5.2 Fasttext性能測(cè)試
5.3 分布式平臺(tái)可靠性測(cè)試
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 研究工作總結(jié)
6.2 展望
參考文獻(xiàn)
發(fā)表論文和科研情況說(shuō)明
致謝
本文編號(hào):3786520
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 論文研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 食品安全監(jiān)測(cè)分析研究現(xiàn)狀
1.2.2 文本情感分類研究現(xiàn)狀
1.2.3 大數(shù)據(jù)框架研究現(xiàn)狀
1.3 本文組織結(jié)構(gòu)
2 理論基礎(chǔ)和相關(guān)技術(shù)
2.1 Hadoop分布式系統(tǒng)
2.2 Spark計(jì)算框架
2.3 文本采集與預(yù)處理技術(shù)
2.3.1 文本采集
2.3.2 中文分詞
2.3.3 停用詞過(guò)濾
2.3.4 文本特征選擇
2.4 聚類算法
2.5 Flume與Kafka技術(shù)
2.5.1 Kafka
2.5.2 Flume
2.6 Sqoop
2.7 本章小結(jié)
3 食品安全大數(shù)據(jù)監(jiān)測(cè)分析系統(tǒng)需求分析
3.1 概述
3.2 系統(tǒng)功能性需求分析
3.2.1 數(shù)據(jù)爬取功能需求
3.2.2 數(shù)據(jù)存儲(chǔ)功能需求
3.2.3 文本預(yù)處理功能需求
3.2.4 數(shù)據(jù)分析功能需求
3.2.5 Web展示功能需求
3.3 系統(tǒng)非功能性需求分析
3.3.1 高可擴(kuò)展性需求
3.3.2 高可靠性需求
3.3.3 可維護(hù)性需求
3.3.4 安全性需求
3.3.5 易用性需求
3.4 本章小結(jié)
4 食品安全大數(shù)據(jù)監(jiān)測(cè)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 系統(tǒng)架構(gòu)設(shè)計(jì)
4.2 Hadoop平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
4.3 Spark平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
4.4 數(shù)據(jù)爬取功能設(shè)計(jì)與實(shí)現(xiàn)
4.5 數(shù)據(jù)存儲(chǔ)功能設(shè)計(jì)與實(shí)現(xiàn)
4.5.1 Mysql存儲(chǔ)
4.5.2 HDFS存儲(chǔ)
4.6 文本預(yù)處理功能設(shè)計(jì)與實(shí)現(xiàn)
4.6.1 文本分詞
4.6.2 文本去停用詞
4.7 基于K-means的話題發(fā)現(xiàn)
4.8 Fasttext情感分類
4.9 Web應(yīng)用展示功能設(shè)計(jì)與實(shí)現(xiàn)
4.10 本章小結(jié)
5 系統(tǒng)測(cè)試分析
5.1 系統(tǒng)功能性能測(cè)試
5.2 Fasttext性能測(cè)試
5.3 分布式平臺(tái)可靠性測(cè)試
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 研究工作總結(jié)
6.2 展望
參考文獻(xiàn)
發(fā)表論文和科研情況說(shuō)明
致謝
本文編號(hào):3786520
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3786520.html
最近更新
教材專著