基于微博流的災(zāi)害信息提取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-10-22 18:31
社交媒體能夠滿足人們的信息和情感需求,而當(dāng)發(fā)生災(zāi)害時(shí),這種需求會(huì)變得更加迫切,并且從整體上來說,社交媒體提供的數(shù)據(jù)是動(dòng)態(tài)、實(shí)時(shí)的、由用戶自發(fā)產(chǎn)生的。作為社交媒體的代表,微博可以在實(shí)時(shí)信息和情感兩個(gè)方面作為傳統(tǒng)災(zāi)害信息提取方法的一個(gè)重要補(bǔ)充。災(zāi)害相關(guān)微博數(shù)據(jù)的處理是一種對(duì)時(shí)效性非常敏感的數(shù)據(jù)處理任務(wù),其需求者往往期望能夠盡快地獲知被處理的數(shù)據(jù)和處理的結(jié)果。因此,考慮到微博數(shù)據(jù)具有流數(shù)據(jù)的性質(zhì),本文面向中文微博領(lǐng)域,圍繞微博數(shù)據(jù)的獲取、預(yù)處理、信息提取、提取結(jié)果統(tǒng)計(jì)、統(tǒng)計(jì)結(jié)果可視化的完整流程,設(shè)計(jì)并實(shí)現(xiàn)了基于微博流的災(zāi)害信息提取系統(tǒng),該系統(tǒng)在微博數(shù)據(jù)獲取引擎和微博分析引擎的支持下提供災(zāi)害相關(guān)微博流數(shù)據(jù)的信息提取功能。在災(zāi)害微博數(shù)據(jù)的獲取和預(yù)處理方面,本文針對(duì)微博數(shù)據(jù)的特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)了微博抓取策略和預(yù)處理方法。首先以爬蟲的方式抓取災(zāi)害相關(guān)的新浪微博數(shù)據(jù),提供了微博用戶主頁數(shù)據(jù)、微博搜索結(jié)果歷史數(shù)據(jù)、微博搜索結(jié)果實(shí)時(shí)數(shù)據(jù)三種數(shù)據(jù)獲取途徑;然后對(duì)抓取到的災(zāi)害微博數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、中文分詞等,為信息提取準(zhǔn)備好數(shù)據(jù)來源。在災(zāi)害微博信息提取方面,本文提出了災(zāi)害相關(guān)微博數(shù)據(jù)的文本分類和情感...
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 微博在災(zāi)害中的應(yīng)用研究現(xiàn)狀
1.2.2 災(zāi)害相關(guān)微博處理系統(tǒng)研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)背景知識(shí)簡介
2.1 微博平臺(tái)和微博數(shù)據(jù)的特點(diǎn)
2.2 文本分析的基礎(chǔ)模型
2.2.1 詞向量的概念
2.2.2 統(tǒng)計(jì)語言模型和N-gram模型
2.2.3 神經(jīng)概率語言模型
2.2.4 Word2Vec詞向量模型
2.3 流處理相關(guān)框架
2.3.1 Kafka分布式消息系統(tǒng)
2.3.2 Spark流處理引擎
2.4 本章小結(jié)
第三章 災(zāi)害微博數(shù)據(jù)的獲取和預(yù)處理
3.1 微博數(shù)據(jù)獲取引擎
3.2 微博數(shù)據(jù)獲取
3.2.1 模擬登陸
3.2.2 用戶主頁抓取
3.2.3 微博搜索抓取
3.3 微博數(shù)據(jù)預(yù)處理
3.3.1 數(shù)據(jù)清洗
3.3.2 中文分詞
3.4 微博數(shù)據(jù)的存儲(chǔ)
3.5 本章小結(jié)
第四章 災(zāi)害微博信息提取方法
4.1 微博分析引擎
4.2 文本分類
4.2.1 FastText文本分類模型
4.2.2 分類模型訓(xùn)練和預(yù)測(cè)流程
4.2.3 文本分類相關(guān)任務(wù)
4.3 情感分析
4.3.1 情感詞的匹配和統(tǒng)計(jì)
4.3.2 情感傾向的計(jì)算
4.3.3 情感分析詞表構(gòu)建任務(wù)
4.4 方法評(píng)價(jià)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 評(píng)價(jià)指標(biāo)
4.4.3 評(píng)價(jià)結(jié)果
4.5 本章小結(jié)
第五章 基于微博流的災(zāi)害信息提取系統(tǒng)
5.1 系統(tǒng)架構(gòu)設(shè)計(jì)
5.2 原型系統(tǒng)實(shí)現(xiàn)
5.3 災(zāi)害信息提取流程
5.3.1 災(zāi)害相關(guān)搜索關(guān)鍵詞提取
5.3.2 信息提取和結(jié)果統(tǒng)計(jì)
5.4 可視化和結(jié)果展示
5.5 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于微博大數(shù)據(jù)的城市內(nèi)澇災(zāi)害的災(zāi)情及公眾情緒研究——以南京市為例[J]. 吳先華,肖楊,王國復(fù),馬廷淮,吉中會(huì). 災(zāi)害學(xué). 2018(03)
[2]微博中蘊(yùn)含臺(tái)風(fēng)災(zāi)害損失信息識(shí)別和分類方法[J]. 楊騰飛,解吉波,李振宇,李國慶. 地球信息科學(xué)學(xué)報(bào). 2018(07)
[3]基于微博數(shù)據(jù)挖掘的九寨溝7.0級(jí)地震災(zāi)情時(shí)空特征分析[J]. 曹彥波,毛振江. 中國地震. 2017(04)
[4]基于微博的安全事件實(shí)時(shí)監(jiān)測(cè)框架研究[J]. 李凌云,敖吉,喬治,李劍. 信息網(wǎng)絡(luò)安全. 2015(01)
[5]基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研究——以雅安地震為例[J]. 劉雯,高峰,洪凌子. 圖書情報(bào)工作. 2013(20)
[6]國內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報(bào)工作. 2011(02)
[7]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學(xué)旗. 計(jì)算機(jī)研究與發(fā)展. 2004(08)
[8]數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 郭志懋,周傲英. 軟件學(xué)報(bào). 2002(11)
[9]相對(duì)程度副詞與絕對(duì)程度副詞[J]. 張桂賓. 華東師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 1997(02)
博士論文
[1]社交媒體在巨災(zāi)風(fēng)險(xiǎn)治理中的作用研究[D]. 鄺啟宇.西南財(cái)經(jīng)大學(xué) 2014
碩士論文
[1]微博數(shù)據(jù)挖掘可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王婧雅.吉林大學(xué) 2017
[2]基于圖的中文微博災(zāi)難事件檢測(cè)[D]. 孫方園.浙江大學(xué) 2016
[3]微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D]. 邱洋.大連理工大學(xué) 2013
[4]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[5]文本聚類分析效果評(píng)價(jià)及文本表示研究[D]. 周昭濤.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2005
本文編號(hào):3696642
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 微博在災(zāi)害中的應(yīng)用研究現(xiàn)狀
1.2.2 災(zāi)害相關(guān)微博處理系統(tǒng)研究現(xiàn)狀
1.3 主要研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)背景知識(shí)簡介
2.1 微博平臺(tái)和微博數(shù)據(jù)的特點(diǎn)
2.2 文本分析的基礎(chǔ)模型
2.2.1 詞向量的概念
2.2.2 統(tǒng)計(jì)語言模型和N-gram模型
2.2.3 神經(jīng)概率語言模型
2.2.4 Word2Vec詞向量模型
2.3 流處理相關(guān)框架
2.3.1 Kafka分布式消息系統(tǒng)
2.3.2 Spark流處理引擎
2.4 本章小結(jié)
第三章 災(zāi)害微博數(shù)據(jù)的獲取和預(yù)處理
3.1 微博數(shù)據(jù)獲取引擎
3.2 微博數(shù)據(jù)獲取
3.2.1 模擬登陸
3.2.2 用戶主頁抓取
3.2.3 微博搜索抓取
3.3 微博數(shù)據(jù)預(yù)處理
3.3.1 數(shù)據(jù)清洗
3.3.2 中文分詞
3.4 微博數(shù)據(jù)的存儲(chǔ)
3.5 本章小結(jié)
第四章 災(zāi)害微博信息提取方法
4.1 微博分析引擎
4.2 文本分類
4.2.1 FastText文本分類模型
4.2.2 分類模型訓(xùn)練和預(yù)測(cè)流程
4.2.3 文本分類相關(guān)任務(wù)
4.3 情感分析
4.3.1 情感詞的匹配和統(tǒng)計(jì)
4.3.2 情感傾向的計(jì)算
4.3.3 情感分析詞表構(gòu)建任務(wù)
4.4 方法評(píng)價(jià)
4.4.1 實(shí)驗(yàn)數(shù)據(jù)
4.4.2 評(píng)價(jià)指標(biāo)
4.4.3 評(píng)價(jià)結(jié)果
4.5 本章小結(jié)
第五章 基于微博流的災(zāi)害信息提取系統(tǒng)
5.1 系統(tǒng)架構(gòu)設(shè)計(jì)
5.2 原型系統(tǒng)實(shí)現(xiàn)
5.3 災(zāi)害信息提取流程
5.3.1 災(zāi)害相關(guān)搜索關(guān)鍵詞提取
5.3.2 信息提取和結(jié)果統(tǒng)計(jì)
5.4 可視化和結(jié)果展示
5.5 本章小結(jié)
第六章 總結(jié)和展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于微博大數(shù)據(jù)的城市內(nèi)澇災(zāi)害的災(zāi)情及公眾情緒研究——以南京市為例[J]. 吳先華,肖楊,王國復(fù),馬廷淮,吉中會(huì). 災(zāi)害學(xué). 2018(03)
[2]微博中蘊(yùn)含臺(tái)風(fēng)災(zāi)害損失信息識(shí)別和分類方法[J]. 楊騰飛,解吉波,李振宇,李國慶. 地球信息科學(xué)學(xué)報(bào). 2018(07)
[3]基于微博數(shù)據(jù)挖掘的九寨溝7.0級(jí)地震災(zāi)情時(shí)空特征分析[J]. 曹彥波,毛振江. 中國地震. 2017(04)
[4]基于微博的安全事件實(shí)時(shí)監(jiān)測(cè)框架研究[J]. 李凌云,敖吉,喬治,李劍. 信息網(wǎng)絡(luò)安全. 2015(01)
[5]基于情感分析的災(zāi)害網(wǎng)絡(luò)輿情研究——以雅安地震為例[J]. 劉雯,高峰,洪凌子. 圖書情報(bào)工作. 2013(20)
[6]國內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J]. 奉國和,鄭偉. 圖書情報(bào)工作. 2011(02)
[7]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學(xué)旗. 計(jì)算機(jī)研究與發(fā)展. 2004(08)
[8]數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J]. 郭志懋,周傲英. 軟件學(xué)報(bào). 2002(11)
[9]相對(duì)程度副詞與絕對(duì)程度副詞[J]. 張桂賓. 華東師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版). 1997(02)
博士論文
[1]社交媒體在巨災(zāi)風(fēng)險(xiǎn)治理中的作用研究[D]. 鄺啟宇.西南財(cái)經(jīng)大學(xué) 2014
碩士論文
[1]微博數(shù)據(jù)挖掘可視化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王婧雅.吉林大學(xué) 2017
[2]基于圖的中文微博災(zāi)難事件檢測(cè)[D]. 孫方園.浙江大學(xué) 2016
[3]微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D]. 邱洋.大連理工大學(xué) 2013
[4]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[5]文本聚類分析效果評(píng)價(jià)及文本表示研究[D]. 周昭濤.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2005
本文編號(hào):3696642
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3696642.html
最近更新
教材專著