基于LDA的微博災(zāi)害信息聚合——以臺(tái)風(fēng)為例
發(fā)布時(shí)間:2024-02-16 02:41
微博等社交媒體日益普及化為災(zāi)害應(yīng)急提供了新思路。災(zāi)害應(yīng)急任務(wù)離不開數(shù)據(jù)的支持,微博憑借自身優(yōu)勢搭建了一座災(zāi)區(qū)內(nèi)與災(zāi)區(qū)外信息溝通的橋梁,其已經(jīng)成為災(zāi)害事件中災(zāi)害信息及時(shí)獲取的重要來源之一,然而微博數(shù)據(jù)非結(jié)構(gòu)化且更新速度快的特征導(dǎo)致這些信息難以被充分利用。因此,如何從非結(jié)構(gòu)化微博數(shù)據(jù)中快速聚合出災(zāi)害優(yōu)勢信息以輔助災(zāi)害應(yīng)急決策是當(dāng)前亟待解決的問題。本文針對(duì)當(dāng)前微博信息聚合在災(zāi)害領(lǐng)域應(yīng)用較少且現(xiàn)有微博信息聚合方法對(duì)微博信息利用不全面等現(xiàn)狀,圍繞聚合粒度以及聚合內(nèi)容豐富度兩個(gè)關(guān)鍵問題,提出了一種基于LDA的微博災(zāi)害信息聚合方法,研究內(nèi)容主要包括:(1)研究了微博數(shù)據(jù)預(yù)處理方法。針對(duì)現(xiàn)有文本預(yù)處理方法沒有考慮災(zāi)害特征導(dǎo)致預(yù)處理之后的微博數(shù)據(jù)并不能滿足本文聚合需求問題,本文在現(xiàn)有方法基礎(chǔ)上,結(jié)合災(zāi)害領(lǐng)域知識(shí),制定了合適的微博數(shù)據(jù)預(yù)處理方案。(2)研究了基于LDA的災(zāi)害主題模型構(gòu)建方法。從微博災(zāi)害信息聚合快速且盡可能全面的聚合需求出發(fā),總結(jié)了模型參數(shù)估計(jì)方法的三項(xiàng)原則,即高辨識(shí)度、高主題差異度、低時(shí)間復(fù)雜度,并通過實(shí)驗(yàn)分析確定Gibbs采樣作為主題模型的參數(shù)估計(jì)方法。(3)研究了微博災(zāi)害信息聚合方法。...
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀綜述
1.2.1 微博信息聚合
1.2.2 主題模型
1.2.3 研究現(xiàn)狀總結(jié)
1.3 研究目標(biāo)與內(nèi)容
1.3.1 研究目標(biāo)
1.3.2 研究內(nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
第2章 微博數(shù)據(jù)采集與預(yù)處理
2.1 微博數(shù)據(jù)采集
2.1.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.1.2 微博開放平臺(tái)介紹
2.1.3 微博數(shù)據(jù)采集方案
2.2 微博數(shù)據(jù)預(yù)處理
2.2.1 中文分詞
2.2.2 停用詞過濾
2.2.3 無關(guān)詞過濾
2.3 本章小結(jié)
第3章 基于LDA的災(zāi)害主題模型構(gòu)建
3.1 LDA主題模型基本理論
3.1.1 狄利克雷分布
3.1.2 生成模型
3.1.3 VEM參數(shù)估計(jì)
3.1.4 Gibbs采樣
3.2 基于LDA的災(zāi)害主題模型構(gòu)建過程
3.2.1 總體流程概述
3.2.2 災(zāi)害語料庫構(gòu)建
3.2.3 LDA主題模型
3.2.4 主題數(shù)目確定
3.2.5 主題相似度
3.3 實(shí)驗(yàn)與分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)結(jié)果
3.3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
第4章 微博災(zāi)害信息聚合
4.1 基本理論
4.1.1 詞頻-逆文本頻度分析
4.1.2 命名實(shí)體識(shí)別
4.2 漸進(jìn)求精的微博數(shù)據(jù)聚合
4.2.1 災(zāi)害關(guān)鍵詞
4.2.2 時(shí)間
4.3 微博災(zāi)害信息聚合
4.3.1 時(shí)空分布信息
4.3.2 主題特征信息
4.4 聚合信息可視化方法
4.5 本章小結(jié)
第5章 實(shí)驗(yàn)與分析
5.1 實(shí)驗(yàn)平臺(tái)搭建
5.2 實(shí)驗(yàn)結(jié)果與分析
5.2.1 實(shí)驗(yàn)數(shù)據(jù)
5.2.2 實(shí)驗(yàn)結(jié)果與分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 本文的研究成果
6.2 創(chuàng)新點(diǎn)
6.3 研究展望
參考文獻(xiàn)
附錄
主要成果
科研項(xiàng)目
致謝
本文編號(hào):3900680
【文章頁數(shù)】:73 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀綜述
1.2.1 微博信息聚合
1.2.2 主題模型
1.2.3 研究現(xiàn)狀總結(jié)
1.3 研究目標(biāo)與內(nèi)容
1.3.1 研究目標(biāo)
1.3.2 研究內(nèi)容
1.4 技術(shù)路線
1.5 論文組織結(jié)構(gòu)
第2章 微博數(shù)據(jù)采集與預(yù)處理
2.1 微博數(shù)據(jù)采集
2.1.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.1.2 微博開放平臺(tái)介紹
2.1.3 微博數(shù)據(jù)采集方案
2.2 微博數(shù)據(jù)預(yù)處理
2.2.1 中文分詞
2.2.2 停用詞過濾
2.2.3 無關(guān)詞過濾
2.3 本章小結(jié)
第3章 基于LDA的災(zāi)害主題模型構(gòu)建
3.1 LDA主題模型基本理論
3.1.1 狄利克雷分布
3.1.2 生成模型
3.1.3 VEM參數(shù)估計(jì)
3.1.4 Gibbs采樣
3.2 基于LDA的災(zāi)害主題模型構(gòu)建過程
3.2.1 總體流程概述
3.2.2 災(zāi)害語料庫構(gòu)建
3.2.3 LDA主題模型
3.2.4 主題數(shù)目確定
3.2.5 主題相似度
3.3 實(shí)驗(yàn)與分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)
3.3.2 實(shí)驗(yàn)結(jié)果
3.3.3 實(shí)驗(yàn)分析
3.4 本章小結(jié)
第4章 微博災(zāi)害信息聚合
4.1 基本理論
4.1.1 詞頻-逆文本頻度分析
4.1.2 命名實(shí)體識(shí)別
4.2 漸進(jìn)求精的微博數(shù)據(jù)聚合
4.2.1 災(zāi)害關(guān)鍵詞
4.2.2 時(shí)間
4.3 微博災(zāi)害信息聚合
4.3.1 時(shí)空分布信息
4.3.2 主題特征信息
4.4 聚合信息可視化方法
4.5 本章小結(jié)
第5章 實(shí)驗(yàn)與分析
5.1 實(shí)驗(yàn)平臺(tái)搭建
5.2 實(shí)驗(yàn)結(jié)果與分析
5.2.1 實(shí)驗(yàn)數(shù)據(jù)
5.2.2 實(shí)驗(yàn)結(jié)果與分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
6.1 本文的研究成果
6.2 創(chuàng)新點(diǎn)
6.3 研究展望
參考文獻(xiàn)
附錄
主要成果
科研項(xiàng)目
致謝
本文編號(hào):3900680
本文鏈接:http://sikaile.net/kejilunwen/anquangongcheng/3900680.html
最近更新
教材專著