基于LDA的微博災(zāi)害信息聚合——以臺風(fēng)為例

發(fā)布時間：2024-02-16 02:41

　　微博等社交媒體日益普及化為災(zāi)害應(yīng)急提供了新思路。災(zāi)害應(yīng)急任務(wù)離不開數(shù)據(jù)的支持,微博憑借自身優(yōu)勢搭建了一座災(zāi)區(qū)內(nèi)與災(zāi)區(qū)外信息溝通的橋梁,其已經(jīng)成為災(zāi)害事件中災(zāi)害信息及時獲取的重要來源之一,然而微博數(shù)據(jù)非結(jié)構(gòu)化且更新速度快的特征導(dǎo)致這些信息難以被充分利用。因此,如何從非結(jié)構(gòu)化微博數(shù)據(jù)中快速聚合出災(zāi)害優(yōu)勢信息以輔助災(zāi)害應(yīng)急決策是當(dāng)前亟待解決的問題。本文針對當(dāng)前微博信息聚合在災(zāi)害領(lǐng)域應(yīng)用較少且現(xiàn)有微博信息聚合方法對微博信息利用不全面等現(xiàn)狀,圍繞聚合粒度以及聚合內(nèi)容豐富度兩個關(guān)鍵問題,提出了一種基于LDA的微博災(zāi)害信息聚合方法,研究內(nèi)容主要包括:(1)研究了微博數(shù)據(jù)預(yù)處理方法。針對現(xiàn)有文本預(yù)處理方法沒有考慮災(zāi)害特征導(dǎo)致預(yù)處理之后的微博數(shù)據(jù)并不能滿足本文聚合需求問題,本文在現(xiàn)有方法基礎(chǔ)上,結(jié)合災(zāi)害領(lǐng)域知識,制定了合適的微博數(shù)據(jù)預(yù)處理方案。(2)研究了基于LDA的災(zāi)害主題模型構(gòu)建方法。從微博災(zāi)害信息聚合快速且盡可能全面的聚合需求出發(fā),總結(jié)了模型參數(shù)估計方法的三項原則,即高辨識度、高主題差異度、低時間復(fù)雜度,并通過實驗分析確定Gibbs采樣作為主題模型的參數(shù)估計方法。(3)研究了微博災(zāi)害信息聚合方法。...

【文章頁數(shù)】：73 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 研究背景與意義
    1.2 研究現(xiàn)狀綜述
        1.2.1 微博信息聚合
        1.2.2 主題模型
        1.2.3 研究現(xiàn)狀總結(jié)
    1.3 研究目標(biāo)與內(nèi)容
        1.3.1 研究目標(biāo)
        1.3.2 研究內(nèi)容
    1.4 技術(shù)路線
    1.5 論文組織結(jié)構(gòu)
第2章微博數(shù)據(jù)采集與預(yù)處理
    2.1 微博數(shù)據(jù)采集
        2.1.1 網(wǎng)絡(luò)爬蟲技術(shù)
        2.1.2 微博開放平臺介紹
        2.1.3 微博數(shù)據(jù)采集方案
    2.2 微博數(shù)據(jù)預(yù)處理
        2.2.1 中文分詞
        2.2.2 停用詞過濾
        2.2.3 無關(guān)詞過濾
    2.3 本章小結(jié)
第3章基于LDA的災(zāi)害主題模型構(gòu)建
    3.1 LDA主題模型基本理論
        3.1.1 狄利克雷分布
        3.1.2 生成模型
        3.1.3 VEM參數(shù)估計
        3.1.4 Gibbs采樣
    3.2 基于LDA的災(zāi)害主題模型構(gòu)建過程
        3.2.1 總體流程概述
        3.2.2 災(zāi)害語料庫構(gòu)建
        3.2.3 LDA主題模型
        3.2.4 主題數(shù)目確定
        3.2.5 主題相似度
    3.3 實驗與分析
        3.3.1 實驗數(shù)據(jù)
        3.3.2 實驗結(jié)果
        3.3.3 實驗分析
    3.4 本章小結(jié)
第4章微博災(zāi)害信息聚合
    4.1 基本理論
        4.1.1 詞頻-逆文本頻度分析
        4.1.2 命名實體識別
    4.2 漸進(jìn)求精的微博數(shù)據(jù)聚合
        4.2.1 災(zāi)害關(guān)鍵詞
        4.2.2 時間
    4.3 微博災(zāi)害信息聚合
        4.3.1 時空分布信息
        4.3.2 主題特征信息
    4.4 聚合信息可視化方法
    4.5 本章小結(jié)
第5章實驗與分析
    5.1 實驗平臺搭建
    5.2 實驗結(jié)果與分析
        5.2.1 實驗數(shù)據(jù)
        5.2.2 實驗結(jié)果與分析
    5.3 本章小結(jié)
第6章總結(jié)與展望
    6.1 本文的研究成果
    6.2 創(chuàng)新點
    6.3 研究展望
參考文獻(xiàn)
附錄
    主要成果
    科研項目
致謝

本文編號：3900680

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/anquangongcheng/3900680.html

上一篇：急斜煤層對地下水時空分布及涌水影響研究
下一篇：基于多傳感器數(shù)據(jù)融合的礦用瓦斯傳感器故障診斷方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA的微博災(zāi)害信息聚合——以臺風(fēng)為例