天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博數(shù)據(jù)的熱點(diǎn)事件發(fā)現(xiàn)與分析方法

發(fā)布時(shí)間:2022-02-26 09:34
  微博是中國(guó)重要的社交媒體之一,擁有龐大的用戶群體。在微博中,用戶能夠通過(guò)短文本的形式分享動(dòng)態(tài),討論時(shí)事熱點(diǎn)。同時(shí),很多企業(yè)和政府開(kāi)設(shè)官方微博賬號(hào),利用微博賬號(hào)在微博上分享新聞,并和廣大用戶互動(dòng)。因此,微博作為一個(gè)輿論匯聚的地方,從中提取公眾所關(guān)注的事件,并分析公眾動(dòng)態(tài)一直都是社交媒體研究的重點(diǎn)。微博事件的提取首先需要對(duì)微博博文進(jìn)行研究。而微博博文口語(yǔ)化、文本短的特點(diǎn)使得微博博文的語(yǔ)義信息少且提取困難。因此,面向傳統(tǒng)文本的事件提取方法運(yùn)用到微博博文上準(zhǔn)確率不高。同時(shí),隨著互聯(lián)網(wǎng)用戶的不斷增加,微博博文的規(guī)模也越來(lái)越龐大,研究者需要考慮在大數(shù)據(jù)環(huán)境下處理微博博文所面臨的時(shí)間效率問(wèn)題。針對(duì)上述問(wèn)題,本文提出了一個(gè)基于Spark的兩階段熱點(diǎn)事件發(fā)現(xiàn)模型。該模型通過(guò)文本聚類和語(yǔ)義聚類兩個(gè)階段對(duì)微博數(shù)據(jù)進(jìn)行處理,并設(shè)計(jì)了基于大數(shù)據(jù)計(jì)算引擎Spark的計(jì)算框架。在文本聚類階段,本文通過(guò)數(shù)據(jù)分片和優(yōu)化的K-Means算法對(duì)微博博文進(jìn)行聚類,減少數(shù)據(jù)量的同時(shí)擴(kuò)充語(yǔ)義信息;在語(yǔ)義聚類階段,從文本聚類的結(jié)果中提取關(guān)鍵詞為語(yǔ)義聚類提供充足的語(yǔ)義信息,并利用LDA主題模型進(jìn)行事件發(fā)現(xiàn)。實(shí)驗(yàn)表明,該模型在準(zhǔn)確率和... 

【文章來(lái)源】:重慶郵電大學(xué)重慶市

【文章頁(yè)數(shù)】:67 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 微博熱點(diǎn)事件發(fā)現(xiàn)
        1.2.2 微博可視化分析
    1.3 主要工作
    1.4 論文組織結(jié)構(gòu)
第2章 相關(guān)研究基礎(chǔ)
    2.1 熱點(diǎn)事件發(fā)現(xiàn)方法
        2.1.1 微博熱點(diǎn)事件發(fā)現(xiàn)概述
        2.1.2 基于關(guān)鍵詞提取的微博熱點(diǎn)事件發(fā)現(xiàn)方法
        2.1.3 基于主題模型的微博熱點(diǎn)事件發(fā)現(xiàn)方法
    2.2 微博可視化方法
        2.2.1 基于事件展示的可視化方法
        2.2.2 基于地理信息的可視化方法
        2.2.3 基于微博關(guān)鍵詞的可視化方法
    2.3 大數(shù)據(jù)平臺(tái)
        2.3.1 文件系統(tǒng)HDFS
        2.3.2 大數(shù)據(jù)計(jì)算引擎Spark
    2.4 本章小結(jié)
第3章 基于Spark的兩階段熱點(diǎn)事件發(fā)現(xiàn)模型
    3.1 術(shù)語(yǔ)定義
    3.2 兩階段熱點(diǎn)事件發(fā)現(xiàn)模型
        3.2.1 系統(tǒng)框架
        3.2.2 博文預(yù)處理
        3.2.3 文本聚類
        3.2.4 關(guān)鍵詞提取
        3.2.5 語(yǔ)義聚類
    3.3 模型大數(shù)據(jù)環(huán)境設(shè)計(jì)
        3.3.1 計(jì)算框架
        3.3.2 聚類中心點(diǎn)更新
        3.3.3 倒排序計(jì)算IDF值
    3.4 實(shí)驗(yàn)及分析
        3.4.1 準(zhǔn)確性驗(yàn)證
        3.4.2 時(shí)間效率驗(yàn)證
    3.5 本章小結(jié)
第4章 微博熱點(diǎn)事件可視化分析系統(tǒng)
    4.1 可視化分析系統(tǒng)設(shè)計(jì)
        4.1.1 總體設(shè)計(jì)
        4.1.2 數(shù)據(jù)分析
        4.1.3 實(shí)驗(yàn)環(huán)境及系統(tǒng)架構(gòu)
    4.2 總體分析
        4.2.1 事件比例和性別比例可視化分析
        4.2.2 事件發(fā)展可視化分析
    4.3 事件分析
        4.3.1 復(fù)雜查詢
        4.3.2 地域分析
        4.3.3 詞共現(xiàn)關(guān)系展示
    4.4 本章小結(jié)
第5章 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果


【參考文獻(xiàn)】:
期刊論文
[1]基于詞共現(xiàn)網(wǎng)絡(luò)的對(duì)農(nóng)微博熱點(diǎn)話題及用戶輿情分析——以中國(guó)鄉(xiāng)村之聲官方微博為例[J]. 趙雪,馬娟娟.  新聞愛(ài)好者. 2019(11)
[2]基于關(guān)系圈與個(gè)體交互習(xí)慣的用戶關(guān)系強(qiáng)度計(jì)算方法[J]. 琚春華,陶婉瓊,馬希驁.  情報(bào)學(xué)報(bào). 2019(09)
[3]基于共詞分析的國(guó)內(nèi)政務(wù)微博熱點(diǎn)主題研究的可視化分析[J]. 方興林.  湖北工程學(xué)院學(xué)報(bào). 2019(01)
[4]基于余弦距離選取初始簇中心的文本聚類研究[J]. 王彬宇,劉文芬,胡學(xué)先,魏江宏.  計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[5]特征驅(qū)動(dòng)的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬(wàn)懷宇,肖春景.  軟件學(xué)報(bào). 2018(07)
[6]基于詞共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)方法[J]. 李偉,賈彩燕.  數(shù)據(jù)采集與處理. 2018(01)
[7]中文微博情感分析研究與實(shí)現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國(guó).  軟件學(xué)報(bào). 2017 (12)
[8]微博網(wǎng)絡(luò)地域Top-k突發(fā)事件檢測(cè)[J]. 仲兆滿,管燕,李存華,劉宗田.  計(jì)算機(jī)學(xué)報(bào). 2018(07)
[9]面向微博主題的可視分析研究[J]. 王臻皇,陳思明,袁曉如.  軟件學(xué)報(bào). 2018(04)
[10]基于社交關(guān)系的微博主題情感挖掘[J]. 黃發(fā)良,于戈,張繼連,李超雄,元昌安,盧景麗.  軟件學(xué)報(bào). 2017(03)

碩士論文
[1]中文社交媒體話題關(guān)鍵詞抽取算法[D]. 何偉名.北京交通大學(xué) 2017



本文編號(hào):3644385

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3644385.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶559ca***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com