天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

實(shí)時(shí)流大數(shù)據(jù)環(huán)境下突發(fā)事件動(dòng)態(tài)監(jiān)測的研究與應(yīng)用

發(fā)布時(shí)間:2021-11-11 20:43
  突發(fā)事件,即意外性突然發(fā)生的重大敏感事件,不僅僅會(huì)影響人們的日常生活,更有可能造成嚴(yán)重的社會(huì)危害。對(duì)于突發(fā)事件的報(bào)道,傳統(tǒng)的新聞媒體需要保證信息的準(zhǔn)確性和真實(shí)性,往往存在一些滯后。新浪微博作為一種分享、傳播和獲取簡短實(shí)時(shí)信息的交流平臺(tái),擁有著大量的移動(dòng)端在線用戶,保證了對(duì)突發(fā)事件的即時(shí)報(bào)道,且更容易形成社會(huì)話題,引起人們的激烈討論。為了更好的應(yīng)對(duì)突發(fā)事件,從海量的信息流中監(jiān)測出突發(fā)事件具有重大的意義。通過對(duì)突發(fā)事件準(zhǔn)確、及時(shí)的報(bào)道,有關(guān)部門可以快速的采取應(yīng)對(duì)措施,避免引起社會(huì)恐慌。民眾能夠了解突發(fā)事件的性質(zhì),提前做好應(yīng)對(duì)措施;谏鲜龇治,在調(diào)查研究了突發(fā)事件監(jiān)測技術(shù)與聚類相關(guān)文獻(xiàn)后,利用Storm分布式計(jì)算框架在處理實(shí)時(shí)流數(shù)據(jù)下的高效性,面對(duì)時(shí)時(shí)刻刻不斷生成的微博數(shù)據(jù)流,提出了一種高效的在線分布式突發(fā)事件監(jiān)測模型。該模型首先利用Kafka進(jìn)行管道數(shù)據(jù)流的可靠傳輸,在Storm框架下利用時(shí)間窗口機(jī)制對(duì)時(shí)間窗內(nèi)的數(shù)據(jù)進(jìn)行相應(yīng)操作,實(shí)現(xiàn)了突發(fā)事件的持續(xù)監(jiān)測。首先通過適當(dāng)?shù)拇胧⿲?duì)文本數(shù)據(jù)流進(jìn)行過濾分析;接著,改進(jìn)關(guān)鍵詞選取權(quán)重,完成突發(fā)事件監(jiān)測模型的優(yōu)化,實(shí)現(xiàn)對(duì)單位時(shí)間內(nèi)的突發(fā)詞進(jìn)行提取。最... 

【文章來源】:內(nèi)蒙古科技大學(xué)內(nèi)蒙古自治區(qū)

【文章頁數(shù)】:44 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

實(shí)時(shí)流大數(shù)據(jù)環(huán)境下突發(fā)事件動(dòng)態(tài)監(jiān)測的研究與應(yīng)用


圖2.1分布式爬蟲的架構(gòu)

樣本,數(shù)據(jù),文本,鏈接


內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-8-的微博數(shù)據(jù)量。(3)針對(duì)上述兩種方法造成重復(fù)爬取的失誤,同時(shí)為了節(jié)約在次基礎(chǔ)上占用的系統(tǒng)內(nèi)存,采用set+md5的方法過濾重復(fù)的URL鏈接,將每一個(gè)URL鏈接通過md5轉(zhuǎn)換成一個(gè)128位的字符串,借助set集合不可重復(fù)的特性,可以在一定程度上實(shí)現(xiàn)URL的最大化去重操作。2.1.4新浪微博數(shù)據(jù)結(jié)構(gòu)分析采用上述的分布式爬取框架,總共爬取2020年1月8號(hào)和9號(hào)兩天401.3K的數(shù)據(jù)量,存儲(chǔ)到MongoDB數(shù)據(jù)庫中。后續(xù)的相關(guān)實(shí)驗(yàn)均基于該數(shù)據(jù)進(jìn)行驗(yàn)證分析。其爬取的樣本實(shí)例如下所示。圖2.2新浪微博數(shù)據(jù)樣本圖2.2新浪微博數(shù)據(jù)預(yù)處理新浪微博中存儲(chǔ)著海量的數(shù)據(jù)信息,其中包含著大量的垃圾信息,比如推銷廣告信息、機(jī)器發(fā)表的無用信息以及一些水軍等惡意新浪微博文本等。正常的新浪微博文本中往往也包含著@、情感符號(hào)以及URL鏈接等。在針對(duì)新浪微博數(shù)據(jù)進(jìn)行突發(fā)事件的檢測時(shí),在Kafka推送數(shù)據(jù)流后,需要在Storm的Spout中提前對(duì)新浪微博數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理操作,保證在此后的數(shù)據(jù)處理中更加可靠。2.2.1新浪微博文本過濾

經(jīng)緯度,地理位置,信息,時(shí)間窗口


內(nèi)蒙古科技大學(xué)碩士學(xué)位論文-17-圖3.2經(jīng)緯度獲取地理位置信息其相對(duì)應(yīng)的TF-IDF公式為:tfidf(α-1×α))(tnnwcwct++=(式3.2)(式3.2中),α代表該詞t在基礎(chǔ)權(quán)重值,cn代表了一個(gè)時(shí)間窗口n下出現(xiàn)該詞頻次最多的發(fā)博城市數(shù)量,ct表示時(shí)間窗口n下與該詞相關(guān)的所有城市總數(shù)。Wn代表了該時(shí)間窗口n下關(guān)于t的詞頻,Wt代表了時(shí)間窗口n下的最大的詞頻數(shù)目。該方法有效的彌補(bǔ)了傳統(tǒng)的TF-IDF算法在對(duì)于新浪微博短文本突發(fā)事件關(guān)鍵詞提取上的不足,避免了因新浪微博明星的相關(guān)事件,造成各地粉絲發(fā)博短時(shí)間內(nèi)集體發(fā)博,造成一個(gè)無用關(guān)鍵詞的權(quán)重增加,同時(shí)也借助地域的擴(kuò)散比例,更好的區(qū)別出了類似明星事件的話題與突發(fā)事件的話題。3.3突發(fā)詞集的提取單位時(shí)間窗口內(nèi)的突發(fā)詞,滿足以下幾個(gè)特點(diǎn):(1)一個(gè)詞語在一個(gè)時(shí)間窗口內(nèi)突然高頻次出現(xiàn),(2)該詞不局限于在同一條微博文本中重復(fù)出現(xiàn),而是與該詞相關(guān)的相關(guān)微博文本在該時(shí)間窗內(nèi)占有較大的比例,(3)在之前的時(shí)間窗口內(nèi),該詞及與該詞相關(guān)的文本占比較低;谕话l(fā)詞的特征,本文從詞頻熱度、詞頻增長率和詞頻重要度等多種特征來獲取突發(fā)特征詞。

【參考文獻(xiàn)】:
期刊論文
[1]基于多種詞特征的微博突發(fā)事件檢測方法[J]. 張仰森,段宇翔,王建,吳云芳.  電子學(xué)報(bào). 2019(09)
[2]基于突發(fā)詞地域分析的微博突發(fā)事件檢測方法[J]. 張雄寶,陸向艷,練凱迪,劉峻,劉正平.  情報(bào)雜志. 2017(03)
[3]基于突發(fā)主題詞和凝聚式層次聚類的微博突發(fā)事件檢測研究[J]. 丁晟春,龔思蘭,李紅梅.  現(xiàn)代圖書情報(bào)技術(shù). 2016(Z1)
[4]基于突發(fā)詞H指數(shù)的微博突發(fā)事件檢測算法研究[J]. 張曉霞,王名揚(yáng),賈沖沖,董煦.  情報(bào)雜志. 2015(02)
[5]面向大規(guī)模微博消息流的突發(fā)話題檢測[J]. 申國偉,楊武,王巍,于淼.  計(jì)算機(jī)研究與發(fā)展. 2015(02)
[6]融合用戶情感的在線突發(fā)事件識(shí)別研究[J]. 尉永清,楊玉珍,費(fèi)紹棟,朱振方.  情報(bào)理論與實(shí)踐. 2015(02)
[7]基于突發(fā)詞項(xiàng)頻域分析的微博突發(fā)事件檢測[J]. 趙潔,馬錚,周曉峰,金培權(quán).  情報(bào)理論與實(shí)踐. 2015(01)
[8]基于爆發(fā)詞識(shí)別的微博突發(fā)事件監(jiān)測方法研究[J]. 陳國蘭.  情報(bào)雜志. 2014(09)
[9]基于突發(fā)詞聚類的微博突發(fā)事件檢測方法[J]. 郭跇秀,呂學(xué)強(qiáng),李卓.  計(jì)算機(jī)應(yīng)用. 2014(02)
[10]一種基于情感符號(hào)的在線突發(fā)事件檢測方法[J]. 張魯民,賈焰,周斌,趙金輝,洪鋒.  計(jì)算機(jī)學(xué)報(bào). 2013(08)

碩士論文
[1]基于用戶反饋信息的新聞推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 何希真.山東師范大學(xué) 2015
[2]基于論壇的突發(fā)事件檢測與跟蹤[D]. 王堃宇.蘭州大學(xué) 2015
[3]突發(fā)事件微博新話題檢測與跟蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 葛高飛.北京郵電大學(xué) 2014



本文編號(hào):3489496

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3489496.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c23c9***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com