基于Spark的突發(fā)事件檢測實(shí)現(xiàn)研究
發(fā)布時(shí)間:2017-08-23 04:37
本文關(guān)鍵詞:基于Spark的突發(fā)事件檢測實(shí)現(xiàn)研究
更多相關(guān)文章: 突發(fā)事件檢測 Spark并行計(jì)算 Hadoop MapReduce 大數(shù)據(jù)分析 LDA主題模型
【摘要】:網(wǎng)絡(luò)信息流中包含著顯式或隱式的突發(fā)事件,從這些海量信息流中檢測或預(yù)測突發(fā)事件具有重大意義。通過檢測或預(yù)測出突發(fā)事件,有關(guān)應(yīng)急部門可以做好充足準(zhǔn)備和應(yīng)對策略,將損失降到最低;普通用戶可以沉著應(yīng)對突發(fā)事件,不至于擴(kuò)大突發(fā)事件的危害性,增加不必要心理壓力。與突發(fā)事件有關(guān)的研究在國內(nèi)外屢見不鮮,已取得不少成果。但目前的研究主要局限于突發(fā)事件自身特色的理論方面,在檢測和預(yù)測等技術(shù)方面雖有但不多。特別是大數(shù)據(jù)環(huán)境下的突發(fā)事件檢測和預(yù)測技術(shù)研究更是鳳毛麟角。本文想要解決的問題是“如何在大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)信息中準(zhǔn)確、快速地檢測出突發(fā)事件”。該問題可分解為兩個(gè)子問題,一是在大數(shù)據(jù)環(huán)境下如何從網(wǎng)絡(luò)信息中準(zhǔn)確地檢測出突發(fā)事件,二是如何快速地檢測出突發(fā)事件。針對兩個(gè)子問題,本文先分析了突發(fā)事件檢測的相關(guān)理論與主要技術(shù),然后對大數(shù)據(jù)環(huán)境下的突發(fā)事件檢測模型和方法進(jìn)行研究,具體包括以下4個(gè)方面:(1)論述了突發(fā)事件、突發(fā)事件檢測及大數(shù)據(jù)并行計(jì)算等相關(guān)概念與技術(shù);(2)以perplexity(困惑度)作為主要評價(jià)指標(biāo),分析了PLSI、LDA(?)HDP等基于概率生成的主題模型的優(yōu)缺點(diǎn);(3)提出突發(fā)事件并行檢測模型,以適應(yīng)大數(shù)據(jù)環(huán)境下準(zhǔn)確、快速地檢測突發(fā)事件;(4)利用Yahoo news新聞與新浪微博兩種不同類型數(shù)據(jù)源進(jìn)行實(shí)證研究。本文主要研究成果是提出了突發(fā)事件并行檢測模型,使得該模型能夠勝任大數(shù)據(jù)環(huán)境下突發(fā)事件檢測任務(wù)。該并行模型分為4個(gè)步驟,分別是語料并行預(yù)處理、突發(fā)詞并行檢測、潛在突發(fā)文本并行過濾和LDA主題并行抽取。該并行模型可在當(dāng)前最流行的快數(shù)據(jù)處理平臺Spark上執(zhí)行。上述的并行檢測模型,應(yīng)用于實(shí)際業(yè)務(wù)中就形成并行檢測系統(tǒng)。本文的并行檢測系統(tǒng)就運(yùn)行于Spar k平臺。此外,本文對并行檢測模型進(jìn)行了實(shí)證研究。通過Yahoo news新聞與新浪微博兩種不同類型數(shù)據(jù)源的實(shí)證研究,表明本文所提的突發(fā)事件并行檢測模型(方法)具有較高的準(zhǔn)確性和較好的可擴(kuò)展性。具體的實(shí)證研究工作是:(1)在Yahoo news新聞數(shù)據(jù)源方面,主要做了突發(fā)事件檢測準(zhǔn)確性實(shí)驗(yàn);概述了全部數(shù)據(jù)的檢測實(shí)驗(yàn)并具體闡述了4月、5月、6月的檢測實(shí)驗(yàn),通過實(shí)驗(yàn)表明本文所提的突發(fā)事件并行檢測模型準(zhǔn)確率P、召回率R和調(diào)和平均值F分別可達(dá)84.62%、78.57%和81.48%。(2)在新浪微博數(shù)據(jù)源方面,進(jìn)行了加速比和可擴(kuò)展比的有效性實(shí)驗(yàn);對突發(fā)事件并行檢測系統(tǒng)中耗時(shí)最長的LDA主題并行抽取模塊,進(jìn)行了LDA迭代次數(shù)、LDA主題數(shù)、Spark分區(qū)數(shù)和運(yùn)行Spark的硬件平臺使用情況等實(shí)證研究。
【關(guān)鍵詞】:突發(fā)事件檢測 Spark并行計(jì)算 Hadoop MapReduce 大數(shù)據(jù)分析 LDA主題模型
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:G206;G353.1
【目錄】:
- 摘要5-7
- Abstract7-14
- 第一章 緒論14-20
- 1.1 研究背景與意義14-17
- 1.1.1 研究背景14-15
- 1.1.2 研究意義15-17
- 1.2 研究思路與方法17-18
- 1.3 主要工作18
- 1.4 論文的組織結(jié)構(gòu)18-20
- 第二章 文獻(xiàn)綜述20-38
- 2.1 突發(fā)事件相關(guān)研究20-22
- 2.1.1 突發(fā)事件概念20-21
- 2.1.2 突發(fā)事件特征21
- 2.1.3 突發(fā)事件生命周期21-22
- 2.2 突發(fā)事件檢測相關(guān)工作與技術(shù)研究22-34
- 2.2.1 突發(fā)事件檢測相關(guān)工作22-24
- 2.2.2 突發(fā)詞檢測技術(shù)研究24-26
- 2.2.3 文本主題抽取技術(shù)研究26-34
- 2.3 大數(shù)據(jù)并行計(jì)算相關(guān)工作與技術(shù)研究34-38
- 2.3.1 大數(shù)據(jù)并行計(jì)算相關(guān)工作34-35
- 2.3.2 Hadoop MapReduce和Spark系統(tǒng)評估35-38
- 第三章 突發(fā)事件并行檢測模型研究38-50
- 3.1 模型總體框架38-39
- 3.2 語料并行預(yù)處理39-41
- 3.2.1 英文語料并行預(yù)處理39-41
- 3.2.2 中文語料并行預(yù)處理41
- 3.3 突發(fā)詞并行檢測模塊41-44
- 3.3.1 突發(fā)詞并行檢測算法41-43
- 3.3.2 突發(fā)詞并行檢測參數(shù)說明43-44
- 3.3.3 復(fù)雜度分析44
- 3.4 潛在突發(fā)文本并行過濾44-45
- 3.4.1 潛在突發(fā)文本并行過濾算法44-45
- 3.4.2 復(fù)雜度分析45
- 3.5 LDA主題并行抽取模塊45-49
- 3.5.1 LDA主題并行抽取算法45-47
- 3.5.2 LDA主題并行抽取參數(shù)說明47-48
- 3.5.3 復(fù)雜度分析48-49
- 3.6 本章小結(jié)49-50
- 第四章 突發(fā)事件并行檢測實(shí)證研究50-80
- 4.1 新聞數(shù)據(jù)源檢測實(shí)證研究50-73
- 4.1.1 新聞數(shù)據(jù)來源50-51
- 4.1.2 新聞數(shù)據(jù)源檢測結(jié)果與分析51-73
- 4.2 微博數(shù)據(jù)源檢測實(shí)證研究73-79
- 4.2.1 數(shù)據(jù)來源與硬件配置73-74
- 4.2.2 實(shí)驗(yàn)結(jié)果與分析74-79
- 4.3 本章小結(jié)79-80
- 第五章 總結(jié)與展望80-82
- 5.1 本文主要工作80-81
- 5.2 研究展望81-82
- 參考文獻(xiàn)82-87
- 致謝87-88
- 附錄A LDA主題并行抽取MAP操作算法88-89
- 附錄B LDA主題并行抽取REDUCE操作算法89-90
- 附錄C 科研成果與學(xué)術(shù)活動90-91
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 卓可秋;童國平;虞為;;一種基于Spark的論文相似性快速檢測方法[J];圖書情報(bào)工作;2015年11期
2 卓可秋;虞為;蘇新寧;;突發(fā)事件檢測的MapReduce并行化實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2015年02期
3 熊光清;;網(wǎng)絡(luò)突發(fā)事件應(yīng)對中存在的問題及解決方略[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào)(社會科學(xué)版);2014年04期
4 李綱;陳t熀,
本文編號:723021
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/723021.html
最近更新
教材專著