基于微博的突發(fā)事件檢測方法研究
本文關(guān)鍵詞:基于微博的突發(fā)事件檢測方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,新聞、論壇、微博等一些新興的互聯(lián)網(wǎng)服務(wù)已經(jīng)成為人們傳播以及獲取信息的重要平臺。尤其是近幾年來,微博的發(fā)展正異軍突起,并且憑借其實(shí)時(shí)性和便捷性受到廣大用戶的喜愛。微博上隨時(shí)隨地的動(dòng)態(tài)信息使得微博成為把握社會(huì)脈搏的有力工具,因此對微博中海量信息進(jìn)行事件挖掘,及時(shí)發(fā)現(xiàn)社會(huì)動(dòng)態(tài)對社會(huì)的穩(wěn)定和公眾的利益有著重要的影響。本文的研究以微博為平臺,以Twitter數(shù)據(jù)為基礎(chǔ),對微博中的突發(fā)事件進(jìn)行檢測與追蹤。本文的工作主要分為以下幾個(gè)方面:首先,選取合適的分詞工具,本文選用ansj做為本文的中文分詞工具,并構(gòu)建自定義用戶詞典和停用詞詞庫。根據(jù)突發(fā)事件的特性,設(shè)計(jì)表結(jié)構(gòu),建立與突發(fā)事件相關(guān)的表。其次,將Twitter測試數(shù)據(jù)集中的數(shù)據(jù)按照時(shí)間順序劃分到不同的時(shí)間窗中,對單位時(shí)間窗中的數(shù)據(jù)集進(jìn)行預(yù)處理,得到新的數(shù)據(jù)集。提取新數(shù)據(jù)集中的時(shí)間信息和內(nèi)容信息,使用分詞工具對新數(shù)據(jù)集中的內(nèi)容進(jìn)行分詞,去除停用詞,并將分詞過程中無意義的詞加入停用詞庫。然后進(jìn)行突發(fā)特征詞的提取,并基于詞共現(xiàn)技術(shù)構(gòu)建突發(fā)詞的相似度矩陣,記錄突發(fā)詞的突發(fā)時(shí)間區(qū)間。最后,使用自底向上的凝聚式層次聚類算法,以突發(fā)詞集合和相似度矩陣為輸入進(jìn)行聚類,得到一顆由突發(fā)詞組成的二叉樹,并采用合適的閾值對二叉樹進(jìn)行切分,得到相關(guān)的事件簇,將事件簇中的相似事件進(jìn)行合并并與突發(fā)時(shí)間區(qū)間相對應(yīng),最終得到準(zhǔn)確的突發(fā)事件和對應(yīng)的突發(fā)時(shí)間。本文基于上述工作實(shí)現(xiàn)了突發(fā)事件檢測系統(tǒng)。使用改進(jìn)的BBW(BasicBurst Weight)算法對突發(fā)詞進(jìn)行提取,進(jìn)一步提升了突發(fā)特征詞提取的準(zhǔn)確性。最后在Twitter數(shù)據(jù)集上進(jìn)行實(shí)例驗(yàn)證測試,分析了該系統(tǒng)的有效性和真實(shí)性。
【關(guān)鍵詞】:微博 時(shí)間窗 突發(fā)詞 突發(fā)時(shí)間 層次聚類
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1;TP393.092
【目錄】:
- 中文摘要3-4
- Abstract4-9
- 第一章 緒論9-16
- 1.1 研究背景與意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.2.1 微博網(wǎng)絡(luò)應(yīng)用研究現(xiàn)狀10-12
- 1.2.2 突發(fā)事件研究現(xiàn)狀12-14
- 1.3 論文的主要工作14
- 1.4 文章結(jié)構(gòu)14-16
- 第二章 相關(guān)理論基礎(chǔ)16-22
- 2.1 相關(guān)概念定義16-17
- 2.1.1 事件的定義16-17
- 2.1.2 突發(fā)事件17
- 2.2 突發(fā)事件研究框架17-18
- 2.3 分詞及分詞工具18-19
- 2.3.1 分詞18
- 2.3.2 分詞工具18-19
- 2.4 聚類算法分析19-21
- 2.4.1 聚類19
- 2.4.2 聚類算法的分類19-21
- 2.5 本章小結(jié)21-22
- 第三章 突發(fā)事件特征提取22-30
- 3.1 突發(fā)事件研究方案22-24
- 3.2 數(shù)據(jù)預(yù)處理24-27
- 3.2.1 Twitter數(shù)據(jù)預(yù)處理24-26
- 3.2.2 構(gòu)建專有名詞庫26
- 3.2.3 構(gòu)建停用詞庫26-27
- 3.3 突發(fā)詞提取27-29
- 3.3.1 基礎(chǔ)權(quán)重27-28
- 3.3.2 突發(fā)權(quán)重28-29
- 3.4 本章小結(jié)29-30
- 第四章 突發(fā)事件檢測30-40
- 4.1 凝聚式層次聚類算法30-31
- 4.2 突發(fā)詞聚類31-35
- 4.2.1 構(gòu)建相似度矩陣31-33
- 4.2.2 突發(fā)詞聚類檢測突發(fā)事件33-35
- 4.3 微博與事件建立關(guān)聯(lián)35-39
- 4.3.1 確定突發(fā)時(shí)間區(qū)間35-36
- 4.3.2 相似事件合并36-38
- 4.3.3 微博與事件關(guān)聯(lián)的建立38-39
- 4.4 本章小結(jié)39-40
- 第五章 數(shù)據(jù)結(jié)果分析40-47
- 5.1 實(shí)驗(yàn)環(huán)境配置40
- 5.2 實(shí)驗(yàn)數(shù)據(jù)集40-41
- 5.3 實(shí)驗(yàn)結(jié)果及分析41-46
- 5.4 本章小結(jié)46-47
- 第六章 總結(jié)與展望47-49
- 6.1 本文工作總結(jié)47
- 6.2 未來工作展望47-49
- 參考文獻(xiàn)49-52
- 在學(xué)期間研究成果52-53
- 致謝53
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[J];計(jì)算機(jī)學(xué)報(bào);2008年04期
2 史新宏,蔡伯根;高速公路自動(dòng)事件檢測算法[J];交通運(yùn)輸系統(tǒng)工程與信息;2001年04期
3 周林英;朱斌;趙忠杰;;基于支持向量機(jī)的高速公路事件檢測算法[J];系統(tǒng)仿真技術(shù);2010年03期
4 陳艷艷;田啟華;;公交調(diào)度系統(tǒng)事件檢測算法研究[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年12期
5 郝艷哲;;京秦高速公路視頻事件檢測系統(tǒng)應(yīng)用[J];中國交通信息化;2013年04期
6 王闖舟;;提升事件檢測的商業(yè)價(jià)值[J];軟件世界;2007年20期
7 王彩琴;;基于智能分析的高速公路事件檢測系統(tǒng)的研究與開發(fā)[J];浙江統(tǒng)計(jì);2007年11期
8 王穎穎;張峗;胡乃靜;;在線新事件檢測系統(tǒng)中的性能提升策略[J];計(jì)算機(jī)工程;2008年15期
9 倉玉;洪宇;姚建民;朱巧明;;基于時(shí)序話題模型的新事件檢測[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
10 樓曉俊;鮑必賽;劉海濤;;分布式信息融合的物聯(lián)網(wǎng)事件檢測方法[J];南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
2 劉霄;邵健;莊越挺;;基于主題模型的網(wǎng)絡(luò)突發(fā)熱點(diǎn)事件檢測[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【poster】[C];2011年
3 胡佳鋒;金蓓弘;陳海彪;;空間事件檢測的加速策略研究[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【oral】[C];2011年
4 萬濤;陳學(xué)武;王川久;;高速公路事件自動(dòng)檢測算法研究綜述[A];第一屆中國智能交通年會(huì)論文集[C];2005年
5 張闊;李涓子;吳剛;;基于關(guān)鍵詞元的話題內(nèi)事件檢測[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 覃頻頻;許登元;姚起宏;黃大明;;基于表決融合的高速公路事件檢測算法融合[A];'2006系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2006年
7 陳俊;李國輝;;擁擠視頻監(jiān)控中的事件檢測[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【poster】[C];2011年
8 張永忠;趙靜;;基于事件檢測算法的交通數(shù)據(jù)分析系統(tǒng)[A];中國計(jì)量協(xié)會(huì)冶金分會(huì)2008年會(huì)論文集[C];2008年
9 劉海龍;李戰(zhàn)懷;陳群;;RFID供應(yīng)鏈系統(tǒng)中的在線復(fù)雜事件檢測方法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
10 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 王闖舟;事件檢測提升服務(wù)的商業(yè)價(jià)值[N];計(jì)算機(jī)世界;2006年
2 杭州海康威視數(shù)字技術(shù)股份有限公司 浦世亮;IVS技術(shù)在城市安防系統(tǒng)中的應(yīng)用[N];計(jì)算機(jī)世界;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 劉昌余;多媒體事件檢測中的關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2015年
2 覃頻頻;基于信息融合的高速公路事件檢測建模與仿真[D];西南交通大學(xué);2007年
3 余柳;基于移動(dòng)源數(shù)據(jù)的城市快速交通事件檢測W-CUSUM算法與評價(jià)[D];北京交通大學(xué);2010年
4 柯佳;基于語義的視頻事件檢測分析方法研究[D];江蘇大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 裴孝中;行車噪聲環(huán)境下的快速聲學(xué)事件檢測方法研究[D];哈爾濱工業(yè)大學(xué);2015年
2 熊偉晴;基于位置信息的事件檢測[D];哈爾濱工業(yè)大學(xué);2015年
3 李旭;面向多來源新聞的領(lǐng)域事件分析[D];浙江大學(xué);2015年
4 陳斌;基于云的復(fù)雜事件檢測服務(wù)[D];浙江大學(xué);2015年
5 肖軍;基于車檢器數(shù)據(jù)的高速公路事件檢測可靠性提升技術(shù)研究[D];重慶大學(xué);2015年
6 孫方園;基于圖的中文微博災(zāi)難事件檢測[D];浙江大學(xué);2016年
7 趙偉;足球視頻精彩事件檢測算法研究[D];北京理工大學(xué);2016年
8 張玉;基于微博的突發(fā)事件檢測方法研究[D];蘭州大學(xué);2016年
9 周林英;基于支持向量機(jī)的高速公路事件檢測算法[D];長安大學(xué);2009年
10 龍睿;針對微博數(shù)據(jù)的事件檢測、跟蹤及摘要生成[D];上海交通大學(xué);2012年
本文關(guān)鍵詞:基于微博的突發(fā)事件檢測方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:265746
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/265746.html