基于論壇的突發(fā)事件檢測與跟蹤
本文關(guān)鍵詞:基于論壇的突發(fā)事件檢測與跟蹤
更多相關(guān)文章: 話題發(fā)現(xiàn) 時間窗 突發(fā)事件 層次聚類
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)發(fā)展的不斷深入,人們已經(jīng)進入了數(shù)字化信息化的大數(shù)據(jù)時代。每天數(shù)以億計的數(shù)據(jù)不斷的產(chǎn)生、傳播。這些超大規(guī)模的數(shù)據(jù)在帶來無限商機的同時也帶來了相應(yīng)的風險。信息由現(xiàn)實生活中發(fā)生的各種事件而產(chǎn)生,隨著時間地點的推移而傳播。現(xiàn)實生活中的各類事件又因它們的因果關(guān)聯(lián)關(guān)系而聚合在一起成為話題。對話題進行檢測和追蹤(TDT)近年來一直是學術(shù)界相關(guān)學者研究的焦點。本文以突發(fā)事件話題為研究對象,將新聞?wù)搲瘮?shù)據(jù)作為數(shù)據(jù)源,對突發(fā)事件話題進行了檢測與追蹤。本文首先建立了滿足突發(fā)事件話題特點要求的數(shù)據(jù)庫表來存儲原始數(shù)據(jù)。根據(jù)突發(fā)事件話題特有的特征,從原始數(shù)據(jù)中提取出內(nèi)容信息和時間信息。為了更好的得到數(shù)據(jù)的內(nèi)容信息,本文在使用開源分詞工具的基礎(chǔ)上,自定義了分詞工具的分詞詞典并構(gòu)建了相應(yīng)的停用詞詞典。采取相應(yīng)的噪聲過濾機制,得到了干凈的數(shù)據(jù)集,這是后文進一步提取特征的基礎(chǔ)。之后,本文引入了TFIW-IDF與時間窗的概念來分析原始數(shù)據(jù)中所含有的時間信息,將噪聲過濾后的數(shù)據(jù)集根據(jù)時間先后順序切成了不同時間窗數(shù)據(jù)段。對每一段的數(shù)據(jù)經(jīng)過相應(yīng)算法的分析,提取出具有突發(fā)事件特征的突發(fā)詞集合,并計算各突發(fā)詞對應(yīng)的突發(fā)時間區(qū)間。對突發(fā)詞集合進行內(nèi)容共現(xiàn)度,時間共現(xiàn)度的計算,構(gòu)建出突發(fā)詞的相似性矩陣。構(gòu)建的相似性矩將作為后文層次聚類算法的輸入。最后,采用自下而上凝聚型層次聚類,對突發(fā)詞集合進行聚類分析,得到由突發(fā)詞集構(gòu)成的二叉話題樹。采用多種話題樹切分機制,對話題樹進行有效的切分進而得到突發(fā)事件的話題。為了滿足TDT里對話題這一概念的定義,本文在采取相應(yīng)約束的將突發(fā)事件話題與原始文檔流進行了對應(yīng)。本文在完成上述工作的基礎(chǔ)上建立了突發(fā)事件話題檢測系統(tǒng),利用論壇數(shù)據(jù)對本文的理論和系統(tǒng)進行了檢驗取得了較好的效果。
【關(guān)鍵詞】:話題發(fā)現(xiàn) 時間窗 突發(fā)事件 層次聚類
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.09
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-12
- 1.1 研究背景與意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.3 論文主要工作10
- 1.4 論文組織結(jié)構(gòu)10-12
- 第二章 突發(fā)事件話題與相關(guān)對象的定義12-16
- 2.1 對象的定義12-14
- 2.2 研究框架思路圖14-16
- 第三章 數(shù)據(jù)庫構(gòu)建和數(shù)據(jù)預(yù)處理16-22
- 3.1 數(shù)據(jù)庫軟件介紹的設(shè)計16
- 3.2 數(shù)據(jù)庫表設(shè)計16-18
- 3.3 數(shù)據(jù)預(yù)處理18-22
- 3.3.1 重復(fù)文檔過濾18-19
- 3.3.2 文檔分詞與建立自定義詞庫19-22
- 第四章 突發(fā)詞的提取與相似性矩陣的構(gòu)建22-33
- 4.1 時間窗、詞的時序序列與TFIW-IDF22-25
- 4.2 用TFlW-IDF檢測突事件突發(fā)詞25-27
- 4.3 計算突發(fā)詞突發(fā)時間區(qū)間27-29
- 4.5 構(gòu)建詞的共現(xiàn)度矩陣29-33
- 4.5.1 詞的內(nèi)容共現(xiàn)度計算29-30
- 4.5.2 詞的時間共現(xiàn)度計算30-31
- 4.5.3 基于內(nèi)容和時間的共現(xiàn)相似矩陣31-33
- 第五章 突發(fā)事件話題發(fā)現(xiàn)33-43
- 5.1 聚類算法與突發(fā)事件話題發(fā)現(xiàn)框架33-38
- 5.2 計算話題的突發(fā)時間區(qū)間38-40
- 5.3 源數(shù)據(jù)與話題的對應(yīng)40-43
- 第六章 總結(jié)與展望43-46
- 6.1 全文工作總結(jié)43
- 6.2 下一步工作計劃43-46
- 參考文獻46-47
- 致謝47
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學學報(自然科學版);2012年04期
2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機抽取的有限深度層次聚類[J];鄭州大學學報(理學版);2007年03期
3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計算機應(yīng)用;2009年02期
4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計算機應(yīng)用研究;2013年11期
6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國科教創(chuàng)新導(dǎo)刊;2011年26期
7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計算機應(yīng)用與軟件;2009年10期
8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學學報(自然科學版);2005年04期
9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計算機時代;2006年07期
10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學模型的層次聚類方法[J];中國科學:信息科學;2013年05期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計算機應(yīng)用聯(lián)合學術(shù)會議論文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
4 劉啟亮;鄧敏;李光強;王佳t,
本文編號:786313
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/786313.html