天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于論壇的突發(fā)事件檢測與跟蹤

發(fā)布時間:2017-09-03 17:20

  本文關(guān)鍵詞:基于論壇的突發(fā)事件檢測與跟蹤


  更多相關(guān)文章: 話題發(fā)現(xiàn) 時間窗 突發(fā)事件 層次聚類


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)發(fā)展的不斷深入,人們已經(jīng)進入了數(shù)字化信息化的大數(shù)據(jù)時代。每天數(shù)以億計的數(shù)據(jù)不斷的產(chǎn)生、傳播。這些超大規(guī)模的數(shù)據(jù)在帶來無限商機的同時也帶來了相應(yīng)的風險。信息由現(xiàn)實生活中發(fā)生的各種事件而產(chǎn)生,隨著時間地點的推移而傳播。現(xiàn)實生活中的各類事件又因它們的因果關(guān)聯(lián)關(guān)系而聚合在一起成為話題。對話題進行檢測和追蹤(TDT)近年來一直是學術(shù)界相關(guān)學者研究的焦點。本文以突發(fā)事件話題為研究對象,將新聞?wù)搲瘮?shù)據(jù)作為數(shù)據(jù)源,對突發(fā)事件話題進行了檢測與追蹤。本文首先建立了滿足突發(fā)事件話題特點要求的數(shù)據(jù)庫表來存儲原始數(shù)據(jù)。根據(jù)突發(fā)事件話題特有的特征,從原始數(shù)據(jù)中提取出內(nèi)容信息和時間信息。為了更好的得到數(shù)據(jù)的內(nèi)容信息,本文在使用開源分詞工具的基礎(chǔ)上,自定義了分詞工具的分詞詞典并構(gòu)建了相應(yīng)的停用詞詞典。采取相應(yīng)的噪聲過濾機制,得到了干凈的數(shù)據(jù)集,這是后文進一步提取特征的基礎(chǔ)。之后,本文引入了TFIW-IDF與時間窗的概念來分析原始數(shù)據(jù)中所含有的時間信息,將噪聲過濾后的數(shù)據(jù)集根據(jù)時間先后順序切成了不同時間窗數(shù)據(jù)段。對每一段的數(shù)據(jù)經(jīng)過相應(yīng)算法的分析,提取出具有突發(fā)事件特征的突發(fā)詞集合,并計算各突發(fā)詞對應(yīng)的突發(fā)時間區(qū)間。對突發(fā)詞集合進行內(nèi)容共現(xiàn)度,時間共現(xiàn)度的計算,構(gòu)建出突發(fā)詞的相似性矩陣。構(gòu)建的相似性矩將作為后文層次聚類算法的輸入。最后,采用自下而上凝聚型層次聚類,對突發(fā)詞集合進行聚類分析,得到由突發(fā)詞集構(gòu)成的二叉話題樹。采用多種話題樹切分機制,對話題樹進行有效的切分進而得到突發(fā)事件的話題。為了滿足TDT里對話題這一概念的定義,本文在采取相應(yīng)約束的將突發(fā)事件話題與原始文檔流進行了對應(yīng)。本文在完成上述工作的基礎(chǔ)上建立了突發(fā)事件話題檢測系統(tǒng),利用論壇數(shù)據(jù)對本文的理論和系統(tǒng)進行了檢驗取得了較好的效果。
【關(guān)鍵詞】:話題發(fā)現(xiàn) 時間窗 突發(fā)事件 層次聚類
【學位授予單位】:蘭州大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.09
【目錄】:
  • 摘要3-4
  • Abstract4-8
  • 第一章 緒論8-12
  • 1.1 研究背景與意義8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-10
  • 1.3 論文主要工作10
  • 1.4 論文組織結(jié)構(gòu)10-12
  • 第二章 突發(fā)事件話題與相關(guān)對象的定義12-16
  • 2.1 對象的定義12-14
  • 2.2 研究框架思路圖14-16
  • 第三章 數(shù)據(jù)庫構(gòu)建和數(shù)據(jù)預(yù)處理16-22
  • 3.1 數(shù)據(jù)庫軟件介紹的設(shè)計16
  • 3.2 數(shù)據(jù)庫表設(shè)計16-18
  • 3.3 數(shù)據(jù)預(yù)處理18-22
  • 3.3.1 重復(fù)文檔過濾18-19
  • 3.3.2 文檔分詞與建立自定義詞庫19-22
  • 第四章 突發(fā)詞的提取與相似性矩陣的構(gòu)建22-33
  • 4.1 時間窗、詞的時序序列與TFIW-IDF22-25
  • 4.2 用TFlW-IDF檢測突事件突發(fā)詞25-27
  • 4.3 計算突發(fā)詞突發(fā)時間區(qū)間27-29
  • 4.5 構(gòu)建詞的共現(xiàn)度矩陣29-33
  • 4.5.1 詞的內(nèi)容共現(xiàn)度計算29-30
  • 4.5.2 詞的時間共現(xiàn)度計算30-31
  • 4.5.3 基于內(nèi)容和時間的共現(xiàn)相似矩陣31-33
  • 第五章 突發(fā)事件話題發(fā)現(xiàn)33-43
  • 5.1 聚類算法與突發(fā)事件話題發(fā)現(xiàn)框架33-38
  • 5.2 計算話題的突發(fā)時間區(qū)間38-40
  • 5.3 源數(shù)據(jù)與話題的對應(yīng)40-43
  • 第六章 總結(jié)與展望43-46
  • 6.1 全文工作總結(jié)43
  • 6.2 下一步工作計劃43-46
  • 參考文獻46-47
  • 致謝47

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學學報(自然科學版);2012年04期

2 鄭曉鳴;呂士穎;王曉東;;一種基于隨機抽取的有限深度層次聚類[J];鄭州大學學報(理學版);2007年03期

3 湯周文;葉東毅;;基于層次聚類的差異化屬性約簡算法[J];計算機應(yīng)用;2009年02期

4 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期

5 龔尚福;陳婉璐;賈澎濤;;層次聚類社區(qū)發(fā)現(xiàn)算法的研究[J];計算機應(yīng)用研究;2013年11期

6 香紅麗;王瀟涵;羅淑云;;基于層次聚類方法研究課程關(guān)系結(jié)構(gòu)[J];中國科教創(chuàng)新導(dǎo)刊;2011年26期

7 李曉飛;;基于動態(tài)層次聚類的離散化算法的研究[J];計算機應(yīng)用與軟件;2009年10期

8 張闊,徐鵬,李涓子,王克宏;基于優(yōu)化層次聚類的文檔邏輯結(jié)構(gòu)抽取[J];清華大學學報(自然科學版);2005年04期

9 王旅;彭宏;胡勁松;梁華芳;;層次聚類在種群親緣關(guān)系研究中的應(yīng)用[J];計算機時代;2006年07期

10 黃健斌;康劍梅;齊俊杰;孫鶴立;;一種基于同步動力學模型的層次聚類方法[J];中國科學:信息科學;2013年05期

中國重要會議論文全文數(shù)據(jù)庫 前6條

1 吾守爾·斯拉木;吳啟南;;基于層次聚類方法[A];第六屆全國計算機應(yīng)用聯(lián)合學術(shù)會議論文集[C];2002年

2 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

3 楊建武;;Web檢索結(jié)果的層次聚類研究[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年

4 劉啟亮;鄧敏;李光強;王佳t,

本文編號:786313


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/786313.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d417***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com