基于LDA模型和密度聚類的新聞話題檢測
發(fā)布時間:2017-07-30 00:21
本文關(guān)鍵詞:基于LDA模型和密度聚類的新聞話題檢測
更多相關(guān)文章: 話題檢測 LDA模型 OPTICS 簇識別
【摘要】:近些年,隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)絡(luò)終端的多樣化,網(wǎng)絡(luò)新聞報道快速增長,新聞信息的結(jié)構(gòu)變得更加復(fù)雜。傳統(tǒng)的新聞收集、整理、組織和分析工作很難全面的了解新聞報道之間的聯(lián)系,無法從全局的角度判斷新聞報道的發(fā)展方向,話題檢測技術(shù)應(yīng)運而生。新聞話題檢測的主要任務(wù)是從大量新聞中自動檢測出潛在的話題,同時話題檢測也可以對突發(fā)新聞事件進行檢測并全面了解事件的發(fā)展情況。話題檢測對輿情監(jiān)測、信息安全、商業(yè)金融等領(lǐng)域都有重要作用。本文針對新聞數(shù)據(jù)的話題檢測進行研究,主要工作如下:(1)將LDA模型與基于密度的聚類算法相結(jié)合。LDA模型從語義層面抽取新聞數(shù)據(jù)主題,有效降低數(shù)據(jù)分析維度,更合理的體現(xiàn)新聞主題特征;基于密度聚類算法能夠更有效的挖掘話題中新聞的結(jié)構(gòu)。(2)基于新聞話題的時間延續(xù)性,給出了改進的T-OPTICS算法。該算法繼承了OPTICS算法對參數(shù)不敏感的特性,降低了參數(shù)選擇對聚類結(jié)果的影響;改進了OPTICS算法中文本間相似度的計算方法,體現(xiàn)了話題的時間延續(xù)性。(3)針對話題檢測任務(wù)的特點,給出了一種基于OPTICS可達圖的自動簇識別方法。該方法以話題是一個核心事件或活動以及與其相關(guān)的事件或活動的定義為依據(jù),首先在OPTICS可達圖上識別所有凹區(qū)間作為活動或事件,然后抽取事件(活動)的核心特征,最后合并核心特征相近的連續(xù)事件(活動),得到需要檢測的話題集合。該方法克服了現(xiàn)有的簇識別方法參數(shù)選擇困難的缺點;赥DT4數(shù)據(jù)集的實驗表明,上述研究工作能夠快速有效的發(fā)現(xiàn)新聞中的話題。
【關(guān)鍵詞】:話題檢測 LDA模型 OPTICS 簇識別
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究目的和意義10
- 1.2 研究背景及現(xiàn)狀分析10-12
- 1.2.1 話題檢測研究現(xiàn)狀10-11
- 1.2.2 OPTICS算法及其自動簇識別方法研究現(xiàn)狀11-12
- 1.3 主要研究內(nèi)容12-13
- 1.4 論文組織13-14
- 1.5 本章小結(jié)14-16
- 第2章 相關(guān)知識16-25
- 2.1 話題檢測與跟蹤16-18
- 2.1.1 話題檢測與跟蹤概述16
- 2.1.2 話題檢測與跟蹤相關(guān)概念16-17
- 2.1.3 話題檢測與跟蹤主要任務(wù)17-18
- 2.1.4 語料及標(biāo)注情況18
- 2.2 文本表示模型18-22
- 2.2.1 向量空間模型19-20
- 2.2.2 LSI模型20
- 2.2.3 PLSI模型20-21
- 2.2.4 LDA模型21-22
- 2.3 本文語料庫及實驗評價標(biāo)準(zhǔn)22-24
- 2.3.1 實驗數(shù)據(jù)22-23
- 2.3.2 數(shù)據(jù)預(yù)處理23
- 2.3.3 實驗評價標(biāo)準(zhǔn)23-24
- 2.4 本章小結(jié)24-25
- 第3章 面向話題檢測的T-OPTICS聚類算法25-37
- 3.1 聚類算法25-28
- 3.1.1 基于劃分的聚類25-26
- 3.1.2 層次聚類26-27
- 3.1.3 基于密度的聚類27-28
- 3.2 OPTICS算法28-30
- 3.3 算法改進30-31
- 3.4 實驗結(jié)果及分析31-35
- 3.4.1 實驗設(shè)計31-32
- 3.4.2 實驗結(jié)果分析32-35
- 3.4.3 LDA+T-OPTICS與VSM+K-means對比35
- 3.5 本章小結(jié)35-37
- 第4章 基于可達圖的自動話題檢測37-46
- 4.1 可達圖37-39
- 4.2 事件劃分39-40
- 4.3 事件建模與合并40-42
- 4.4 基于自動簇識別的話題檢測42-43
- 4.5 實驗結(jié)果及分析43-45
- 4.5.1 實驗設(shè)計43-44
- 4.5.2 實驗結(jié)果分析44-45
- 4.5.3 實驗結(jié)果總結(jié)45
- 4.6 本章小結(jié)45-46
- 第5章 總結(jié)與展望46-48
- 5.1 本文總結(jié)46
- 5.2 工作展望46-48
- 參考文獻48-51
- 致謝51-52
- 攻讀學(xué)位期間取得的科研成果52
本文編號:591755
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/591755.html
最近更新
教材專著