天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于LDA模型和密度聚類的新聞話題檢測(cè)

發(fā)布時(shí)間:2017-07-30 00:21

  本文關(guān)鍵詞:基于LDA模型和密度聚類的新聞話題檢測(cè)


  更多相關(guān)文章: 話題檢測(cè) LDA模型 OPTICS 簇識(shí)別


【摘要】:近些年,隨著互聯(lián)網(wǎng)的快速發(fā)展和網(wǎng)絡(luò)終端的多樣化,網(wǎng)絡(luò)新聞報(bào)道快速增長(zhǎng),新聞信息的結(jié)構(gòu)變得更加復(fù)雜。傳統(tǒng)的新聞收集、整理、組織和分析工作很難全面的了解新聞報(bào)道之間的聯(lián)系,無(wú)法從全局的角度判斷新聞報(bào)道的發(fā)展方向,話題檢測(cè)技術(shù)應(yīng)運(yùn)而生。新聞話題檢測(cè)的主要任務(wù)是從大量新聞中自動(dòng)檢測(cè)出潛在的話題,同時(shí)話題檢測(cè)也可以對(duì)突發(fā)新聞事件進(jìn)行檢測(cè)并全面了解事件的發(fā)展情況。話題檢測(cè)對(duì)輿情監(jiān)測(cè)、信息安全、商業(yè)金融等領(lǐng)域都有重要作用。本文針對(duì)新聞數(shù)據(jù)的話題檢測(cè)進(jìn)行研究,主要工作如下:(1)將LDA模型與基于密度的聚類算法相結(jié)合。LDA模型從語(yǔ)義層面抽取新聞數(shù)據(jù)主題,有效降低數(shù)據(jù)分析維度,更合理的體現(xiàn)新聞主題特征;基于密度聚類算法能夠更有效的挖掘話題中新聞的結(jié)構(gòu)。(2)基于新聞話題的時(shí)間延續(xù)性,給出了改進(jìn)的T-OPTICS算法。該算法繼承了OPTICS算法對(duì)參數(shù)不敏感的特性,降低了參數(shù)選擇對(duì)聚類結(jié)果的影響;改進(jìn)了OPTICS算法中文本間相似度的計(jì)算方法,體現(xiàn)了話題的時(shí)間延續(xù)性。(3)針對(duì)話題檢測(cè)任務(wù)的特點(diǎn),給出了一種基于OPTICS可達(dá)圖的自動(dòng)簇識(shí)別方法。該方法以話題是一個(gè)核心事件或活動(dòng)以及與其相關(guān)的事件或活動(dòng)的定義為依據(jù),首先在OPTICS可達(dá)圖上識(shí)別所有凹區(qū)間作為活動(dòng)或事件,然后抽取事件(活動(dòng))的核心特征,最后合并核心特征相近的連續(xù)事件(活動(dòng)),得到需要檢測(cè)的話題集合。該方法克服了現(xiàn)有的簇識(shí)別方法參數(shù)選擇困難的缺點(diǎn);赥DT4數(shù)據(jù)集的實(shí)驗(yàn)表明,上述研究工作能夠快速有效的發(fā)現(xiàn)新聞中的話題。
【關(guān)鍵詞】:話題檢測(cè) LDA模型 OPTICS 簇識(shí)別
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 研究目的和意義10
  • 1.2 研究背景及現(xiàn)狀分析10-12
  • 1.2.1 話題檢測(cè)研究現(xiàn)狀10-11
  • 1.2.2 OPTICS算法及其自動(dòng)簇識(shí)別方法研究現(xiàn)狀11-12
  • 1.3 主要研究?jī)?nèi)容12-13
  • 1.4 論文組織13-14
  • 1.5 本章小結(jié)14-16
  • 第2章 相關(guān)知識(shí)16-25
  • 2.1 話題檢測(cè)與跟蹤16-18
  • 2.1.1 話題檢測(cè)與跟蹤概述16
  • 2.1.2 話題檢測(cè)與跟蹤相關(guān)概念16-17
  • 2.1.3 話題檢測(cè)與跟蹤主要任務(wù)17-18
  • 2.1.4 語(yǔ)料及標(biāo)注情況18
  • 2.2 文本表示模型18-22
  • 2.2.1 向量空間模型19-20
  • 2.2.2 LSI模型20
  • 2.2.3 PLSI模型20-21
  • 2.2.4 LDA模型21-22
  • 2.3 本文語(yǔ)料庫(kù)及實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)22-24
  • 2.3.1 實(shí)驗(yàn)數(shù)據(jù)22-23
  • 2.3.2 數(shù)據(jù)預(yù)處理23
  • 2.3.3 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)23-24
  • 2.4 本章小結(jié)24-25
  • 第3章 面向話題檢測(cè)的T-OPTICS聚類算法25-37
  • 3.1 聚類算法25-28
  • 3.1.1 基于劃分的聚類25-26
  • 3.1.2 層次聚類26-27
  • 3.1.3 基于密度的聚類27-28
  • 3.2 OPTICS算法28-30
  • 3.3 算法改進(jìn)30-31
  • 3.4 實(shí)驗(yàn)結(jié)果及分析31-35
  • 3.4.1 實(shí)驗(yàn)設(shè)計(jì)31-32
  • 3.4.2 實(shí)驗(yàn)結(jié)果分析32-35
  • 3.4.3 LDA+T-OPTICS與VSM+K-means對(duì)比35
  • 3.5 本章小結(jié)35-37
  • 第4章 基于可達(dá)圖的自動(dòng)話題檢測(cè)37-46
  • 4.1 可達(dá)圖37-39
  • 4.2 事件劃分39-40
  • 4.3 事件建模與合并40-42
  • 4.4 基于自動(dòng)簇識(shí)別的話題檢測(cè)42-43
  • 4.5 實(shí)驗(yàn)結(jié)果及分析43-45
  • 4.5.1 實(shí)驗(yàn)設(shè)計(jì)43-44
  • 4.5.2 實(shí)驗(yàn)結(jié)果分析44-45
  • 4.5.3 實(shí)驗(yàn)結(jié)果總結(jié)45
  • 4.6 本章小結(jié)45-46
  • 第5章 總結(jié)與展望46-48
  • 5.1 本文總結(jié)46
  • 5.2 工作展望46-48
  • 參考文獻(xiàn)48-51
  • 致謝51-52
  • 攻讀學(xué)位期間取得的科研成果52
,

本文編號(hào):591755

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/591755.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b52c1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com