基于多向量的中文新聞話題檢測
發(fā)布時間:2017-03-30 18:20
本文關(guān)鍵詞:基于多向量的中文新聞話題檢測,,由筆耕文化傳播整理發(fā)布。
【摘要】:話題檢測是處理互聯(lián)網(wǎng)新聞的一種重要方法,使用聚類方法對新聞文檔進(jìn)行處理是實現(xiàn)話題檢測的一條重要途徑。凝聚層次聚類算法由于具有較高聚類精確度,且聚類結(jié)果能夠分層展示等特點,具有較為廣泛的應(yīng)用。對話題檢測結(jié)果具有重要影響的因素有很多,包括:話題的表示方法、向量的加權(quán)方法、聚類算法過程以及聚類個數(shù)的估計方法等。本文針對話題檢測中的三個關(guān)鍵點:話題表示方法、向量的加權(quán)方法和聚類個數(shù)估計算法進(jìn)行了研究,主要工作如下:1.在分析研究向量空間模型、主題模型以及多向量模型的基礎(chǔ)上,將向量空間模型和主題模型相結(jié)合,給出了一種基于多向量模型的話題表示方法,同時結(jié)合基于簇中心的凝聚層次聚類過程,給出了基于多向量的凝聚層次聚類中的簇中心構(gòu)造及更新方法。2.針對傳統(tǒng)TFIDF算法中存在的對特征項在各個類中分布情況考慮不充分的問題,通過將特征項在各個類中的文檔分布信息引入到TFIDF算法當(dāng)中,給出了對傳統(tǒng)TFIDF的一種改進(jìn)算法,并將改進(jìn)算法與本文給出的基于多向量的凝聚層次聚類算法相結(jié)合,應(yīng)用于簇中心的更新算法當(dāng)中。3.對聚類個數(shù)估計方法進(jìn)行了研究,通過對最小信息準(zhǔn)則和貝葉斯信息準(zhǔn)則進(jìn)行分析,同時結(jié)合凝聚層次聚類算法過程,給出一種將兩種聚類評價方法相結(jié)合的聚類個數(shù)估計方法。本文使用語言數(shù)據(jù)聯(lián)盟在話題檢測與追蹤評測中用到的TDT4數(shù)據(jù)集中的中文數(shù)據(jù)集對給出的算法進(jìn)行測試,實驗結(jié)果表明,本文給出的基于多向量的話題檢測方法能夠得到較好的文檔聚類結(jié)果,通過對比試驗可以發(fā)現(xiàn)本文給出的方法能夠提高話題檢測的召回率和準(zhǔn)確率。
【關(guān)鍵詞】:話題檢測 多向量模型 TFIDF改進(jìn) 聚類個數(shù)估計
【學(xué)位授予單位】:河北大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-16
- 1.1 研究背景和意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀及分析11-13
- 1.2.1 話題表示模型11-12
- 1.2.2 TFIDF加權(quán)算法12
- 1.2.3 聚類個數(shù)估計方法12-13
- 1.3 主要研究內(nèi)容13
- 1.4 論文組織13-16
- 第2章 相關(guān)知識16-28
- 2.1 話題檢測相關(guān)概念16-17
- 2.1.1 話題檢測基礎(chǔ)概念16
- 2.1.2 話題檢測相關(guān)流程16-17
- 2.2 話題表示模型17-20
- 2.2.1 向量空間模型17-18
- 2.2.2 主題模型18-20
- 2.2.3 多向量模型20
- 2.3 加權(quán)方法20-21
- 2.4 聚類方法21-23
- 2.5 聚類個數(shù)估計方法23-26
- 2.6 本章小結(jié)26-28
- 第3章 基于多向量的文本聚類算法28-38
- 3.1 多向量表示方法介紹28
- 3.2 基于多向量的文本聚類算法實現(xiàn)28-34
- 3.2.1 多向量構(gòu)造方法28-33
- 3.2.2 聚類方法33-34
- 3.3 相關(guān)實驗34-37
- 3.3.1 評價方法及實驗數(shù)據(jù)集34-35
- 3.3.2 基準(zhǔn)方法聚類實驗35-36
- 3.3.3 基于多向量模型方法實驗36-37
- 3.4 本章小結(jié)37-38
- 第4章 基于多向量的話題檢測方法38-47
- 4.1 評價準(zhǔn)則在基于多向量文本聚類算法中的使用39-40
- 4.2 改進(jìn)的評價準(zhǔn)則方法40-41
- 4.3 基于多向量的話題檢測方法的實現(xiàn)41-42
- 4.4 話題檢測方法實驗42-46
- 4.5 本章小結(jié)46-47
- 第5章 總結(jié)與展望47-49
- 5.1 本文總結(jié)47-48
- 5.2 工作展望48-49
- 參考文獻(xiàn)49-52
- 致謝52-53
- 攻讀學(xué)位期間取得的科研成果53
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊潔;鄭寧;徐海濤;劉董;徐明;;支持向量預(yù)選取的域著色Voronoi圖方法[J];計算機(jī)應(yīng)用與軟件;2008年12期
2 李慶;胡捍英;;支持向量預(yù)選取的K邊界近鄰法[J];電路與系統(tǒng)學(xué)報;2013年02期
3 鄭逢德;張鴻賓;;在線Lagrangian支撐向量回歸[J];北京工業(yè)大學(xué)學(xué)報;2013年07期
4 趙春暉;張q
本文編號:277793
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/277793.html
最近更新
教材專著