博客話題與新聞話題關(guān)聯(lián)方法研究
發(fā)布時間:2021-05-11 13:35
隨著新媒體的不斷誕生,傳統(tǒng)媒體如何利用新媒體來發(fā)展自身開始受到人們的關(guān)注。作為Web2.0以后代表性的新媒體平臺,博客的價值越來越受到傳統(tǒng)新聞媒體的重視。新聞媒體根據(jù)博客中討論的話題熱點(diǎn)來確定對人們對相關(guān)新聞的關(guān)注角度和趨勢,通過找到與新聞話題相關(guān)聯(lián)的博文話題,我們能夠為客觀的新聞報道提供主觀性的評論與參考。本文借助話題模型方法,結(jié)合博文的結(jié)構(gòu)特征和內(nèi)容特征,對博文話題與新聞話題之間的關(guān)聯(lián)檢測方法進(jìn)行了研究。首先,利用VEM模型來構(gòu)建新聞話題模型和博文話題模型,根據(jù)博文的結(jié)構(gòu)特征對博文語料進(jìn)行了改進(jìn),獲得了博文和新聞?wù)Z料的話題語義信息。然后,利用歐幾里得距離、余弦相似度、Hellinger距離、Tanimoto系數(shù)和JS距離五種常見的相似度算法作為關(guān)聯(lián)判定方法,對獲得的話題模型進(jìn)行了關(guān)聯(lián)檢測。之后,提出了一種基于投票的關(guān)聯(lián)判定方法,利用以上五種關(guān)聯(lián)判定方法找到每個新聞話題的最佳關(guān)聯(lián)博文。最后,對所獲得的實驗結(jié)果進(jìn)行了分析評價,并對每種關(guān)聯(lián)方法,以及投票方法的結(jié)果進(jìn)行了評價和分析。實驗獲得了多種常見的關(guān)聯(lián)方法在新聞-博文話題關(guān)聯(lián)中的表現(xiàn),顯示出了余弦相似度和Tanimoto系數(shù)在此項工作...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
圖錄
表錄
第一章 緒論
1.1 研究背景
1.2 研究目的
1.3 研究內(nèi)容
1.4 論文主要內(nèi)容與章節(jié)安排
第二章 相關(guān)研究工作介紹
2.1 新聞研究概述與博客研究現(xiàn)狀
2.1.1 新聞研究概述
2.1.2 博客研究現(xiàn)狀
2.2 博客常用話題模型
2.2.1 LDA 模型
2.2.2 標(biāo)簽-話題模型(tag-topic model)
2.2.3 Labeled-LDA
2.3 新聞-博文研究
2.3.1 新聞報道-博客文檔關(guān)聯(lián)
2.3.2 熱點(diǎn)新聞發(fā)現(xiàn)
2.4 本章小結(jié)
第三章 博文話題發(fā)現(xiàn)
3.1 博文語料的特征
3.1.1 博文的結(jié)構(gòu)特征
3.1.2 博文的內(nèi)容特征
3.2 博文話題識別
3.2.1 話題定義
3.2.2 博文話題詞的加權(quán)與篩選
3.2.3 話題模型
3.2.4 話題模型選擇標(biāo)準(zhǔn)
3.3 本章小結(jié)
第四章 新聞話題與博文話題關(guān)聯(lián)方法
4.1 關(guān)聯(lián)度獲取
4.1.1 歐幾里得距離(Euclidean Distance)
4.1.2 余弦相似度(Cosine Similarity)
4.1.3 Hellinger 距離(Hellinger distance)
4.1.4 Tanimoto 系數(shù)(廣義 Jaccard 系數(shù))
4.1.5 JS 距離(Jensen-shannon Divergence)
4.2 關(guān)聯(lián)結(jié)果優(yōu)化
4.2.1 基于投票的關(guān)聯(lián)結(jié)果判定
4.2.2 投票系統(tǒng)的改進(jìn)——投票權(quán)
4.3 本章小結(jié)
第五章 實驗結(jié)果及分析
5.1 實驗語料
5.1.1 語料獲取
5.1.2 對獲取語料的預(yù)處理
5.2 話題模型構(gòu)建
5.2.1 參數(shù)和模型設(shè)定
5.2.2 關(guān)聯(lián)方法的閾值選取
5.2.3 話題模型的結(jié)果
5.3 關(guān)聯(lián)度比較分析
5.3.1 歐幾里得距離
5.3.2 余弦相似度
5.3.3 Hellinger 距離
5.3.4 Tanimoto 系數(shù)
5.3.5 JS 距離
5.3.6 關(guān)聯(lián)度比較分析小結(jié)
5.4 投票系統(tǒng)
5.5 評測指標(biāo)
5.6 測評結(jié)果分析
5.7 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 進(jìn)一步的工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于主題模型的博客標(biāo)簽語義知識獲取(英文)[J]. 何婷婷,李芳. 中國通信. 2012(03)
[2]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機(jī)學(xué)報. 2008(10)
本文編號:3181495
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
圖錄
表錄
第一章 緒論
1.1 研究背景
1.2 研究目的
1.3 研究內(nèi)容
1.4 論文主要內(nèi)容與章節(jié)安排
第二章 相關(guān)研究工作介紹
2.1 新聞研究概述與博客研究現(xiàn)狀
2.1.1 新聞研究概述
2.1.2 博客研究現(xiàn)狀
2.2 博客常用話題模型
2.2.1 LDA 模型
2.2.2 標(biāo)簽-話題模型(tag-topic model)
2.2.3 Labeled-LDA
2.3 新聞-博文研究
2.3.1 新聞報道-博客文檔關(guān)聯(lián)
2.3.2 熱點(diǎn)新聞發(fā)現(xiàn)
2.4 本章小結(jié)
第三章 博文話題發(fā)現(xiàn)
3.1 博文語料的特征
3.1.1 博文的結(jié)構(gòu)特征
3.1.2 博文的內(nèi)容特征
3.2 博文話題識別
3.2.1 話題定義
3.2.2 博文話題詞的加權(quán)與篩選
3.2.3 話題模型
3.2.4 話題模型選擇標(biāo)準(zhǔn)
3.3 本章小結(jié)
第四章 新聞話題與博文話題關(guān)聯(lián)方法
4.1 關(guān)聯(lián)度獲取
4.1.1 歐幾里得距離(Euclidean Distance)
4.1.2 余弦相似度(Cosine Similarity)
4.1.3 Hellinger 距離(Hellinger distance)
4.1.4 Tanimoto 系數(shù)(廣義 Jaccard 系數(shù))
4.1.5 JS 距離(Jensen-shannon Divergence)
4.2 關(guān)聯(lián)結(jié)果優(yōu)化
4.2.1 基于投票的關(guān)聯(lián)結(jié)果判定
4.2.2 投票系統(tǒng)的改進(jìn)——投票權(quán)
4.3 本章小結(jié)
第五章 實驗結(jié)果及分析
5.1 實驗語料
5.1.1 語料獲取
5.1.2 對獲取語料的預(yù)處理
5.2 話題模型構(gòu)建
5.2.1 參數(shù)和模型設(shè)定
5.2.2 關(guān)聯(lián)方法的閾值選取
5.2.3 話題模型的結(jié)果
5.3 關(guān)聯(lián)度比較分析
5.3.1 歐幾里得距離
5.3.2 余弦相似度
5.3.3 Hellinger 距離
5.3.4 Tanimoto 系數(shù)
5.3.5 JS 距離
5.3.6 關(guān)聯(lián)度比較分析小結(jié)
5.4 投票系統(tǒng)
5.5 評測指標(biāo)
5.6 測評結(jié)果分析
5.7 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 進(jìn)一步的工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于主題模型的博客標(biāo)簽語義知識獲取(英文)[J]. 何婷婷,李芳. 中國通信. 2012(03)
[2]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機(jī)學(xué)報. 2008(10)
本文編號:3181495
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3181495.html
最近更新
教材專著