博客話題與新聞話題關(guān)聯(lián)方法研究
發(fā)布時(shí)間:2021-05-11 13:35
隨著新媒體的不斷誕生,傳統(tǒng)媒體如何利用新媒體來(lái)發(fā)展自身開(kāi)始受到人們的關(guān)注。作為Web2.0以后代表性的新媒體平臺(tái),博客的價(jià)值越來(lái)越受到傳統(tǒng)新聞媒體的重視。新聞媒體根據(jù)博客中討論的話題熱點(diǎn)來(lái)確定對(duì)人們對(duì)相關(guān)新聞的關(guān)注角度和趨勢(shì),通過(guò)找到與新聞話題相關(guān)聯(lián)的博文話題,我們能夠?yàn)榭陀^的新聞報(bào)道提供主觀性的評(píng)論與參考。本文借助話題模型方法,結(jié)合博文的結(jié)構(gòu)特征和內(nèi)容特征,對(duì)博文話題與新聞話題之間的關(guān)聯(lián)檢測(cè)方法進(jìn)行了研究。首先,利用VEM模型來(lái)構(gòu)建新聞話題模型和博文話題模型,根據(jù)博文的結(jié)構(gòu)特征對(duì)博文語(yǔ)料進(jìn)行了改進(jìn),獲得了博文和新聞?wù)Z料的話題語(yǔ)義信息。然后,利用歐幾里得距離、余弦相似度、Hellinger距離、Tanimoto系數(shù)和JS距離五種常見(jiàn)的相似度算法作為關(guān)聯(lián)判定方法,對(duì)獲得的話題模型進(jìn)行了關(guān)聯(lián)檢測(cè)。之后,提出了一種基于投票的關(guān)聯(lián)判定方法,利用以上五種關(guān)聯(lián)判定方法找到每個(gè)新聞話題的最佳關(guān)聯(lián)博文。最后,對(duì)所獲得的實(shí)驗(yàn)結(jié)果進(jìn)行了分析評(píng)價(jià),并對(duì)每種關(guān)聯(lián)方法,以及投票方法的結(jié)果進(jìn)行了評(píng)價(jià)和分析。實(shí)驗(yàn)獲得了多種常見(jiàn)的關(guān)聯(lián)方法在新聞-博文話題關(guān)聯(lián)中的表現(xiàn),顯示出了余弦相似度和Tanimoto系數(shù)在此項(xiàng)工作...
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
圖錄
表錄
第一章 緒論
1.1 研究背景
1.2 研究目的
1.3 研究?jī)?nèi)容
1.4 論文主要內(nèi)容與章節(jié)安排
第二章 相關(guān)研究工作介紹
2.1 新聞研究概述與博客研究現(xiàn)狀
2.1.1 新聞研究概述
2.1.2 博客研究現(xiàn)狀
2.2 博客常用話題模型
2.2.1 LDA 模型
2.2.2 標(biāo)簽-話題模型(tag-topic model)
2.2.3 Labeled-LDA
2.3 新聞-博文研究
2.3.1 新聞報(bào)道-博客文檔關(guān)聯(lián)
2.3.2 熱點(diǎn)新聞發(fā)現(xiàn)
2.4 本章小結(jié)
第三章 博文話題發(fā)現(xiàn)
3.1 博文語(yǔ)料的特征
3.1.1 博文的結(jié)構(gòu)特征
3.1.2 博文的內(nèi)容特征
3.2 博文話題識(shí)別
3.2.1 話題定義
3.2.2 博文話題詞的加權(quán)與篩選
3.2.3 話題模型
3.2.4 話題模型選擇標(biāo)準(zhǔn)
3.3 本章小結(jié)
第四章 新聞話題與博文話題關(guān)聯(lián)方法
4.1 關(guān)聯(lián)度獲取
4.1.1 歐幾里得距離(Euclidean Distance)
4.1.2 余弦相似度(Cosine Similarity)
4.1.3 Hellinger 距離(Hellinger distance)
4.1.4 Tanimoto 系數(shù)(廣義 Jaccard 系數(shù))
4.1.5 JS 距離(Jensen-shannon Divergence)
4.2 關(guān)聯(lián)結(jié)果優(yōu)化
4.2.1 基于投票的關(guān)聯(lián)結(jié)果判定
4.2.2 投票系統(tǒng)的改進(jìn)——投票權(quán)
4.3 本章小結(jié)
第五章 實(shí)驗(yàn)結(jié)果及分析
5.1 實(shí)驗(yàn)語(yǔ)料
5.1.1 語(yǔ)料獲取
5.1.2 對(duì)獲取語(yǔ)料的預(yù)處理
5.2 話題模型構(gòu)建
5.2.1 參數(shù)和模型設(shè)定
5.2.2 關(guān)聯(lián)方法的閾值選取
5.2.3 話題模型的結(jié)果
5.3 關(guān)聯(lián)度比較分析
5.3.1 歐幾里得距離
5.3.2 余弦相似度
5.3.3 Hellinger 距離
5.3.4 Tanimoto 系數(shù)
5.3.5 JS 距離
5.3.6 關(guān)聯(lián)度比較分析小結(jié)
5.4 投票系統(tǒng)
5.5 評(píng)測(cè)指標(biāo)
5.6 測(cè)評(píng)結(jié)果分析
5.7 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 進(jìn)一步的工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于主題模型的博客標(biāo)簽語(yǔ)義知識(shí)獲取(英文)[J]. 何婷婷,李芳. 中國(guó)通信. 2012(03)
[2]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計(jì)算機(jī)學(xué)報(bào). 2008(10)
本文編號(hào):3181495
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
圖錄
表錄
第一章 緒論
1.1 研究背景
1.2 研究目的
1.3 研究?jī)?nèi)容
1.4 論文主要內(nèi)容與章節(jié)安排
第二章 相關(guān)研究工作介紹
2.1 新聞研究概述與博客研究現(xiàn)狀
2.1.1 新聞研究概述
2.1.2 博客研究現(xiàn)狀
2.2 博客常用話題模型
2.2.1 LDA 模型
2.2.2 標(biāo)簽-話題模型(tag-topic model)
2.2.3 Labeled-LDA
2.3 新聞-博文研究
2.3.1 新聞報(bào)道-博客文檔關(guān)聯(lián)
2.3.2 熱點(diǎn)新聞發(fā)現(xiàn)
2.4 本章小結(jié)
第三章 博文話題發(fā)現(xiàn)
3.1 博文語(yǔ)料的特征
3.1.1 博文的結(jié)構(gòu)特征
3.1.2 博文的內(nèi)容特征
3.2 博文話題識(shí)別
3.2.1 話題定義
3.2.2 博文話題詞的加權(quán)與篩選
3.2.3 話題模型
3.2.4 話題模型選擇標(biāo)準(zhǔn)
3.3 本章小結(jié)
第四章 新聞話題與博文話題關(guān)聯(lián)方法
4.1 關(guān)聯(lián)度獲取
4.1.1 歐幾里得距離(Euclidean Distance)
4.1.2 余弦相似度(Cosine Similarity)
4.1.3 Hellinger 距離(Hellinger distance)
4.1.4 Tanimoto 系數(shù)(廣義 Jaccard 系數(shù))
4.1.5 JS 距離(Jensen-shannon Divergence)
4.2 關(guān)聯(lián)結(jié)果優(yōu)化
4.2.1 基于投票的關(guān)聯(lián)結(jié)果判定
4.2.2 投票系統(tǒng)的改進(jìn)——投票權(quán)
4.3 本章小結(jié)
第五章 實(shí)驗(yàn)結(jié)果及分析
5.1 實(shí)驗(yàn)語(yǔ)料
5.1.1 語(yǔ)料獲取
5.1.2 對(duì)獲取語(yǔ)料的預(yù)處理
5.2 話題模型構(gòu)建
5.2.1 參數(shù)和模型設(shè)定
5.2.2 關(guān)聯(lián)方法的閾值選取
5.2.3 話題模型的結(jié)果
5.3 關(guān)聯(lián)度比較分析
5.3.1 歐幾里得距離
5.3.2 余弦相似度
5.3.3 Hellinger 距離
5.3.4 Tanimoto 系數(shù)
5.3.5 JS 距離
5.3.6 關(guān)聯(lián)度比較分析小結(jié)
5.4 投票系統(tǒng)
5.5 評(píng)測(cè)指標(biāo)
5.6 測(cè)評(píng)結(jié)果分析
5.7 本章小結(jié)
第六章 總結(jié)與展望
6.1 全文總結(jié)
6.2 進(jìn)一步的工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
【參考文獻(xiàn)】:
期刊論文
[1]基于主題模型的博客標(biāo)簽語(yǔ)義知識(shí)獲取(英文)[J]. 何婷婷,李芳. 中國(guó)通信. 2012(03)
[2]一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計(jì)算機(jī)學(xué)報(bào). 2008(10)
本文編號(hào):3181495
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3181495.html
最近更新
教材專著