基于段落相關的LDA主題模型及其在虛假新聞檢測中的應用
發(fā)布時間:2025-04-26 23:03
互聯網大數據時代,信息量以越來越快的速度在增長著,并依舊以幾何級別的速度不斷增長。其中,包括書籍、新聞、報告等在內的非結構化文本數據,也在不斷擴張。面對海量的文本數據,如何從中提取有效的關鍵信息尤為重要。虛假新聞的混淆視聽,使得人們在獲取有效信息的難度陡增,如何快速準確的對虛假新聞進行檢測識別具有重要的意義。本文希望通過對處理海量數據具有極大優(yōu)勢的LDA主題模型進行擴展研究,將此模型運用到虛假新聞檢測任務當中,拓展主題模型以及文本挖掘的研究基礎,將此應用到虛假新聞檢測任務中,減少虛假新聞的危害。本文首先梳理了主題模型以及虛假新聞檢測相關的文獻,研究分析了虛假新聞檢測識別的文獻內容,分析主題模型當前的方法體系,總結歸納當前的研究進展,總結了主題模型在虛假新聞檢測上面的可行性。接下來,基于此研究的基礎,提出基于段落相關信息的LDA主題模型(Latent Dirichlet Allocation),命名為para-LDA主題模型,該模型方法通過在原始LDA主題模型的基礎上添加段落層次,將段落信息納入LDA主題模型當中。模型繼承了原LDA主題模型對于大文本處理以及挖掘隱含語義的優(yōu)勢,同時加入了段...
【文章頁數】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 引言
1.1 研究背景
1.2 研究目的與意義
1.2.1 研究目的
1.2.2 研究意義
1.3 研究內容框架
1.4 研究方法
1.5 可能創(chuàng)新點
第二章 文獻綜述
2.1 主題模型的研究現狀
2.1.1 主題模型的源起
2.1.2 主題模型的擴展應用
2.1.3 主題模型中關于段落的信息
2.2 虛假新聞檢測的研究現狀
2.3 虛假新聞檢測與主題模型
2.4 小結
第三章 基于段落相關的LDA主題模型
3.1 主題模型
3.1.1 一元模型
3.1.2 pLSA模型
3.1.3 LDA主題模型
3.2 基于段落相關的LDA主題模型
3.3 基于吉布斯抽樣的參數估計
3.4 利用LDA主題模型提取新聞的主題及其特征分布
3.5 小結
第四章 模型在虛假新聞檢測中的應用
4.1 數據來源與數據預處理
4.1.1 數據介紹
4.1.2 數據預處理
4.2 數據總體描述
4.2.1 詞頻描述
4.2.2 主題提取
4.3 實驗對比評價
4.3.1 模型困惑度
4.3.2 預測準確性
4.4 小結
第五章 總結與展望
5.1 總結
5.2 不足與展望
參考文獻
致謝
本文編號:4041502
【文章頁數】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 引言
1.1 研究背景
1.2 研究目的與意義
1.2.1 研究目的
1.2.2 研究意義
1.3 研究內容框架
1.4 研究方法
1.5 可能創(chuàng)新點
第二章 文獻綜述
2.1 主題模型的研究現狀
2.1.1 主題模型的源起
2.1.2 主題模型的擴展應用
2.1.3 主題模型中關于段落的信息
2.2 虛假新聞檢測的研究現狀
2.3 虛假新聞檢測與主題模型
2.4 小結
第三章 基于段落相關的LDA主題模型
3.1 主題模型
3.1.1 一元模型
3.1.2 pLSA模型
3.1.3 LDA主題模型
3.2 基于段落相關的LDA主題模型
3.3 基于吉布斯抽樣的參數估計
3.4 利用LDA主題模型提取新聞的主題及其特征分布
3.5 小結
第四章 模型在虛假新聞檢測中的應用
4.1 數據來源與數據預處理
4.1.1 數據介紹
4.1.2 數據預處理
4.2 數據總體描述
4.2.1 詞頻描述
4.2.2 主題提取
4.3 實驗對比評價
4.3.1 模型困惑度
4.3.2 預測準確性
4.4 小結
第五章 總結與展望
5.1 總結
5.2 不足與展望
參考文獻
致謝
本文編號:4041502
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/4041502.html
教材專著