面向虛假新聞識別的主動學習算法研究與應用
發(fā)布時間:2023-06-08 22:40
信息化時代方便了人們通過各種渠道獲取新聞,同時也使虛假新聞以前所未有的速度快速傳播著。虛假新聞的發(fā)布者一般持有特定的目的,如影響輿論或欺騙大眾。人為識別虛假新聞需要依據(jù)大量的事實,代價十分昂貴,機器學習方法的引入為虛假新聞的識別提供了有效途徑。傳統(tǒng)的監(jiān)督學習方式往往需要足夠數(shù)量合格的正反實例,而對于虛假新聞來說,建立大型的虛假新聞數(shù)據(jù)集是相當困難的,并且由于虛假新聞表現(xiàn)形式的多樣性,即使搜集大量的證據(jù),也未必能區(qū)分一條新聞的真假。因此研究能夠通過少量訓練集識別虛假新聞的機制是必要的。此外,很多研究者對于能否通過文本特征識別虛假新聞存疑。針對上述問題,本文從主動學習和虛假新聞文本特征提取這兩個方面展開了研究,本文主要貢獻如下:(1)針對虛假新聞危害的嚴重性,本文研究了基于內容的虛假新聞識別。在新聞發(fā)布之前,社交媒體平臺根據(jù)新聞文本特征判斷新聞的真實性,有利于在源頭上制止部分虛假新聞的傳播。文中說明了基于內容識別的相關原因,并詳細分析了真假新聞之間的文本特征區(qū)別。(2)針對初始集質量對分類器的重要性,以及在當前新聞表示下,新聞實例分布的復雜性,提出基于中心點選擇的初始集算法,設計不同的類中...
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文主要研究內容
1.4 本文組織結構
2 相關工作
2.1 基于內容的虛假新聞識別
2.1.1 相關研究
2.1.2 真假新聞文本特征區(qū)別
2.1.3 文本特征提取
2.2 主動學習
2.2.1 相關研究
2.2.2 主動學習框架
2.2.3 初始集選擇和不確定性采樣
2.3 本章總結
3 基于中心點選擇的初始集算法
3.1 初始集算法描述
3.2 類中心點的確定
3.2.1 類中心點策略描述
3.2.2 k中心點策略
3.3 初始集選取策略
3.3.1 基于聚類的初始集選擇機制
3.3.2 基于k中心點的初始集選擇機制
3.4 基于初始集選擇的主動學習算法
3.5 本章總結
4 基于異常點處理的主動學習算法
4.1 識別算法描述
4.2 學習引擎算法的選擇
4.3 選擇引擎異常點處理關鍵策略
4.3.1 均值處理
4.3.2 相似性處理
4.4 本章總結
5 實驗設計與結果分析
5.1 數(shù)據(jù)集描述
5.2 實驗評價指標
5.3 Basic AL與其他經(jīng)典分類方法對比
5.3.1 實驗設計
5.3.2 實驗結果及分析
5.3.3 其他因素影響
5.4 初始集算法對比
5.4.1 實驗設計
5.4.2 實驗結果及分析
5.4.3 其他因素影響
5.5 異常點算法對比
5.5.1 實驗設計
5.5.2 Mean AL實驗結果及分析
5.5.3 SimAL實驗結果及分析
5.5.4 加入初始集算法的異常點處理實驗結果及分析
5.6 本章總結
6 總結與展望
6.1 結論
6.2 未來期望
參考文獻
作者簡歷及攻讀碩士學位期間取得的研究成果
學位論文數(shù)據(jù)集
本文編號:3832636
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文主要研究內容
1.4 本文組織結構
2 相關工作
2.1 基于內容的虛假新聞識別
2.1.1 相關研究
2.1.2 真假新聞文本特征區(qū)別
2.1.3 文本特征提取
2.2 主動學習
2.2.1 相關研究
2.2.2 主動學習框架
2.2.3 初始集選擇和不確定性采樣
2.3 本章總結
3 基于中心點選擇的初始集算法
3.1 初始集算法描述
3.2 類中心點的確定
3.2.1 類中心點策略描述
3.2.2 k中心點策略
3.3 初始集選取策略
3.3.1 基于聚類的初始集選擇機制
3.3.2 基于k中心點的初始集選擇機制
3.4 基于初始集選擇的主動學習算法
3.5 本章總結
4 基于異常點處理的主動學習算法
4.1 識別算法描述
4.2 學習引擎算法的選擇
4.3 選擇引擎異常點處理關鍵策略
4.3.1 均值處理
4.3.2 相似性處理
4.4 本章總結
5 實驗設計與結果分析
5.1 數(shù)據(jù)集描述
5.2 實驗評價指標
5.3 Basic AL與其他經(jīng)典分類方法對比
5.3.1 實驗設計
5.3.2 實驗結果及分析
5.3.3 其他因素影響
5.4 初始集算法對比
5.4.1 實驗設計
5.4.2 實驗結果及分析
5.4.3 其他因素影響
5.5 異常點算法對比
5.5.1 實驗設計
5.5.2 Mean AL實驗結果及分析
5.5.3 SimAL實驗結果及分析
5.5.4 加入初始集算法的異常點處理實驗結果及分析
5.6 本章總結
6 總結與展望
6.1 結論
6.2 未來期望
參考文獻
作者簡歷及攻讀碩士學位期間取得的研究成果
學位論文數(shù)據(jù)集
本文編號:3832636
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3832636.html