基于深度學(xué)習的突發(fā)事件新聞文本分類研究
發(fā)布時間:2024-01-21 08:20
中國互聯(lián)網(wǎng)信息中心在第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》中提到截止2019年6月,中國網(wǎng)民人數(shù)超過8.5億,其中網(wǎng)絡(luò)新聞用戶占總網(wǎng)民數(shù)的80.3%[1]。互聯(lián)網(wǎng)絡(luò)因其無地域限制、傳播速度快等特點,一旦發(fā)生突發(fā)事件,其便能通過網(wǎng)絡(luò)在全國范圍內(nèi)傳播開。如果突發(fā)事件帶有負面情緒,被某些惡勢力所操縱,有可能造成社會恐慌。因此,網(wǎng)絡(luò)重大突發(fā)事件管理工作十分重要,時刻掌握網(wǎng)絡(luò)突發(fā)事件最新消息更是重中之重。網(wǎng)絡(luò)輿情監(jiān)控涵蓋多個方面,比如輿情識別、輿情分類、輿情預(yù)測等方面,從系統(tǒng)的角度監(jiān)管網(wǎng)絡(luò)輿情均具有重要的科研價值和社會價值。輿情分類主要涉及特征表達和文本分類技術(shù),特征表達技術(shù)中機器學(xué)習算法(如卡方檢驗、信息交互等)仍然是研究主流,但均忽略了詞序信息和文本結(jié)構(gòu)信息。文本分類技術(shù)又主要分為兩種:基于傳統(tǒng)機器學(xué)習的方法和基于深度學(xué)習的方法。傳統(tǒng)機器學(xué)習依賴較大的樣本容量,樣本容量較小時難以達到既定模型精度,樣本容量過大則容易造成資源浪費。為提取文本中詞序信息,學(xué)者提出詞嵌入方法,從而使文本特征信息提取技術(shù)更完善;趥鹘y(tǒng)機器學(xué)習方法的分類模型因其自身特點,容易達到模型瓶頸,難以...
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀及研究評述
1.2.1 文本特征提取研究
1.2.2 新聞文本分類算法研究
1.2.3 研究評述
1.3 研究內(nèi)容與技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
第2章 相關(guān)理論與技術(shù)介紹
2.1 特征選擇
2.1.1 卡方檢驗
2.1.2 TF-IDF
2.1.3 信息增益(IG)
2.2 常用的機器學(xué)習方法
2.2.1 支持向量機
2.2.2 隨機森林
2.2.3 樸素貝葉斯算法
2.3 深度學(xué)習在文本分類中的應(yīng)用
2.3.1 Word2vec模型
2.3.2 MLP感知機
2.3.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.4 長短時記憶網(wǎng)絡(luò)
2.3.5 注意力機制
2.4 本章小結(jié)
第3章 基于樸素貝葉斯的突發(fā)事件新聞文本一級分類模型
3.1 基于詞頻的關(guān)鍵詞聚類分析
3.2 突發(fā)事件新聞文本一級分類流程
3.3 突發(fā)事件新聞文本一級分類模型特征表示
3.3.1 突發(fā)事件新聞文本特征篩選
3.3.2 突發(fā)事件新聞文本特征表達
3.4 基于樸素貝葉斯的一級分類模型
3.5 本章小結(jié)
第4章 基于深度學(xué)習的突發(fā)事件新聞文本二級分類模型
4.1 突發(fā)事件新聞文本二級分類流程
4.2 突發(fā)事件新聞文本二級分類模型特征表示
4.2.1 離散度向量特征表示
4.2.2 詞向量特征表示
4.3 基于Attention的 DCLSTM-MLP組合模型
4.3.1 MLP模塊
4.3.2 MCNN模塊
4.3.3 LSTM模塊
4.3.4 Attention機制
4.4 本章小結(jié)
第5章 實驗與分析
5.1 實驗設(shè)計
5.1.1 實驗環(huán)境
5.1.2 實驗數(shù)據(jù)集
5.1.3 評價指標
5.2 突發(fā)事件新聞文本一級模型分析
5.3 突發(fā)事件新聞文本二級輸入向量分析——以事故災(zāi)難新聞文本為例
5.3.1 離散度向量分析
5.3.2 文本長度分析
5.3.3 詞向量維度分析
5.4 突發(fā)事件新聞文本二級模型分析——以事故災(zāi)難新聞文本為例
5.4.1 MLP模型參數(shù)調(diào)整
5.4.2 Text-CNN模型參數(shù)調(diào)整
5.4.3 Text-RNN模型調(diào)參
5.4.4 分類模型對比實驗
5.5 結(jié)果分析
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來展望
致謝
參考文獻
攻讀碩士期間獲得與學(xué)位論文相關(guān)的科研成果
攻讀碩士學(xué)位期間參與的科研項目
本文編號:3881580
【文章頁數(shù)】:75 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
Abstract
第1章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀及研究評述
1.2.1 文本特征提取研究
1.2.2 新聞文本分類算法研究
1.2.3 研究評述
1.3 研究內(nèi)容與技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
第2章 相關(guān)理論與技術(shù)介紹
2.1 特征選擇
2.1.1 卡方檢驗
2.1.2 TF-IDF
2.1.3 信息增益(IG)
2.2 常用的機器學(xué)習方法
2.2.1 支持向量機
2.2.2 隨機森林
2.2.3 樸素貝葉斯算法
2.3 深度學(xué)習在文本分類中的應(yīng)用
2.3.1 Word2vec模型
2.3.2 MLP感知機
2.3.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.4 長短時記憶網(wǎng)絡(luò)
2.3.5 注意力機制
2.4 本章小結(jié)
第3章 基于樸素貝葉斯的突發(fā)事件新聞文本一級分類模型
3.1 基于詞頻的關(guān)鍵詞聚類分析
3.2 突發(fā)事件新聞文本一級分類流程
3.3 突發(fā)事件新聞文本一級分類模型特征表示
3.3.1 突發(fā)事件新聞文本特征篩選
3.3.2 突發(fā)事件新聞文本特征表達
3.4 基于樸素貝葉斯的一級分類模型
3.5 本章小結(jié)
第4章 基于深度學(xué)習的突發(fā)事件新聞文本二級分類模型
4.1 突發(fā)事件新聞文本二級分類流程
4.2 突發(fā)事件新聞文本二級分類模型特征表示
4.2.1 離散度向量特征表示
4.2.2 詞向量特征表示
4.3 基于Attention的 DCLSTM-MLP組合模型
4.3.1 MLP模塊
4.3.2 MCNN模塊
4.3.3 LSTM模塊
4.3.4 Attention機制
4.4 本章小結(jié)
第5章 實驗與分析
5.1 實驗設(shè)計
5.1.1 實驗環(huán)境
5.1.2 實驗數(shù)據(jù)集
5.1.3 評價指標
5.2 突發(fā)事件新聞文本一級模型分析
5.3 突發(fā)事件新聞文本二級輸入向量分析——以事故災(zāi)難新聞文本為例
5.3.1 離散度向量分析
5.3.2 文本長度分析
5.3.3 詞向量維度分析
5.4 突發(fā)事件新聞文本二級模型分析——以事故災(zāi)難新聞文本為例
5.4.1 MLP模型參數(shù)調(diào)整
5.4.2 Text-CNN模型參數(shù)調(diào)整
5.4.3 Text-RNN模型調(diào)參
5.4.4 分類模型對比實驗
5.5 結(jié)果分析
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來展望
致謝
參考文獻
攻讀碩士期間獲得與學(xué)位論文相關(guān)的科研成果
攻讀碩士學(xué)位期間參與的科研項目
本文編號:3881580
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3881580.html
最近更新
教材專著