基于主題模型的科技新聞分析系統(tǒng)的設(shè)計與實現(xiàn)
發(fā)布時間:2023-01-14 15:14
二十一世紀(jì)以來,人類社會的科技水平飛速發(fā)展,在此背景下產(chǎn)生了大量的科技文獻與科技新聞內(nèi)容。這些資源一方面帶來了豐富數(shù)據(jù)和信息,另一方面也帶來了信息超載的難題。面對互聯(lián)網(wǎng)上龐大的知識網(wǎng)絡(luò),科研人員很難高效地從科技新聞網(wǎng)站上獲取有價值的科技熱點信息。近年來,數(shù)據(jù)挖掘逐漸成為熱門學(xué)科,很多自然語言處理技術(shù)被應(yīng)用于新聞分析領(lǐng)域并取得了很好的效果。因此本文針對科技新聞信息過載的問題,對主題聚類和關(guān)鍵詞提取等技術(shù)展開研究,實現(xiàn)了一個完整的科技新聞分析系統(tǒng),幫助用戶高效獲取新聞信息。本文主要的工作內(nèi)容如下:(1)本文提出了改進的BTM模型,通過在吉布斯采樣過程中引入詞與文檔的關(guān)聯(lián)程度,解決了傳統(tǒng)BTM模型中詞語權(quán)重相同的問題,實驗結(jié)果表明,和同類模型相比,該算法在主題一致性和JS散度上都有所提升。(2)由于傳統(tǒng)的關(guān)鍵詞提取算法沒有考慮關(guān)鍵詞和文章主題之間的聯(lián)系,因此本文將主題模型與詞向量模型相結(jié)合,綜合考慮詞語的主題特征和統(tǒng)計特征來進行關(guān)鍵詞提取。因為在詞語和文章中間加入了主題層,所以該方法提取的關(guān)鍵詞和文章有較好的語義相關(guān)性。(3)設(shè)計并實現(xiàn)了完整的科技新聞分析系統(tǒng)。該系統(tǒng)可以根據(jù)主題對科技新聞進...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 主題模型研究現(xiàn)狀
1.2.2 關(guān)鍵詞提取研究現(xiàn)狀
1.3 主要工作內(nèi)容
1.4 論文結(jié)構(gòu)
第二章 關(guān)鍵技術(shù)綜述
2.1 主題模型
2.1.1 關(guān)鍵主題模型概述
2.1.2 LDA主題模型
2.1.3 BTM主題模型
2.2 關(guān)鍵詞提取
2.2.1 關(guān)鍵詞提取概述
2.2.2 TF-IDF
2.2.3 TextRank
2.3 詞向量
2.3.1 Word2Vec綜述
2.3.2 CBOW模型
2.3.3 Skip-gram模型
2.4 本章小結(jié)
第三章 基于語義擴展的BTM主題模型研究
3.1 BTM主題模型的研究與優(yōu)化
3.1.1 BTM模型的不足
3.1.2 W-BTM模型原理
3.1.3 利用W-BTM模型提取關(guān)鍵詞
3.2 實驗設(shè)計與結(jié)果分析
3.2.1 實驗數(shù)據(jù)
3.2.2 評價標(biāo)準(zhǔn)
3.2.3 實驗結(jié)果及分析
3.3 本章小結(jié)
第四章 系統(tǒng)需求分析與總體設(shè)計
4.1 系統(tǒng)需求分析
4.1.1 系統(tǒng)功能需求分析
4.1.2 系統(tǒng)性能需求分析
4.2 系統(tǒng)整體架構(gòu)設(shè)計
4.3 系統(tǒng)模塊設(shè)計
4.3.1 模塊劃分與流程設(shè)計
4.3.2 模塊功能設(shè)計
4.4 系統(tǒng)數(shù)據(jù)庫設(shè)計
4.4.1 E-R圖設(shè)計
4.4.2 數(shù)據(jù)表設(shè)計
4.5 本章小結(jié)
第五章 系統(tǒng)詳細設(shè)計與實現(xiàn)
5.1 系統(tǒng)架構(gòu)的實現(xiàn)
5.1.1 系統(tǒng)開發(fā)環(huán)境
5.1.2 項目創(chuàng)建流程
5.1.3 項目結(jié)構(gòu)
5.2 數(shù)據(jù)采集模塊設(shè)計與實現(xiàn)
5.2.1 數(shù)據(jù)采集模塊設(shè)計
5.2.2 數(shù)據(jù)爬蟲的實現(xiàn)
5.2.3 數(shù)據(jù)預(yù)處理的實現(xiàn)
5.3 數(shù)據(jù)搜索模塊設(shè)計與實現(xiàn)
5.3.1 數(shù)據(jù)搜索模塊設(shè)計
5.3.2 數(shù)據(jù)搜索模塊實現(xiàn)
5.4 主題分析模塊設(shè)計與實現(xiàn)
5.4.1 主題聚類的設(shè)計
5.4.2 主題聚類的實現(xiàn)
5.4.3 關(guān)鍵詞提取的設(shè)計
5.4.4 關(guān)鍵詞提取的實現(xiàn)
5.5 可視化模塊設(shè)計與實現(xiàn)
5.5.1 可視化模塊設(shè)計
5.5.2 可視化模塊實現(xiàn)
5.6 本章小結(jié)
第六章 系統(tǒng)測試
6.1 測試環(huán)境
6.2 系統(tǒng)功能測試
6.2.1 數(shù)據(jù)采集與預(yù)處理測試
6.2.2 數(shù)據(jù)搜索測試
6.2.3 主題分析與可視化測試
6.3 系統(tǒng)性能測試
6.3.1 系統(tǒng)響應(yīng)時間測試
6.3.2 系統(tǒng)易用性測試
6.3.3 算法可靠性測試
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布[J]. 中國廣播. 2018(03)
[2]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學(xué)報. 2011(08)
碩士論文
[1]基于主題模型和詞向量的短文本語義挖掘研究[D]. 李思宇.太原理工大學(xué) 2018
[2]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學(xué) 2017
[3]一種用于文本理解的高效關(guān)鍵詞抽取算法[D]. 韓軍華.南京大學(xué) 2016
本文編號:3730677
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 主題模型研究現(xiàn)狀
1.2.2 關(guān)鍵詞提取研究現(xiàn)狀
1.3 主要工作內(nèi)容
1.4 論文結(jié)構(gòu)
第二章 關(guān)鍵技術(shù)綜述
2.1 主題模型
2.1.1 關(guān)鍵主題模型概述
2.1.2 LDA主題模型
2.1.3 BTM主題模型
2.2 關(guān)鍵詞提取
2.2.1 關(guān)鍵詞提取概述
2.2.2 TF-IDF
2.2.3 TextRank
2.3 詞向量
2.3.1 Word2Vec綜述
2.3.2 CBOW模型
2.3.3 Skip-gram模型
2.4 本章小結(jié)
第三章 基于語義擴展的BTM主題模型研究
3.1 BTM主題模型的研究與優(yōu)化
3.1.1 BTM模型的不足
3.1.2 W-BTM模型原理
3.1.3 利用W-BTM模型提取關(guān)鍵詞
3.2 實驗設(shè)計與結(jié)果分析
3.2.1 實驗數(shù)據(jù)
3.2.2 評價標(biāo)準(zhǔn)
3.2.3 實驗結(jié)果及分析
3.3 本章小結(jié)
第四章 系統(tǒng)需求分析與總體設(shè)計
4.1 系統(tǒng)需求分析
4.1.1 系統(tǒng)功能需求分析
4.1.2 系統(tǒng)性能需求分析
4.2 系統(tǒng)整體架構(gòu)設(shè)計
4.3 系統(tǒng)模塊設(shè)計
4.3.1 模塊劃分與流程設(shè)計
4.3.2 模塊功能設(shè)計
4.4 系統(tǒng)數(shù)據(jù)庫設(shè)計
4.4.1 E-R圖設(shè)計
4.4.2 數(shù)據(jù)表設(shè)計
4.5 本章小結(jié)
第五章 系統(tǒng)詳細設(shè)計與實現(xiàn)
5.1 系統(tǒng)架構(gòu)的實現(xiàn)
5.1.1 系統(tǒng)開發(fā)環(huán)境
5.1.2 項目創(chuàng)建流程
5.1.3 項目結(jié)構(gòu)
5.2 數(shù)據(jù)采集模塊設(shè)計與實現(xiàn)
5.2.1 數(shù)據(jù)采集模塊設(shè)計
5.2.2 數(shù)據(jù)爬蟲的實現(xiàn)
5.2.3 數(shù)據(jù)預(yù)處理的實現(xiàn)
5.3 數(shù)據(jù)搜索模塊設(shè)計與實現(xiàn)
5.3.1 數(shù)據(jù)搜索模塊設(shè)計
5.3.2 數(shù)據(jù)搜索模塊實現(xiàn)
5.4 主題分析模塊設(shè)計與實現(xiàn)
5.4.1 主題聚類的設(shè)計
5.4.2 主題聚類的實現(xiàn)
5.4.3 關(guān)鍵詞提取的設(shè)計
5.4.4 關(guān)鍵詞提取的實現(xiàn)
5.5 可視化模塊設(shè)計與實現(xiàn)
5.5.1 可視化模塊設(shè)計
5.5.2 可視化模塊實現(xiàn)
5.6 本章小結(jié)
第六章 系統(tǒng)測試
6.1 測試環(huán)境
6.2 系統(tǒng)功能測試
6.2.1 數(shù)據(jù)采集與預(yù)處理測試
6.2.2 數(shù)據(jù)搜索測試
6.2.3 主題分析與可視化測試
6.3 系統(tǒng)性能測試
6.3.1 系統(tǒng)響應(yīng)時間測試
6.3.2 系統(tǒng)易用性測試
6.3.3 算法可靠性測試
6.4 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]第41次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》發(fā)布[J]. 中國廣播. 2018(03)
[2]自然語言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計算機學(xué)報. 2011(08)
碩士論文
[1]基于主題模型和詞向量的短文本語義挖掘研究[D]. 李思宇.太原理工大學(xué) 2018
[2]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學(xué) 2017
[3]一種用于文本理解的高效關(guān)鍵詞抽取算法[D]. 韓軍華.南京大學(xué) 2016
本文編號:3730677
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3730677.html
最近更新
教材專著