輿情系統(tǒng)中文章相似性分析和摘要生成的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-07-31 19:44
近年來(lái)我國(guó)互聯(lián)網(wǎng)普及率穩(wěn)步上升,越來(lái)越多的網(wǎng)民參與到網(wǎng)絡(luò)輿情事件的發(fā)生、發(fā)展與傳播過程中,網(wǎng)絡(luò)輿情數(shù)據(jù)以指數(shù)形式增長(zhǎng)。面對(duì)海量的輿情數(shù)據(jù),如何快速找到社會(huì)事件相關(guān)的輿情文本并生成摘要性總結(jié),供人們對(duì)輿情事件發(fā)展作出判斷是一件十分有意義的事情。在此背景下,輿情系統(tǒng)應(yīng)運(yùn)而生。輿情系統(tǒng)是網(wǎng)絡(luò)輿情信息的自動(dòng)采集與分析工具。系統(tǒng)通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中自動(dòng)收集輿情數(shù)據(jù),通過輿情檢索、監(jiān)測(cè)功能幫助用戶快速定位到輿情文本,結(jié)合數(shù)據(jù)統(tǒng)計(jì)與文本自動(dòng)摘要功能為用戶提供分析報(bào)表與文字內(nèi)容總結(jié),幫助用戶全面地了解輿情事件。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)針對(duì)新聞文本的輿情系統(tǒng),在研究文章相似性分析與摘要生成技術(shù)的基礎(chǔ)上,重點(diǎn)實(shí)現(xiàn)了系統(tǒng)中的多文本自動(dòng)摘要功能。本文的具體工作內(nèi)容包括如下幾個(gè)方面:1)對(duì)文本相似性分析以及文本自動(dòng)摘要技術(shù)的研究進(jìn)展進(jìn)行了介紹,分析相關(guān)方法的優(yōu)缺點(diǎn);2)研究并實(shí)現(xiàn)了基于ALN(Association Link Network,關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò))的文章相似性分析方法。針對(duì)ALN語(yǔ)義節(jié)點(diǎn)存在多義詞的情況,按照詞性重新劃分,并通過基于位置的節(jié)點(diǎn)權(quán)重系數(shù),增強(qiáng)語(yǔ)義網(wǎng)絡(luò)對(duì)文本語(yǔ)義信息的表示能力。在使用社區(qū)發(fā)現(xiàn)...
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 研究目標(biāo)與內(nèi)容
1.3 本文結(jié)構(gòu)與組織
第二章 相關(guān)理論與技術(shù)
2.1 文章相似性分析
2.1.1 基于詞袋模型的相似性分析
2.1.2 基于主題模型的相似性分析
2.1.3 基于序列化模型的相似性分析
2.2 文本摘要
2.2.1 文本摘要的概述
2.2.2 文本摘要的研究現(xiàn)狀
2.3 本章小結(jié)
第三章 基于關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)的文章相似性分析
3.1 關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)
3.2 事件語(yǔ)義發(fā)現(xiàn)方法
3.2.1 概述
3.2.2 文本預(yù)處理
3.2.3 構(gòu)建關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)
3.2.4 語(yǔ)義社區(qū)發(fā)現(xiàn)算法
3.3 文章相似性分析方法
3.3.1 文本映射
3.3.2 重建事件語(yǔ)義社區(qū)
3.4 實(shí)驗(yàn)驗(yàn)證
3.4.1 數(shù)據(jù)集
3.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.4.3 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 輿情文本的摘要自動(dòng)生成
4.1 基于Seq2Seq框架的短文本摘要模型
4.1.1 層級(jí)化模型概述
4.1.2 層級(jí)化注意力機(jī)制
4.1.3 OOV問題處理
4.1.4 重復(fù)生成問題處理
4.1.5 實(shí)驗(yàn)驗(yàn)證
4.2 基于網(wǎng)絡(luò)圖結(jié)構(gòu)的多文檔摘要生成方法
4.2.1 LexRank算法
4.2.2 摘要句得分計(jì)算
4.2.3 冗余處理
4.2.4 語(yǔ)句排序
4.2.5 實(shí)驗(yàn)驗(yàn)證
4.3 分段式的多文檔摘要生成方法
4.4 本章小結(jié)
第五章 輿情系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 用例分析
5.2 系統(tǒng)架構(gòu)設(shè)計(jì)
5.3 核心功能模塊設(shè)計(jì)
5.3.1 文本采集模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 輿情檢索模塊
5.3.4 統(tǒng)計(jì)分析模塊
5.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
5.5 系統(tǒng)主要功能實(shí)現(xiàn)
5.5.1 新聞文本采集
5.5.2 數(shù)據(jù)預(yù)處理
5.5.3 輿情檢索與輿情監(jiān)測(cè)
5.5.4 文本自動(dòng)摘要
5.6 系統(tǒng)功能驗(yàn)證
5.7 本章小結(jié)
第六章 總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
本文編號(hào):3837983
【文章頁(yè)數(shù)】:87 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 研究目標(biāo)與內(nèi)容
1.3 本文結(jié)構(gòu)與組織
第二章 相關(guān)理論與技術(shù)
2.1 文章相似性分析
2.1.1 基于詞袋模型的相似性分析
2.1.2 基于主題模型的相似性分析
2.1.3 基于序列化模型的相似性分析
2.2 文本摘要
2.2.1 文本摘要的概述
2.2.2 文本摘要的研究現(xiàn)狀
2.3 本章小結(jié)
第三章 基于關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)的文章相似性分析
3.1 關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)
3.2 事件語(yǔ)義發(fā)現(xiàn)方法
3.2.1 概述
3.2.2 文本預(yù)處理
3.2.3 構(gòu)建關(guān)聯(lián)語(yǔ)義鏈網(wǎng)絡(luò)
3.2.4 語(yǔ)義社區(qū)發(fā)現(xiàn)算法
3.3 文章相似性分析方法
3.3.1 文本映射
3.3.2 重建事件語(yǔ)義社區(qū)
3.4 實(shí)驗(yàn)驗(yàn)證
3.4.1 數(shù)據(jù)集
3.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.4.3 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 輿情文本的摘要自動(dòng)生成
4.1 基于Seq2Seq框架的短文本摘要模型
4.1.1 層級(jí)化模型概述
4.1.2 層級(jí)化注意力機(jī)制
4.1.3 OOV問題處理
4.1.4 重復(fù)生成問題處理
4.1.5 實(shí)驗(yàn)驗(yàn)證
4.2 基于網(wǎng)絡(luò)圖結(jié)構(gòu)的多文檔摘要生成方法
4.2.1 LexRank算法
4.2.2 摘要句得分計(jì)算
4.2.3 冗余處理
4.2.4 語(yǔ)句排序
4.2.5 實(shí)驗(yàn)驗(yàn)證
4.3 分段式的多文檔摘要生成方法
4.4 本章小結(jié)
第五章 輿情系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 用例分析
5.2 系統(tǒng)架構(gòu)設(shè)計(jì)
5.3 核心功能模塊設(shè)計(jì)
5.3.1 文本采集模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 輿情檢索模塊
5.3.4 統(tǒng)計(jì)分析模塊
5.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)
5.5 系統(tǒng)主要功能實(shí)現(xiàn)
5.5.1 新聞文本采集
5.5.2 數(shù)據(jù)預(yù)處理
5.5.3 輿情檢索與輿情監(jiān)測(cè)
5.5.4 文本自動(dòng)摘要
5.6 系統(tǒng)功能驗(yàn)證
5.7 本章小結(jié)
第六章 總結(jié)與展望
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
本文編號(hào):3837983
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3837983.html
最近更新
教材專著