基于文檔多維度特征融合的抽取式摘要研究
發(fā)布時(shí)間:2022-11-10 18:35
隨著5G時(shí)代的到來(lái),網(wǎng)絡(luò)上新聞、評(píng)論、文獻(xiàn)等文本數(shù)據(jù)呈爆炸式增長(zhǎng),用戶不得不花費(fèi)大量的時(shí)間從文本中尋找自己所需要的信息,因此急需對(duì)這些海量文本進(jìn)行有效的摘要提取。而利用計(jì)算機(jī)來(lái)進(jìn)行文本自動(dòng)摘要?jiǎng)t是解決此問(wèn)題的有效手段之一。摘要的本質(zhì)是對(duì)文檔語(yǔ)義的理解,所以本文圍繞如何利用文檔深層次語(yǔ)義特征來(lái)改善摘要質(zhì)量展開(kāi)研究,提出一種基于文檔多維度特征融合的抽取式摘要方法。主要工作如下:(1)面對(duì)目前抽取式摘要研究多是利用一些啟發(fā)式特征和淺層的語(yǔ)義特征問(wèn)題,提出一種基于文檔多維度語(yǔ)義的表征模型。句子在文檔中的重要程度是和文檔的語(yǔ)義息息相關(guān)的,而文檔的語(yǔ)義在不同的維度上的表征是不同的。本文所提出的模型分別從文檔的主題、細(xì)粒度以及上下文的關(guān)系來(lái)構(gòu)建文檔的語(yǔ)義表示。首先,利用LDA模型對(duì)文檔進(jìn)行主題分析并生成對(duì)應(yīng)的主題詞,并對(duì)其進(jìn)行情感偏好分析,避免一些無(wú)實(shí)際意義的虛詞對(duì)文檔主題的干擾。然后,通過(guò)對(duì)文檔不同細(xì)粒度的劃分,利用CNN層來(lái)構(gòu)建文檔詞語(yǔ)、句子與段落的語(yǔ)義表示,這可以有效的反映出文檔的不同層級(jí)之間的層次性。最后通過(guò)Bi-LSTM層來(lái)構(gòu)建句子在文檔中的上下文關(guān)系特征,從而在不同的維度上對(duì)文檔進(jìn)行深層...
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)安排
第二章 自動(dòng)摘要相關(guān)理論與方法
2.1 主題模型
2.2 深度學(xué)習(xí)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型
2.3 注意力機(jī)制
2.4 本章小結(jié)
第三章 文檔多維度語(yǔ)義特征建模
3.1 引言
3.2 文本預(yù)處理
3.3 基于文檔多維度語(yǔ)義的特征模型
3.3.1 文檔主題特征表示模型
3.3.2 基于文檔細(xì)粒度的特征表示模型
3.3.3 句子上下文關(guān)系的特征表示模型
3.3.4 模型求解
3.4 本章小結(jié)
第四章 基于冗余性控制的抽取式摘要模型
4.1 引言
4.2 基于冗余性控制的摘要生成模型
4.2.1 模型基本框架
4.2.2 模型求解
4.3 句子排序
4.4 本章小結(jié)
第五章 實(shí)驗(yàn)分析
5.1 數(shù)據(jù)集
5.2 評(píng)價(jià)標(biāo)準(zhǔn)
5.3 實(shí)驗(yàn)環(huán)境
5.4 實(shí)驗(yàn)結(jié)果及分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
附錄
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)TextRank的中文自動(dòng)文本摘要[J]. 黃波,劉傳才. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
[2]基于混合機(jī)器學(xué)習(xí)模型的多文檔自動(dòng)摘要[J]. 唐曉波,翟夏普. 情報(bào)理論與實(shí)踐. 2019(02)
[3]一種話題敏感的抽取式多文檔摘要方法[J]. 應(yīng)文豪,李素建,穗志方. 中文信息學(xué)報(bào). 2017(06)
[4]近70年文本自動(dòng)摘要研究綜述[J]. 劉家益,鄒益民. 情報(bào)科學(xué). 2017(07)
博士論文
[1]面向網(wǎng)絡(luò)評(píng)論信息的自動(dòng)摘要技術(shù)研究與應(yīng)用[D]. 張世博.北京郵電大學(xué) 2019
[2]基于有監(jiān)督深度學(xué)習(xí)的抽取式多文檔自動(dòng)摘要研究[D]. 任鵬杰.山東大學(xué) 2018
碩士論文
[1]基于多文檔摘要的研討文本分析方法及應(yīng)用[D]. 李元.湖北工業(yè)大學(xué) 2017
本文編號(hào):3705097
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文研究?jī)?nèi)容
1.4 本文結(jié)構(gòu)安排
第二章 自動(dòng)摘要相關(guān)理論與方法
2.1 主題模型
2.2 深度學(xué)習(xí)模型
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)模型
2.2.2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型
2.3 注意力機(jī)制
2.4 本章小結(jié)
第三章 文檔多維度語(yǔ)義特征建模
3.1 引言
3.2 文本預(yù)處理
3.3 基于文檔多維度語(yǔ)義的特征模型
3.3.1 文檔主題特征表示模型
3.3.2 基于文檔細(xì)粒度的特征表示模型
3.3.3 句子上下文關(guān)系的特征表示模型
3.3.4 模型求解
3.4 本章小結(jié)
第四章 基于冗余性控制的抽取式摘要模型
4.1 引言
4.2 基于冗余性控制的摘要生成模型
4.2.1 模型基本框架
4.2.2 模型求解
4.3 句子排序
4.4 本章小結(jié)
第五章 實(shí)驗(yàn)分析
5.1 數(shù)據(jù)集
5.2 評(píng)價(jià)標(biāo)準(zhǔn)
5.3 實(shí)驗(yàn)環(huán)境
5.4 實(shí)驗(yàn)結(jié)果及分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
附錄
【參考文獻(xiàn)】:
期刊論文
[1]基于加權(quán)TextRank的中文自動(dòng)文本摘要[J]. 黃波,劉傳才. 計(jì)算機(jī)應(yīng)用研究. 2020(02)
[2]基于混合機(jī)器學(xué)習(xí)模型的多文檔自動(dòng)摘要[J]. 唐曉波,翟夏普. 情報(bào)理論與實(shí)踐. 2019(02)
[3]一種話題敏感的抽取式多文檔摘要方法[J]. 應(yīng)文豪,李素建,穗志方. 中文信息學(xué)報(bào). 2017(06)
[4]近70年文本自動(dòng)摘要研究綜述[J]. 劉家益,鄒益民. 情報(bào)科學(xué). 2017(07)
博士論文
[1]面向網(wǎng)絡(luò)評(píng)論信息的自動(dòng)摘要技術(shù)研究與應(yīng)用[D]. 張世博.北京郵電大學(xué) 2019
[2]基于有監(jiān)督深度學(xué)習(xí)的抽取式多文檔自動(dòng)摘要研究[D]. 任鵬杰.山東大學(xué) 2018
碩士論文
[1]基于多文檔摘要的研討文本分析方法及應(yīng)用[D]. 李元.湖北工業(yè)大學(xué) 2017
本文編號(hào):3705097
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3705097.html
最近更新
教材專著