基于深度學(xué)習(xí)的文本摘要相關(guān)技術(shù)研究及應(yīng)用
發(fā)布時(shí)間:2022-07-13 10:50
大數(shù)據(jù)時(shí)代的到來伴隨著信息爆炸的風(fēng)險(xiǎn),如何快速、準(zhǔn)確地從互聯(lián)網(wǎng)上海量信息中獲取所需信息已成為亟待解決的問題。自動(dòng)文本摘要技術(shù)將文本中的核心內(nèi)容提取出來并生成簡潔的描述,是解決信息過載的有效方法。近幾年,深度學(xué)習(xí)的快速發(fā)展給自動(dòng)文本摘要帶來新的思路,生成式文本摘要方法應(yīng)運(yùn)而生,這種方法生成的文本可讀性更強(qiáng)且容易理解。目前,基于深度神經(jīng)網(wǎng)絡(luò)的文本摘要方法多采用編碼器-解碼器結(jié)構(gòu),編碼器生成源文本的語義表示,解碼器用于生成連續(xù)可讀的摘要序列,但這種方法存在生成未登錄詞、生成序列重復(fù)、原始語義表示不充分等問題。針對(duì)這些問題,本文在基于深度神經(jīng)網(wǎng)絡(luò)上的文本摘要方法進(jìn)行探究,提出一種基于隨機(jī)集束搜索的序列到序列的摘要生成方法和基于語言模型的摘要生成方法,并將提出的方法在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證實(shí)了模型的有效性。本文主要工作分成兩部分,具體如下:(1)設(shè)計(jì)并實(shí)現(xiàn)一種基于增強(qiáng)語義和改進(jìn)集束搜索的序列到序列摘要生成方法。主要內(nèi)容包括:一種混合編碼結(jié)構(gòu),通過門限卷積網(wǎng)絡(luò)來捕獲原始文本的近距離上下文信息,得到上下文的語義表示,隨后利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的長距離依賴信息和時(shí)序信息;一種隨機(jī)集束搜索算...
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀及應(yīng)用
1.3 文本摘要面臨的問題和挑戰(zhàn)
1.4 論文的研究內(nèi)容和貢獻(xiàn)
1.5 論文的主要結(jié)構(gòu)安排
第二章 相關(guān)技術(shù)和算法研究
2.1 詞向量表示技術(shù)
2.1.1 基于one-hot編碼表示
2.1.2 基于TF-IDF表示
2.1.3 基于神經(jīng)網(wǎng)絡(luò)分布式表示
2.1.4 動(dòng)態(tài)詞向量技術(shù)
2.2 深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.3 Transformer網(wǎng)絡(luò)
2.3 解碼搜索算法
2.3.1 貪心搜索
2.3.2 集束搜索
2.4 本章小結(jié)
第三章 基于隨機(jī)集束搜索的seq2seq摘要生成方法
3.1 問題形式化分析
3.2 基準(zhǔn)模型
3.2.1 seq2seq框架
3.2.2 注意力機(jī)制
3.2.3 基線模型結(jié)構(gòu)
3.3 增強(qiáng)語義模型
3.3.1 增強(qiáng)語義的編碼結(jié)構(gòu)
3.3.2 改進(jìn)集束搜索算法
3.4 實(shí)驗(yàn)
3.4.1 數(shù)據(jù)集介紹及預(yù)處理
3.4.2 實(shí)驗(yàn)環(huán)境和參數(shù)
3.4.3 模型的評(píng)估指標(biāo)
3.4.4 實(shí)驗(yàn)結(jié)果和分析
3.5 本章小結(jié)
第四章 基于語言模型的摘要生成方法
4.1 問題形式化分析
4.2 摘要模型構(gòu)建
4.2.1 模型結(jié)構(gòu)
4.2.2 修改掩碼方式
4.2.3 預(yù)訓(xùn)練模型微調(diào)
4.3 實(shí)驗(yàn)
4.3.1 數(shù)據(jù)集介紹
4.3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
4.3.3 基本模型和評(píng)估指標(biāo)
4.3.4 實(shí)驗(yàn)結(jié)果與分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀碩士期間取得研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)TextRank算法的中文文本摘要提取[J]. 徐馨韜,柴小麗,謝彬,沈晨,王敬平. 計(jì)算機(jī)工程. 2019(03)
碩士論文
[1]維吾爾語單文檔自動(dòng)文摘算法研究[D]. 買哈鋪熱提·外力.新疆大學(xué) 2014
本文編號(hào):3659906
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀及應(yīng)用
1.3 文本摘要面臨的問題和挑戰(zhàn)
1.4 論文的研究內(nèi)容和貢獻(xiàn)
1.5 論文的主要結(jié)構(gòu)安排
第二章 相關(guān)技術(shù)和算法研究
2.1 詞向量表示技術(shù)
2.1.1 基于one-hot編碼表示
2.1.2 基于TF-IDF表示
2.1.3 基于神經(jīng)網(wǎng)絡(luò)分布式表示
2.1.4 動(dòng)態(tài)詞向量技術(shù)
2.2 深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.3 Transformer網(wǎng)絡(luò)
2.3 解碼搜索算法
2.3.1 貪心搜索
2.3.2 集束搜索
2.4 本章小結(jié)
第三章 基于隨機(jī)集束搜索的seq2seq摘要生成方法
3.1 問題形式化分析
3.2 基準(zhǔn)模型
3.2.1 seq2seq框架
3.2.2 注意力機(jī)制
3.2.3 基線模型結(jié)構(gòu)
3.3 增強(qiáng)語義模型
3.3.1 增強(qiáng)語義的編碼結(jié)構(gòu)
3.3.2 改進(jìn)集束搜索算法
3.4 實(shí)驗(yàn)
3.4.1 數(shù)據(jù)集介紹及預(yù)處理
3.4.2 實(shí)驗(yàn)環(huán)境和參數(shù)
3.4.3 模型的評(píng)估指標(biāo)
3.4.4 實(shí)驗(yàn)結(jié)果和分析
3.5 本章小結(jié)
第四章 基于語言模型的摘要生成方法
4.1 問題形式化分析
4.2 摘要模型構(gòu)建
4.2.1 模型結(jié)構(gòu)
4.2.2 修改掩碼方式
4.2.3 預(yù)訓(xùn)練模型微調(diào)
4.3 實(shí)驗(yàn)
4.3.1 數(shù)據(jù)集介紹
4.3.2 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
4.3.3 基本模型和評(píng)估指標(biāo)
4.3.4 實(shí)驗(yàn)結(jié)果與分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀碩士期間取得研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)TextRank算法的中文文本摘要提取[J]. 徐馨韜,柴小麗,謝彬,沈晨,王敬平. 計(jì)算機(jī)工程. 2019(03)
碩士論文
[1]維吾爾語單文檔自動(dòng)文摘算法研究[D]. 買哈鋪熱提·外力.新疆大學(xué) 2014
本文編號(hào):3659906
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3659906.html
最近更新
教材專著