基于CNN的中文文本摘要自動生成方法研究
發(fā)布時間:2021-04-23 21:56
技術是指通過算法對文本信息高度概括后生成更加精煉、語義通順的摘要,目的是為了在文本類數據中快速的篩選信息,解決信息冗余過載的問題。當前文本摘要的研究大多集中在傳統抽取式技術,難以完成在大數據環(huán)境下的具體工作,得益于深度學習技術的不斷發(fā)展,本文采用CNN與LSTM的方法實現了基于Seq2seq-attention機制模型的改進,并在Sogou CS新聞數據上,利用ROUGE評價指標,設置了4組實驗進行對比和評估。首先,本文詳細介紹了傳統文本摘要方法。并以Textrank和TF-IDF兩種較為突出的算法為例,詳細梳理傳統方法的原理及存在的不足,并將兩種傳統方法的結果與改進后模型的結果作比較。其次,由于傳統抽取方法在文本摘要中未考慮上下文語義特征的信息,因此本文對基于傳統Seq2seq-attention機制模型的框架拆分研究,并根據深度學習算法將CNN框架用在編碼器,LSTM框架用在解碼器,從而實現了模型改進,之后在同一數據集上與傳統的基于RNN框架的Seq2seq-attention機制模型對比。實驗表明,改進后的模型在ROUGE評分上高于傳統生成式模型,可以表明改進后的模型能夠運用在生...
【文章來源】:東北師范大學吉林省 211工程院校 教育部直屬院校
【文章頁數】:55 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景與研究意義
1.2 國內外研究現狀
1.3 論文研究內容
1.4 論文組織結構
第二章 相關知識
2.1 文本摘要技術介紹
2.2 相關模型介紹
2.3 詞向量表示方法
2.4 本章小結
第三章 文本摘要生成模型的構建
3.1 數據集預處理
3.2 評價指標
3.3 Word2Vec詞向量模型構建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型構建
3.7 實驗
3.8 本章小結
第四章 文本摘要系統的設計與實現
4.1 需求分析
4.2 系統設計
4.3 系統實現及測試
4.4 本章小結
第五章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
在學期間公開發(fā)表論文及著作情況
【參考文獻】:
期刊論文
[1]異構文本數據轉換中XML解析方法對比研究[J]. 何卓桁,劉志勇,李璐,李長明,張琳. 計算機工程. 2020(07)
[2]基于Seq2seq模型的推薦應用研究[J]. 陳俊航,徐小平,楊恒泓. 計算機科學. 2019(S1)
[3]融合詞匯特征的生成式摘要模型[J]. 江躍華,丁磊,李嬌娥,杜皓晅,高凱. 河北科技大學學報. 2019(02)
[4]面向非任務型對話系統的人工標注中文數據集[J]. 李菁,張海松,宋彥. 中文信息學報. 2019(03)
[5]循環(huán)神經網絡研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應用. 2018(S2)
[6]基于深度學習的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應用. 2019(02)
[7]文本摘要研究進展與趨勢[J]. 明拓思宇,陳鴻昶. 網絡與信息安全學報. 2018(06)
[8]文本自動摘要研究進展[J]. 韋福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神經網絡并行化研究綜述[J]. 朱虎明,李佩,焦李成,楊淑媛,侯彪. 計算機學報. 2018(08)
[10]一種話題敏感的抽取式多文檔摘要方法[J]. 應文豪,李素建,穗志方. 中文信息學報. 2017(06)
本文編號:3156114
【文章來源】:東北師范大學吉林省 211工程院校 教育部直屬院校
【文章頁數】:55 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景與研究意義
1.2 國內外研究現狀
1.3 論文研究內容
1.4 論文組織結構
第二章 相關知識
2.1 文本摘要技術介紹
2.2 相關模型介紹
2.3 詞向量表示方法
2.4 本章小結
第三章 文本摘要生成模型的構建
3.1 數據集預處理
3.2 評價指標
3.3 Word2Vec詞向量模型構建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型構建
3.7 實驗
3.8 本章小結
第四章 文本摘要系統的設計與實現
4.1 需求分析
4.2 系統設計
4.3 系統實現及測試
4.4 本章小結
第五章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
在學期間公開發(fā)表論文及著作情況
【參考文獻】:
期刊論文
[1]異構文本數據轉換中XML解析方法對比研究[J]. 何卓桁,劉志勇,李璐,李長明,張琳. 計算機工程. 2020(07)
[2]基于Seq2seq模型的推薦應用研究[J]. 陳俊航,徐小平,楊恒泓. 計算機科學. 2019(S1)
[3]融合詞匯特征的生成式摘要模型[J]. 江躍華,丁磊,李嬌娥,杜皓晅,高凱. 河北科技大學學報. 2019(02)
[4]面向非任務型對話系統的人工標注中文數據集[J]. 李菁,張海松,宋彥. 中文信息學報. 2019(03)
[5]循環(huán)神經網絡研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應用. 2018(S2)
[6]基于深度學習的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應用. 2019(02)
[7]文本摘要研究進展與趨勢[J]. 明拓思宇,陳鴻昶. 網絡與信息安全學報. 2018(06)
[8]文本自動摘要研究進展[J]. 韋福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神經網絡并行化研究綜述[J]. 朱虎明,李佩,焦李成,楊淑媛,侯彪. 計算機學報. 2018(08)
[10]一種話題敏感的抽取式多文檔摘要方法[J]. 應文豪,李素建,穗志方. 中文信息學報. 2017(06)
本文編號:3156114
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3156114.html
最近更新
教材專著