基于CNN的中文文本摘要自動生成方法研究
發(fā)布時間:2021-04-23 21:56
技術(shù)是指通過算法對文本信息高度概括后生成更加精煉、語義通順的摘要,目的是為了在文本類數(shù)據(jù)中快速的篩選信息,解決信息冗余過載的問題。當前文本摘要的研究大多集中在傳統(tǒng)抽取式技術(shù),難以完成在大數(shù)據(jù)環(huán)境下的具體工作,得益于深度學習技術(shù)的不斷發(fā)展,本文采用CNN與LSTM的方法實現(xiàn)了基于Seq2seq-attention機制模型的改進,并在Sogou CS新聞數(shù)據(jù)上,利用ROUGE評價指標,設(shè)置了4組實驗進行對比和評估。首先,本文詳細介紹了傳統(tǒng)文本摘要方法。并以Textrank和TF-IDF兩種較為突出的算法為例,詳細梳理傳統(tǒng)方法的原理及存在的不足,并將兩種傳統(tǒng)方法的結(jié)果與改進后模型的結(jié)果作比較。其次,由于傳統(tǒng)抽取方法在文本摘要中未考慮上下文語義特征的信息,因此本文對基于傳統(tǒng)Seq2seq-attention機制模型的框架拆分研究,并根據(jù)深度學習算法將CNN框架用在編碼器,LSTM框架用在解碼器,從而實現(xiàn)了模型改進,之后在同一數(shù)據(jù)集上與傳統(tǒng)的基于RNN框架的Seq2seq-attention機制模型對比。實驗表明,改進后的模型在ROUGE評分上高于傳統(tǒng)生成式模型,可以表明改進后的模型能夠運用在生...
【文章來源】:東北師范大學吉林省 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識
2.1 文本摘要技術(shù)介紹
2.2 相關(guān)模型介紹
2.3 詞向量表示方法
2.4 本章小結(jié)
第三章 文本摘要生成模型的構(gòu)建
3.1 數(shù)據(jù)集預(yù)處理
3.2 評價指標
3.3 Word2Vec詞向量模型構(gòu)建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型構(gòu)建
3.7 實驗
3.8 本章小結(jié)
第四章 文本摘要系統(tǒng)的設(shè)計與實現(xiàn)
4.1 需求分析
4.2 系統(tǒng)設(shè)計
4.3 系統(tǒng)實現(xiàn)及測試
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
致謝
在學期間公開發(fā)表論文及著作情況
【參考文獻】:
期刊論文
[1]異構(gòu)文本數(shù)據(jù)轉(zhuǎn)換中XML解析方法對比研究[J]. 何卓桁,劉志勇,李璐,李長明,張琳. 計算機工程. 2020(07)
[2]基于Seq2seq模型的推薦應(yīng)用研究[J]. 陳俊航,徐小平,楊恒泓. 計算機科學. 2019(S1)
[3]融合詞匯特征的生成式摘要模型[J]. 江躍華,丁磊,李嬌娥,杜皓晅,高凱. 河北科技大學學報. 2019(02)
[4]面向非任務(wù)型對話系統(tǒng)的人工標注中文數(shù)據(jù)集[J]. 李菁,張海松,宋彥. 中文信息學報. 2019(03)
[5]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應(yīng)用. 2018(S2)
[6]基于深度學習的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應(yīng)用. 2019(02)
[7]文本摘要研究進展與趨勢[J]. 明拓思宇,陳鴻昶. 網(wǎng)絡(luò)與信息安全學報. 2018(06)
[8]文本自動摘要研究進展[J]. 韋福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神經(jīng)網(wǎng)絡(luò)并行化研究綜述[J]. 朱虎明,李佩,焦李成,楊淑媛,侯彪. 計算機學報. 2018(08)
[10]一種話題敏感的抽取式多文檔摘要方法[J]. 應(yīng)文豪,李素建,穗志方. 中文信息學報. 2017(06)
本文編號:3156114
【文章來源】:東北師范大學吉林省 211工程院校 教育部直屬院校
【文章頁數(shù)】:55 頁
【學位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
第一章 引言
1.1 研究背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識
2.1 文本摘要技術(shù)介紹
2.2 相關(guān)模型介紹
2.3 詞向量表示方法
2.4 本章小結(jié)
第三章 文本摘要生成模型的構(gòu)建
3.1 數(shù)據(jù)集預(yù)處理
3.2 評價指標
3.3 Word2Vec詞向量模型構(gòu)建
3.4 Seq2seq模型
3.5 Seq2seq-Attention模型
3.6 基于CNN的 Seq2Seq-attention相融合文本摘要模型構(gòu)建
3.7 實驗
3.8 本章小結(jié)
第四章 文本摘要系統(tǒng)的設(shè)計與實現(xiàn)
4.1 需求分析
4.2 系統(tǒng)設(shè)計
4.3 系統(tǒng)實現(xiàn)及測試
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
致謝
在學期間公開發(fā)表論文及著作情況
【參考文獻】:
期刊論文
[1]異構(gòu)文本數(shù)據(jù)轉(zhuǎn)換中XML解析方法對比研究[J]. 何卓桁,劉志勇,李璐,李長明,張琳. 計算機工程. 2020(07)
[2]基于Seq2seq模型的推薦應(yīng)用研究[J]. 陳俊航,徐小平,楊恒泓. 計算機科學. 2019(S1)
[3]融合詞匯特征的生成式摘要模型[J]. 江躍華,丁磊,李嬌娥,杜皓晅,高凱. 河北科技大學學報. 2019(02)
[4]面向非任務(wù)型對話系統(tǒng)的人工標注中文數(shù)據(jù)集[J]. 李菁,張海松,宋彥. 中文信息學報. 2019(03)
[5]循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 楊麗,吳雨茜,王俊麗,劉義理. 計算機應(yīng)用. 2018(S2)
[6]基于深度學習的文本自動摘要方案[J]. 張克君,李偉男,錢榕,史泰猛,焦萌. 計算機應(yīng)用. 2019(02)
[7]文本摘要研究進展與趨勢[J]. 明拓思宇,陳鴻昶. 網(wǎng)絡(luò)與信息安全學報. 2018(06)
[8]文本自動摘要研究進展[J]. 韋福如,周青宇,程骉,周明. 人工智能. 2018(01)
[9]深度神經(jīng)網(wǎng)絡(luò)并行化研究綜述[J]. 朱虎明,李佩,焦李成,楊淑媛,侯彪. 計算機學報. 2018(08)
[10]一種話題敏感的抽取式多文檔摘要方法[J]. 應(yīng)文豪,李素建,穗志方. 中文信息學報. 2017(06)
本文編號:3156114
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3156114.html
最近更新
教材專著