基于深度學(xué)習(xí)的文本摘要分析與實現(xiàn)
發(fā)布時間:2022-02-16 05:18
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及社交媒體的不斷普及,新聞、輿論、熱點等各種各樣的信息呈井噴式發(fā)展,飛速發(fā)展帶來了信息過載的問題,并且隨著生產(chǎn)生活節(jié)奏的加快,人們沒有足夠的時間來閱讀所有搜索到的信息。高質(zhì)量的文章摘要是提升信息獲取效率的有效手段。隨著深度學(xué)習(xí)的興起和計算機硬件水平的提升,越來越多的學(xué)者利用深度學(xué)習(xí)進行自動文章摘要生成。本文對傳統(tǒng)中文分詞算法提出優(yōu)化改進并提出基于雙層注意力機制的中文摘要算法,最后將改進后的中文分詞算法應(yīng)用于中文摘要算法中。傳統(tǒng)中文分詞算法無法高效地提取局部特征,且無法進行并行計算。針對以上兩點本文提出了一種基于簡單CNN與BI-LSTM相結(jié)合的中文分詞算法,既解決了CNN無法提取時序特征的問題,也解決了BI-LSTM無法提取局部特征以及無法進行并行計算的問題,同時利用權(quán)重共享的全連接操作保證了依據(jù)上下文信息獲取分類結(jié)果,實現(xiàn)了一輸入對多輸出的目的。實驗結(jié)果表明,該算法具有可行性且模型輸出結(jié)果的準(zhǔn)確率可達98%。傳統(tǒng)Seq2Seq摘要生成模型大多采用LSTM網(wǎng)絡(luò)和單層注意力機制實現(xiàn),由此會導(dǎo)致模型計算緩慢且注意力矩陣中包含信息不足。針對以上問題,本文在以下幾方面...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 自動文章摘要分類
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究內(nèi)容
1.5 本文的組織架構(gòu)
第二章 基于簡單CNN與 BI-LSTM的中文分詞算法設(shè)計
2.1 相關(guān)技術(shù)
2.1.1 詞向量
2.1.2 CNN網(wǎng)絡(luò)
2.1.3 LSTM網(wǎng)絡(luò)
2.2 基于簡單CNN與 BI-LSTM的中文分詞模型搭建
2.2.1 基于簡單CNN與 BI-LSTM的中文分詞模型概況
2.2.2 標(biāo)注方法
2.2.3 詞嵌入層
2.2.4 簡單CNN層
2.2.5 BI-LSTM層
2.2.6 全連接層
2.3 實驗結(jié)果與分析
2.3.1 數(shù)據(jù)集
2.3.2 超參數(shù)
2.3.3 實驗結(jié)果與分析
2.4 本章小結(jié)
第三章 基于雙層注意力機制的文章摘要算法設(shè)計
3.1 相關(guān)技術(shù)
3.1.1 Seq2Seq序列模型
3.1.2 注意力機制
3.2 抽取式摘要生成方法簡介
3.2.1 基于TF-IDF統(tǒng)計方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于雙層注意力機制的文章摘要模型搭建
3.3.1 基于雙層注意力機制的文章摘要模型概況
3.3.2 字向量與詞向量的構(gòu)建
3.3.3 編碼器的搭建
3.3.4 解碼器的搭建
3.3.5 雙層注意力機制的設(shè)計與摘要生成
3.4 本章小結(jié)
第四章 實驗測評與結(jié)果分析
4.1 測評方法
4.2 數(shù)據(jù)集與超參數(shù)
4.3 實驗結(jié)果分析
4.3.1 傳統(tǒng)抽取式摘要模型實驗結(jié)果
4.3.2 輸入向量組合方式對比分析
4.3.3 基于雙層注意力機制的文章摘要模型與其它模型實驗結(jié)果對比分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
在學(xué)期間的研究成果
致謝
【參考文獻】:
期刊論文
[1]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[2]融合attention機制的BI-LSTM-CRF中文分詞模型[J]. 黃丹丹,郭玉翠. 軟件. 2018(10)
[3]基于SVM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[J]. 張昭楠. 電子設(shè)計工程. 2016(16)
[4]基于改進的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機科學(xué). 2016(06)
[5]基于信息抽取和文本生成的自動文摘系統(tǒng)設(shè)計[J]. 劉挺,吳巖,王開鑄. 情報學(xué)報. 1997(S1)
[6]基于全信息詞典的自動文摘系統(tǒng)研究與實現(xiàn)[J]. 楊曉蘭,鐘義信. 情報學(xué)報. 1997(06)
[7]OA中文文獻自動摘要系統(tǒng)[J]. 王永成,許慧敏. 情報學(xué)報. 1997(02)
[8]自然語言篇章理解及基于理解的自動文摘研究[J]. 王建波,王開鑄. 中文信息學(xué)報. 1992(02)
碩士論文
[1]基于深度學(xué)習(xí)的短文本自動摘要方法研究[D]. 董晨西.北京郵電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動文摘方法[D]. 喻麗.哈爾濱工業(yè)大學(xué) 2017
[3]基于子主題劃分和句子特征的中文文檔自動文摘研究[D]. 張佳培.重慶大學(xué) 2012
[4]基于統(tǒng)計與語義分析的多文檔自動摘要研究[D]. 宋宣辰.中國科學(xué)技術(shù)大學(xué) 2009
本文編號:3627578
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 自動文章摘要分類
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究內(nèi)容
1.5 本文的組織架構(gòu)
第二章 基于簡單CNN與 BI-LSTM的中文分詞算法設(shè)計
2.1 相關(guān)技術(shù)
2.1.1 詞向量
2.1.2 CNN網(wǎng)絡(luò)
2.1.3 LSTM網(wǎng)絡(luò)
2.2 基于簡單CNN與 BI-LSTM的中文分詞模型搭建
2.2.1 基于簡單CNN與 BI-LSTM的中文分詞模型概況
2.2.2 標(biāo)注方法
2.2.3 詞嵌入層
2.2.4 簡單CNN層
2.2.5 BI-LSTM層
2.2.6 全連接層
2.3 實驗結(jié)果與分析
2.3.1 數(shù)據(jù)集
2.3.2 超參數(shù)
2.3.3 實驗結(jié)果與分析
2.4 本章小結(jié)
第三章 基于雙層注意力機制的文章摘要算法設(shè)計
3.1 相關(guān)技術(shù)
3.1.1 Seq2Seq序列模型
3.1.2 注意力機制
3.2 抽取式摘要生成方法簡介
3.2.1 基于TF-IDF統(tǒng)計方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于雙層注意力機制的文章摘要模型搭建
3.3.1 基于雙層注意力機制的文章摘要模型概況
3.3.2 字向量與詞向量的構(gòu)建
3.3.3 編碼器的搭建
3.3.4 解碼器的搭建
3.3.5 雙層注意力機制的設(shè)計與摘要生成
3.4 本章小結(jié)
第四章 實驗測評與結(jié)果分析
4.1 測評方法
4.2 數(shù)據(jù)集與超參數(shù)
4.3 實驗結(jié)果分析
4.3.1 傳統(tǒng)抽取式摘要模型實驗結(jié)果
4.3.2 輸入向量組合方式對比分析
4.3.3 基于雙層注意力機制的文章摘要模型與其它模型實驗結(jié)果對比分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻
在學(xué)期間的研究成果
致謝
【參考文獻】:
期刊論文
[1]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[2]融合attention機制的BI-LSTM-CRF中文分詞模型[J]. 黃丹丹,郭玉翠. 軟件. 2018(10)
[3]基于SVM的中文文本分類系統(tǒng)的設(shè)計與實現(xiàn)[J]. 張昭楠. 電子設(shè)計工程. 2016(16)
[4]基于改進的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計算機科學(xué). 2016(06)
[5]基于信息抽取和文本生成的自動文摘系統(tǒng)設(shè)計[J]. 劉挺,吳巖,王開鑄. 情報學(xué)報. 1997(S1)
[6]基于全信息詞典的自動文摘系統(tǒng)研究與實現(xiàn)[J]. 楊曉蘭,鐘義信. 情報學(xué)報. 1997(06)
[7]OA中文文獻自動摘要系統(tǒng)[J]. 王永成,許慧敏. 情報學(xué)報. 1997(02)
[8]自然語言篇章理解及基于理解的自動文摘研究[J]. 王建波,王開鑄. 中文信息學(xué)報. 1992(02)
碩士論文
[1]基于深度學(xué)習(xí)的短文本自動摘要方法研究[D]. 董晨西.北京郵電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動文摘方法[D]. 喻麗.哈爾濱工業(yè)大學(xué) 2017
[3]基于子主題劃分和句子特征的中文文檔自動文摘研究[D]. 張佳培.重慶大學(xué) 2012
[4]基于統(tǒng)計與語義分析的多文檔自動摘要研究[D]. 宋宣辰.中國科學(xué)技術(shù)大學(xué) 2009
本文編號:3627578
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3627578.html
最近更新
教材專著