基于深度學(xué)習(xí)的文本摘要分析與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-02-16 05:18
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及社交媒體的不斷普及,新聞、輿論、熱點(diǎn)等各種各樣的信息呈井噴式發(fā)展,飛速發(fā)展帶來了信息過載的問題,并且隨著生產(chǎn)生活節(jié)奏的加快,人們沒有足夠的時(shí)間來閱讀所有搜索到的信息。高質(zhì)量的文章摘要是提升信息獲取效率的有效手段。隨著深度學(xué)習(xí)的興起和計(jì)算機(jī)硬件水平的提升,越來越多的學(xué)者利用深度學(xué)習(xí)進(jìn)行自動(dòng)文章摘要生成。本文對傳統(tǒng)中文分詞算法提出優(yōu)化改進(jìn)并提出基于雙層注意力機(jī)制的中文摘要算法,最后將改進(jìn)后的中文分詞算法應(yīng)用于中文摘要算法中。傳統(tǒng)中文分詞算法無法高效地提取局部特征,且無法進(jìn)行并行計(jì)算。針對以上兩點(diǎn)本文提出了一種基于簡單CNN與BI-LSTM相結(jié)合的中文分詞算法,既解決了CNN無法提取時(shí)序特征的問題,也解決了BI-LSTM無法提取局部特征以及無法進(jìn)行并行計(jì)算的問題,同時(shí)利用權(quán)重共享的全連接操作保證了依據(jù)上下文信息獲取分類結(jié)果,實(shí)現(xiàn)了一輸入對多輸出的目的。實(shí)驗(yàn)結(jié)果表明,該算法具有可行性且模型輸出結(jié)果的準(zhǔn)確率可達(dá)98%。傳統(tǒng)Seq2Seq摘要生成模型大多采用LSTM網(wǎng)絡(luò)和單層注意力機(jī)制實(shí)現(xiàn),由此會導(dǎo)致模型計(jì)算緩慢且注意力矩陣中包含信息不足。針對以上問題,本文在以下幾方面...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 自動(dòng)文章摘要分類
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究內(nèi)容
1.5 本文的組織架構(gòu)
第二章 基于簡單CNN與 BI-LSTM的中文分詞算法設(shè)計(jì)
2.1 相關(guān)技術(shù)
2.1.1 詞向量
2.1.2 CNN網(wǎng)絡(luò)
2.1.3 LSTM網(wǎng)絡(luò)
2.2 基于簡單CNN與 BI-LSTM的中文分詞模型搭建
2.2.1 基于簡單CNN與 BI-LSTM的中文分詞模型概況
2.2.2 標(biāo)注方法
2.2.3 詞嵌入層
2.2.4 簡單CNN層
2.2.5 BI-LSTM層
2.2.6 全連接層
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 數(shù)據(jù)集
2.3.2 超參數(shù)
2.3.3 實(shí)驗(yàn)結(jié)果與分析
2.4 本章小結(jié)
第三章 基于雙層注意力機(jī)制的文章摘要算法設(shè)計(jì)
3.1 相關(guān)技術(shù)
3.1.1 Seq2Seq序列模型
3.1.2 注意力機(jī)制
3.2 抽取式摘要生成方法簡介
3.2.1 基于TF-IDF統(tǒng)計(jì)方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于雙層注意力機(jī)制的文章摘要模型搭建
3.3.1 基于雙層注意力機(jī)制的文章摘要模型概況
3.3.2 字向量與詞向量的構(gòu)建
3.3.3 編碼器的搭建
3.3.4 解碼器的搭建
3.3.5 雙層注意力機(jī)制的設(shè)計(jì)與摘要生成
3.4 本章小結(jié)
第四章 實(shí)驗(yàn)測評與結(jié)果分析
4.1 測評方法
4.2 數(shù)據(jù)集與超參數(shù)
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 傳統(tǒng)抽取式摘要模型實(shí)驗(yàn)結(jié)果
4.3.2 輸入向量組合方式對比分析
4.3.3 基于雙層注意力機(jī)制的文章摘要模型與其它模型實(shí)驗(yàn)結(jié)果對比分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
在學(xué)期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[2]融合attention機(jī)制的BI-LSTM-CRF中文分詞模型[J]. 黃丹丹,郭玉翠. 軟件. 2018(10)
[3]基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張昭楠. 電子設(shè)計(jì)工程. 2016(16)
[4]基于改進(jìn)的TextRank的自動(dòng)摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計(jì)算機(jī)科學(xué). 2016(06)
[5]基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J]. 劉挺,吳巖,王開鑄. 情報(bào)學(xué)報(bào). 1997(S1)
[6]基于全信息詞典的自動(dòng)文摘系統(tǒng)研究與實(shí)現(xiàn)[J]. 楊曉蘭,鐘義信. 情報(bào)學(xué)報(bào). 1997(06)
[7]OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J]. 王永成,許慧敏. 情報(bào)學(xué)報(bào). 1997(02)
[8]自然語言篇章理解及基于理解的自動(dòng)文摘研究[J]. 王建波,王開鑄. 中文信息學(xué)報(bào). 1992(02)
碩士論文
[1]基于深度學(xué)習(xí)的短文本自動(dòng)摘要方法研究[D]. 董晨西.北京郵電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動(dòng)文摘方法[D]. 喻麗.哈爾濱工業(yè)大學(xué) 2017
[3]基于子主題劃分和句子特征的中文文檔自動(dòng)文摘研究[D]. 張佳培.重慶大學(xué) 2012
[4]基于統(tǒng)計(jì)與語義分析的多文檔自動(dòng)摘要研究[D]. 宋宣辰.中國科學(xué)技術(shù)大學(xué) 2009
本文編號:3627578
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 自動(dòng)文章摘要分類
1.3.1 抽取式摘要
1.3.2 生成式摘要
1.4 本文的研究內(nèi)容
1.5 本文的組織架構(gòu)
第二章 基于簡單CNN與 BI-LSTM的中文分詞算法設(shè)計(jì)
2.1 相關(guān)技術(shù)
2.1.1 詞向量
2.1.2 CNN網(wǎng)絡(luò)
2.1.3 LSTM網(wǎng)絡(luò)
2.2 基于簡單CNN與 BI-LSTM的中文分詞模型搭建
2.2.1 基于簡單CNN與 BI-LSTM的中文分詞模型概況
2.2.2 標(biāo)注方法
2.2.3 詞嵌入層
2.2.4 簡單CNN層
2.2.5 BI-LSTM層
2.2.6 全連接層
2.3 實(shí)驗(yàn)結(jié)果與分析
2.3.1 數(shù)據(jù)集
2.3.2 超參數(shù)
2.3.3 實(shí)驗(yàn)結(jié)果與分析
2.4 本章小結(jié)
第三章 基于雙層注意力機(jī)制的文章摘要算法設(shè)計(jì)
3.1 相關(guān)技術(shù)
3.1.1 Seq2Seq序列模型
3.1.2 注意力機(jī)制
3.2 抽取式摘要生成方法簡介
3.2.1 基于TF-IDF統(tǒng)計(jì)方法的文章摘要生成
3.2.2 基于LSI模型的文章摘要生成
3.3 基于雙層注意力機(jī)制的文章摘要模型搭建
3.3.1 基于雙層注意力機(jī)制的文章摘要模型概況
3.3.2 字向量與詞向量的構(gòu)建
3.3.3 編碼器的搭建
3.3.4 解碼器的搭建
3.3.5 雙層注意力機(jī)制的設(shè)計(jì)與摘要生成
3.4 本章小結(jié)
第四章 實(shí)驗(yàn)測評與結(jié)果分析
4.1 測評方法
4.2 數(shù)據(jù)集與超參數(shù)
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 傳統(tǒng)抽取式摘要模型實(shí)驗(yàn)結(jié)果
4.3.2 輸入向量組合方式對比分析
4.3.3 基于雙層注意力機(jī)制的文章摘要模型與其它模型實(shí)驗(yàn)結(jié)果對比分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
在學(xué)期間的研究成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于BI_LSTM_CRF神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注中文分詞方法[J]. 姚茂建,李晗靜,呂會華,姚登峰. 現(xiàn)代電子技術(shù). 2019(01)
[2]融合attention機(jī)制的BI-LSTM-CRF中文分詞模型[J]. 黃丹丹,郭玉翠. 軟件. 2018(10)
[3]基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張昭楠. 電子設(shè)計(jì)工程. 2016(16)
[4]基于改進(jìn)的TextRank的自動(dòng)摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計(jì)算機(jī)科學(xué). 2016(06)
[5]基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J]. 劉挺,吳巖,王開鑄. 情報(bào)學(xué)報(bào). 1997(S1)
[6]基于全信息詞典的自動(dòng)文摘系統(tǒng)研究與實(shí)現(xiàn)[J]. 楊曉蘭,鐘義信. 情報(bào)學(xué)報(bào). 1997(06)
[7]OA中文文獻(xiàn)自動(dòng)摘要系統(tǒng)[J]. 王永成,許慧敏. 情報(bào)學(xué)報(bào). 1997(02)
[8]自然語言篇章理解及基于理解的自動(dòng)文摘研究[J]. 王建波,王開鑄. 中文信息學(xué)報(bào). 1992(02)
碩士論文
[1]基于深度學(xué)習(xí)的短文本自動(dòng)摘要方法研究[D]. 董晨西.北京郵電大學(xué) 2019
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的中文自動(dòng)文摘方法[D]. 喻麗.哈爾濱工業(yè)大學(xué) 2017
[3]基于子主題劃分和句子特征的中文文檔自動(dòng)文摘研究[D]. 張佳培.重慶大學(xué) 2012
[4]基于統(tǒng)計(jì)與語義分析的多文檔自動(dòng)摘要研究[D]. 宋宣辰.中國科學(xué)技術(shù)大學(xué) 2009
本文編號:3627578
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3627578.html
最近更新
教材專著