基于深度學(xué)習(xí)的多語種自動摘要系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2020-05-23 19:43
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,國際間的交流日益頻繁,人們在生活中每天都被大量的信息包圍,如何高效地挑選出自己最需要的信息變得愈發(fā)重要。自動摘要是解決信息爆炸問題的關(guān)鍵技術(shù),跨語言自動摘要技術(shù)可以讓人們快速瀏覽多國文獻(xiàn),幫助人們迅速了解世界上不同國家和地區(qū)的信息,具有重要的研究價值和應(yīng)用價值。本文實現(xiàn)的多語種自動摘要系統(tǒng)主要有單語種自動摘要和跨語言自動摘要兩個功能,可以處理中、英、朝三種語言的科技文獻(xiàn)短文本。基于RNNLM模型,本學(xué)位論文提出預(yù)訓(xùn)練詞向量的單語種自動摘要方法,對某種語言的文本生成相同語種的摘要;基于Seq2Seq模型,本學(xué)位論文提出一種不需要機器翻譯的跨語言自動摘要方法,可以對某種語言的文本直接生成另一種語言的摘要。首先,整理科技文獻(xiàn)的摘要和標(biāo)題,構(gòu)建中、朝、英三種語言的平行語料庫。使用不同的循環(huán)體結(jié)構(gòu)和不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),觀察模型在測試集上的表現(xiàn)。同時以加入Attention機制的Seq2Seq模型為基礎(chǔ),分別使用Word2Vec和RNNLM對詞向量進(jìn)行預(yù)訓(xùn)練,觀察模型在測試集上的表現(xiàn)。其次,利用中、朝、英平行語料庫,使用基于Seq2Seq模型的訓(xùn)練方案,實現(xiàn)無需借助機器翻譯技術(shù)的跨語言生成式自動摘要,模型可以對一種語言的文本直接生成另一種語言的摘要。最后,設(shè)計并實現(xiàn)基于Django框架的多語種生成式自動摘要系統(tǒng),介紹系統(tǒng)的總體設(shè)計和各個功能模塊,展示系統(tǒng)的單語種自動摘要功能和跨語言自動摘要功能。實驗結(jié)果表明,在單語種自動摘要任務(wù)中,本學(xué)位論文提出的基于RNNLM的詞向量預(yù)訓(xùn)練方案與基于Word2Vec的詞向量預(yù)訓(xùn)練方案相比,效果更好,在測試集上的ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別為32.57%,9.17%,25.70%。在跨語言自動摘要任務(wù)中,本學(xué)位論文提出的跨語言自動摘要方法在測試集上的實驗結(jié)果良好,在六個跨語言自動摘要實驗中,ROUGE-1指標(biāo)平均為23.30%,ROUGE-2指標(biāo)平均為4.93%,ROUGE-L指標(biāo)平均為19.47%。本學(xué)位論文開發(fā)的多語種自動摘要系統(tǒng),能滿足東北亞地區(qū)科技工作者的實際需求,提高人們閱讀文獻(xiàn)的效率。
【圖文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑圖3-2中,由于Seq2Seq模型在輸出端的每一步實際上是一個多分類任務(wù),逡逑可以用準(zhǔn)確率來衡量模型訓(xùn)練結(jié)果的好壞。橫軸表示模型在訓(xùn)練集上次數(shù)epoch,縱軸表示準(zhǔn)確率和loss。按照從下往上的順序,最下面有三逡逑的曲線先上升后下降,表示的是模型訓(xùn)練過程中在驗證集上的準(zhǔn)確率。逡逑有正方形的曲線一直在上升,表示的是模型在訓(xùn)練集上的準(zhǔn)確率。再往逡逑圓形的曲線一直在下降,表示的是模型在訓(xùn)練集上的loss(損失函數(shù))。最逡逑有“X”的曲線先下降后上升,表示的是模型在驗證集上的loss。逡逑epoch的值太大,模型容易過擬合,epoch值太小,模型會處于欠擬合從圖3-2中可以看出,epoch=15時,模型在驗證集上的準(zhǔn)確率最高,,los。此時,模型達(dá)到了最佳狀態(tài)。因此本文的實驗中epoch的值設(shè)為15。逡逑在生成式自動摘要任務(wù)中,注意力機制使用的是2.3.2節(jié)中介紹的逡逑anau等人提出的Attention邋Mechanism。本文實驗一、二、二和四中的詞逡逑維度設(shè)置為100,LSTM和GRU隱層大小設(shè)置為100,訓(xùn)練過程中逡逑_size的值設(shè)為64,在訓(xùn)練集上迭代的次數(shù)epoch設(shè)為15。其中有關(guān)單逡逑自動摘要的實驗(實驗一、二和三)都是在中文語料上進(jìn)行訓(xùn)練的,跨語言逡逑
4.4.1后臺管理模塊測試逡逑多語種自動摘要系統(tǒng)的后臺管理模塊首頁如圖4-5所示,該頁面負(fù)責(zé)顯示逡逑后臺數(shù)據(jù)庫中的數(shù)據(jù),為用戶提供添加數(shù)據(jù),修改數(shù)據(jù),刪除數(shù)據(jù)和訓(xùn)練模逡逑型的功能。逡逑
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
本文編號:2677857
【圖文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑圖3-2中,由于Seq2Seq模型在輸出端的每一步實際上是一個多分類任務(wù),逡逑可以用準(zhǔn)確率來衡量模型訓(xùn)練結(jié)果的好壞。橫軸表示模型在訓(xùn)練集上次數(shù)epoch,縱軸表示準(zhǔn)確率和loss。按照從下往上的順序,最下面有三逡逑的曲線先上升后下降,表示的是模型訓(xùn)練過程中在驗證集上的準(zhǔn)確率。逡逑有正方形的曲線一直在上升,表示的是模型在訓(xùn)練集上的準(zhǔn)確率。再往逡逑圓形的曲線一直在下降,表示的是模型在訓(xùn)練集上的loss(損失函數(shù))。最逡逑有“X”的曲線先下降后上升,表示的是模型在驗證集上的loss。逡逑epoch的值太大,模型容易過擬合,epoch值太小,模型會處于欠擬合從圖3-2中可以看出,epoch=15時,模型在驗證集上的準(zhǔn)確率最高,,los。此時,模型達(dá)到了最佳狀態(tài)。因此本文的實驗中epoch的值設(shè)為15。逡逑在生成式自動摘要任務(wù)中,注意力機制使用的是2.3.2節(jié)中介紹的逡逑anau等人提出的Attention邋Mechanism。本文實驗一、二、二和四中的詞逡逑維度設(shè)置為100,LSTM和GRU隱層大小設(shè)置為100,訓(xùn)練過程中逡逑_size的值設(shè)為64,在訓(xùn)練集上迭代的次數(shù)epoch設(shè)為15。其中有關(guān)單逡逑自動摘要的實驗(實驗一、二和三)都是在中文語料上進(jìn)行訓(xùn)練的,跨語言逡逑
4.4.1后臺管理模塊測試逡逑多語種自動摘要系統(tǒng)的后臺管理模塊首頁如圖4-5所示,該頁面負(fù)責(zé)顯示逡逑后臺數(shù)據(jù)庫中的數(shù)據(jù),為用戶提供添加數(shù)據(jù),修改數(shù)據(jù),刪除數(shù)據(jù)和訓(xùn)練模逡逑型的功能。逡逑
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 王連喜;;自動摘要研究中的若干問題[J];圖書情報工作;2014年20期
2 羅永蓮;趙昌垣;;突發(fā)事件新聞標(biāo)題與正文提取方法[J];計算機應(yīng)用;2014年10期
3 蔣效宇;;基于關(guān)鍵詞抽取的自動文摘算法[J];計算機工程;2012年03期
4 吳曉鋒;宗成慶;;一種基于LDA的CRF自動文摘方法[J];中文信息學(xué)報;2009年06期
相關(guān)碩士學(xué)位論文 前1條
1 曹洋;基于TextRank算法的單文檔自動文摘研究[D];南京大學(xué);2016年
本文編號:2677857
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2677857.html
最近更新
教材專著