基于深度學(xué)習(xí)的多語種自動摘要系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2020-05-23 19:43

【摘要】：隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,國際間的交流日益頻繁,人們在生活中每天都被大量的信息包圍,如何高效地挑選出自己最需要的信息變得愈發(fā)重要。自動摘要是解決信息爆炸問題的關(guān)鍵技術(shù),跨語言自動摘要技術(shù)可以讓人們快速瀏覽多國文獻(xiàn),幫助人們迅速了解世界上不同國家和地區(qū)的信息,具有重要的研究價值和應(yīng)用價值。本文實現(xiàn)的多語種自動摘要系統(tǒng)主要有單語種自動摘要和跨語言自動摘要兩個功能,可以處理中、英、朝三種語言的科技文獻(xiàn)短文本。基于RNNLM模型,本學(xué)位論文提出預(yù)訓(xùn)練詞向量的單語種自動摘要方法,對某種語言的文本生成相同語種的摘要;基于Seq2Seq模型,本學(xué)位論文提出一種不需要機器翻譯的跨語言自動摘要方法,可以對某種語言的文本直接生成另一種語言的摘要。首先,整理科技文獻(xiàn)的摘要和標(biāo)題,構(gòu)建中、朝、英三種語言的平行語料庫。使用不同的循環(huán)體結(jié)構(gòu)和不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),觀察模型在測試集上的表現(xiàn)。同時以加入Attention機制的Seq2Seq模型為基礎(chǔ),分別使用Word2Vec和RNNLM對詞向量進(jìn)行預(yù)訓(xùn)練,觀察模型在測試集上的表現(xiàn)。其次,利用中、朝、英平行語料庫,使用基于Seq2Seq模型的訓(xùn)練方案,實現(xiàn)無需借助機器翻譯技術(shù)的跨語言生成式自動摘要,模型可以對一種語言的文本直接生成另一種語言的摘要。最后,設(shè)計并實現(xiàn)基于Django框架的多語種生成式自動摘要系統(tǒng),介紹系統(tǒng)的總體設(shè)計和各個功能模塊,展示系統(tǒng)的單語種自動摘要功能和跨語言自動摘要功能。實驗結(jié)果表明,在單語種自動摘要任務(wù)中,本學(xué)位論文提出的基于RNNLM的詞向量預(yù)訓(xùn)練方案與基于Word2Vec的詞向量預(yù)訓(xùn)練方案相比,效果更好,在測試集上的ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別為32.57%,9.17%,25.70%。在跨語言自動摘要任務(wù)中,本學(xué)位論文提出的跨語言自動摘要方法在測試集上的實驗結(jié)果良好,在六個跨語言自動摘要實驗中,ROUGE-1指標(biāo)平均為23.30%,ROUGE-2指標(biāo)平均為4.93%,ROUGE-L指標(biāo)平均為19.47%。本學(xué)位論文開發(fā)的多語種自動摘要系統(tǒng),能滿足東北亞地區(qū)科技工作者的實際需求,提高人們閱讀文獻(xiàn)的效率。
【圖文】：

曲線,實驗結(jié)果,準(zhǔn)確率,訓(xùn)練集

Ｆｉｇ．邋３－２邋Ｅｘｐｅｒｉｍｅｎｔａｌ邋ｒｅｓｕｌｔｓ邋ｏｆ邋ｄｉｆｆｅｒｅｎｔ邋ｅｐｏｃｈ逡逑圖３－２中，由于Ｓｅｑ２Ｓｅｑ模型在輸出端的每一步實際上是一個多分類任務(wù)，逡逑可以用準(zhǔn)確率來衡量模型訓(xùn)練結(jié)果的好壞。橫軸表示模型在訓(xùn)練集上次數(shù)ｅｐｏｃｈ，縱軸表示準(zhǔn)確率和ｌｏｓｓ。按照從下往上的順序，最下面有三逡逑的曲線先上升后下降，表示的是模型訓(xùn)練過程中在驗證集上的準(zhǔn)確率。逡逑有正方形的曲線一直在上升，表示的是模型在訓(xùn)練集上的準(zhǔn)確率。再往逡逑圓形的曲線一直在下降，表示的是模型在訓(xùn)練集上的ｌｏｓｓ（損失函數(shù)）。最逡逑有“Ｘ”的曲線先下降后上升，表示的是模型在驗證集上的ｌｏｓｓ。逡逑ｅｐｏｃｈ的值太大，模型容易過擬合，ｅｐｏｃｈ值太小，模型會處于欠擬合從圖３－２中可以看出，ｅｐｏｃｈ＝１５時，模型在驗證集上的準(zhǔn)確率最高，，ｌｏｓ。此時，模型達(dá)到了最佳狀態(tài)。因此本文的實驗中ｅｐｏｃｈ的值設(shè)為１５。逡逑在生成式自動摘要任務(wù)中，注意力機制使用的是２．３．２節(jié)中介紹的逡逑ａｎａｕ等人提出的Ａｔｔｅｎｔｉｏｎ邋Ｍｅｃｈａｎｉｓｍ。本文實驗一、二、二和四中的詞逡逑維度設(shè)置為１00，ＬＳＴＭ和ＧＲＵ隱層大小設(shè)置為１００，訓(xùn)練過程中逡逑＿ｓｉｚｅ的值設(shè)為６４，在訓(xùn)練集上迭代的次數(shù)ｅｐｏｃｈ設(shè)為１５。其中有關(guān)單逡逑自動摘要的實驗（實驗一、二和三）都是在中文語料上進(jìn)行訓(xùn)練的，跨語言逡逑

后臺管理,首頁,模塊,多語種

４．４．１后臺管理模塊測試逡逑多語種自動摘要系統(tǒng)的后臺管理模塊首頁如圖４－５所示，該頁面負(fù)責(zé)顯示逡逑后臺數(shù)據(jù)庫中的數(shù)據(jù)，為用戶提供添加數(shù)據(jù)，修改數(shù)據(jù)，刪除數(shù)據(jù)和訓(xùn)練模逡逑型的功能。逡逑
【學(xué)位授予單位】：延邊大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：TP391.1;TP18

【參考文獻(xiàn)】

相關(guān)期刊論文前4條

1 王連喜;;自動摘要研究中的若干問題[J];圖書情報工作;2014年20期

2 羅永蓮;趙昌垣;;突發(fā)事件新聞標(biāo)題與正文提取方法[J];計算機應(yīng)用;2014年10期

3 蔣效宇;;基于關(guān)鍵詞抽取的自動文摘算法[J];計算機工程;2012年03期

4 吳曉鋒;宗成慶;;一種基于LDA的CRF自動文摘方法[J];中文信息學(xué)報;2009年06期

相關(guān)碩士學(xué)位論文前1條

1 曹洋;基于TextRank算法的單文檔自動文摘研究[D];南京大學(xué);2016年

本文編號：2677857

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2677857.html

上一篇：基于滑模變結(jié)構(gòu)的Dobot機械臂軌跡跟蹤控制研究
下一篇：基于大數(shù)據(jù)平臺的惡意IP分類算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的多語種自動摘要系統(tǒng)的研究與實現(xiàn)