天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的中文自動摘要生成

發(fā)布時間:2020-03-30 18:21
【摘要】:互聯(lián)網(wǎng)中日益增長的文本數(shù)據(jù)導致人們需要花費更多時間用于篩選和甄別文本中的關鍵信息。自動摘要技術作為一種從長文本中獲取關鍵信息的方法,能夠降低信息爆炸時代人們信息獲取的時間成本,引起越來越多研究者的關注。自動文摘技術按照生成方式可以分為抽取式摘要和生成式摘要,抽取式摘要技術只能依賴原有文本內(nèi)容,具有局限性。生成式摘要技術具有較高的靈活性,但在中文摘要生成時仍然有文本初始化難以保持足夠信息,高質(zhì)量數(shù)據(jù)難以獲取等困難。本文通過一系列自然語言處理技術,能夠生成更加簡明、準確的中文摘要。首先,為了給編碼器提供更好的文本向量作為輸入,保證文本向量包含足夠的語義信息,本文受到Fasttext模型在英文中能夠捕獲單詞前綴和后綴信息的啟發(fā),針對中文的結構特點提出基于筆畫的文本向量編碼。我們使用這種編碼方法,構造筆畫字典,通過Skip-Gram模型,構成文本向量,完成對漢字部件信息更細致的表示任務。其次,在對在文本生成上主要使用Seq2Seq模型加以優(yōu)化,主要包括在編碼器中使用Bi-LSTM,在一定程度上解決了長序列文本信息丟失以及從后往前信息的補充問題,使用Attention機制捕獲輸入與輸出詞之間的關聯(lián)強弱性,并在測試階段的解碼器中使用Beam Search優(yōu)化序列的生成效果。本文基于LCSTS數(shù)據(jù)集訓練模型,通過Rouge評分和人工判斷兩個方面證實我們的編碼方法和模型在文本摘要可讀性上有所提升。
【圖文】:

折線圖,字典,解碼器,常用詞


(c) Rouge-L 評分圖 5.1 解碼器字典大小對于 Rouge 評分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評分中包含的詞越全面,模型的效果越好。結合折線圖來看 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間式提升。大小是影響測試階段模型輸出效果的重要因素,字典過字典過大則影響生成摘要的速度,影響模型效率。圖 5碼時間的關系。

折線圖,單句,郵箱,解碼器


(c) Rouge-L 評分圖 5.1 解碼器字典大小對于 Rouge 評分的影響字典的大小從 2K 上升到 11K 的過程中,Rouge-N 的評分都有中包含的詞越全面,模型的效果越好。結合折線圖來看,,三 2k 到 8k 的過程中,出現(xiàn)最多有一倍的效果提升,主要原因是夠多的常用詞語,漢語常用詞的詞匯量在 5k 到 8k 之間。因式提升。大小是影響測試階段模型輸出效果的重要因素,字典過小會字典過大則影響生成摘要的速度,影響模型效率。圖 5.2 展碼時間的關系。
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP18

【相似文獻】

相關期刊論文 前10條

1 陳爾聃;;文本自動摘要的遷移學習技術[J];數(shù)碼世界;2018年12期

2 劉茂福;余博;胡慧君;;基于維基百科的多文檔自動摘要系統(tǒng)研究[J];微型機與應用;2011年16期

3 仇麗青;李偉明;;上下文敏感的多文檔自動摘要生成方法[J];計算機工程;2010年21期

4 洪田玉;陳志剛;;一種跨語言的自動摘要技術[J];電腦與信息技術;2009年04期

5 郭琳虹;張小松;;文本自動摘要的方法研究[J];福建電腦;2008年06期

6 ;中英文自動摘要系統(tǒng)軟件問世[J];情報理論與實踐;2001年01期

7 王永成;劉功申;劉傳漢;胡佩華;孫展;;論文本的自動摘要[J];中國索引;2003年02期

8 唐建權;何洪波;王閏強;;一種基于聚類的文章自動摘要方法及實現(xiàn)[J];科研信息化技術與應用;2019年01期

9 彭敏;高斌龍;黃濟民;劉紀平;;基于高質(zhì)量信息提取的微博自動摘要[J];計算機工程;2015年07期

10 劉思佳;;內(nèi)容自動摘要系統(tǒng)的研究[J];數(shù)碼世界;2019年04期

相關會議論文 前10條

1 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應主題融合的多文檔自動摘要算法[A];2013年中國智能自動化學術會議論文集(第五分冊)[C];2013年

2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術的文本自動摘要研究[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年

3 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動摘要中的應用[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2004年

4 李芳;何婷婷;;面向查詢的多模式自動摘要研究[A];第五屆全國青年計算語言學研討會論文集[C];2010年

5 王荀;李素建;宋濤;姜伯平;;服務于內(nèi)容側面發(fā)現(xiàn)的框架識別[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

6 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動摘要[A];第五屆全國信息檢索學術會議論文集[C];2009年

7 章彥星;張銘;鄧志鴻;;基于特征的用戶評論自動摘要[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年

8 王嬋;李靜;王棟;程杰;來風剛;;互聯(lián)網(wǎng)輿論收集與分析系統(tǒng)[A];2015電力行業(yè)信息化年會論文集[C];2015年

9 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國信息檢索學術會議論文集[C];2009年

10 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動文摘系統(tǒng)實現(xiàn)方法[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年

相關重要報紙文章 前4條

1 橫舟;你愛機器,但它不會愛你[N];檢察日報;2017年

2 記者 周蓉蓉 薛海濱 龔杰;IBM軟件強勢出擊[N];計算機世界;2003年

3 本報記者 胡珉琦;一本AI寫作的科研綜述 你讀嗎[N];中國科學報;2019年

4 本報記者 張彤;讓計算機說中國話[N];網(wǎng)絡世界;2004年

相關博士學位論文 前9條

1 王勇臻;基于深度學習的學術文獻自動摘要方法研究[D];大連海事大學;2018年

2 張世博;面向網(wǎng)絡評論信息的自動摘要技術研究與應用[D];北京郵電大學;2019年

3 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國科學技術大學;2006年

4 鄭義;多媒體信息自動摘要及其相關技術研究[D];復旦大學;2003年

5 劉娜;文本自動摘要和信息抽取方法及其應用研究[D];大連海事大學;2012年

6 趙燁;大規(guī)模圖像集自動摘要技術研究[D];合肥工業(yè)大學;2014年

7 生龍;二型模糊系統(tǒng)理論及應用[D];電子科技大學;2012年

8 溫源;互聯(lián)網(wǎng)文本信息挖掘與個性化推薦的研究[D];北京交通大學;2014年

9 李梅;文本挖掘中若干關鍵技術研究[D];西北農(nóng)林科技大學;2016年

相關碩士學位論文 前10條

1 柳斌;基于深度學習的中文自動摘要生成[D];南京郵電大學;2019年

2 趙君;基于TextRank算法的中文文獻自動摘要提取研究[D];華中科技大學;2019年

3 肖樹一;基于指針生成網(wǎng)絡模型的自動摘要研究[D];山東科技大學;2018年

4 楊成榮;基于門控卷積神經(jīng)網(wǎng)絡的代碼自動摘要算法[D];云南大學;2019年

5 易志偉;基于深度學習的多語種自動摘要系統(tǒng)的研究與實現(xiàn)[D];延邊大學;2019年

6 賈星宇;基于深度學習的短文自動摘要生成算法研究[D];西安科技大學;2019年

7 李偉男;基于深度學習的新聞自動摘要技術[D];西安電子科技大學;2019年

8 王帥;面向長文本的兩階段自動摘要算法關鍵技術研究[D];國防科技大學;2017年

9 陳達;基于TextRank和Word2Vec的短文本自動摘要算法研究[D];武漢理工大學;2018年

10 董晨西;基于深度學習的短文本自動摘要方法研究[D];北京郵電大學;2019年



本文編號:2607883

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2607883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶11227***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com