基于主題注意力機(jī)制的中文古典詩歌自動生成研究
發(fā)布時間:2020-06-12 18:53
【摘要】:中國古典詩歌是傳統(tǒng)文化的瑰寶,但隨著現(xiàn)代社會的發(fā)展,普通人想要學(xué)習(xí)和創(chuàng)作詩歌的有很大的難度。因此利用自然語言處理技術(shù)進(jìn)行古典詩歌自動生成研究,在弘揚(yáng)和繼承中國的傳統(tǒng)文化、探索機(jī)器藝術(shù)創(chuàng)作等方面都很有意義。本文采用深度學(xué)習(xí)和自然語言處理技術(shù),研究中文古典詩歌的自動生成問題。我們的主要工作和創(chuàng)新點(diǎn)是:(1)為了解決詩歌生成訓(xùn)練語料的自動構(gòu)建,以及當(dāng)前很多成功的系統(tǒng)很難基于現(xiàn)代概念生成相應(yīng)詩歌的問題。我們先是采用了詩歌數(shù)據(jù)集增強(qiáng)策略,借助現(xiàn)有的文言文機(jī)器翻譯系統(tǒng)構(gòu)建出現(xiàn)代文到古詩文的“平行語料”。同時,考慮到文本生成的輸入一般是對輸出內(nèi)容的高度概括。我們提出了基于結(jié)構(gòu)化語義匹配框架的關(guān)鍵詞提取方法。首先我們將譯文中的詞和古詩句表示成分布式語義向量,再將譯文中的詞和對應(yīng)詩句的看作語義向量匹配問題。這里,我們第一次將數(shù)據(jù)集增強(qiáng)策略遷移到了詩歌生成任務(wù)中來;其次,我們提出的結(jié)構(gòu)化語義匹配模型為關(guān)鍵詞提取提供了 一種新思路。(2)目前很多系統(tǒng)生成的詩歌通常沒有統(tǒng)一的主題,詩句的語義連貫性也很差。在文本中,我們通常把能夠概括思想意圖的叫做主題,主題可以由若干關(guān)鍵詞表示。基于這樣的常識,我們提出了基于主題注意力機(jī)制的詩歌生成模型。我們改造了傳統(tǒng)的編碼器-解碼器框架,使其可以同時編碼關(guān)鍵詞序列和歷史生成內(nèi)容。我們首次提出在編碼器端采用基于主題注意力機(jī)制的關(guān)鍵詞加權(quán)平均方法,來保證生成詩歌與用戶意圖的主題一致性。并將主題注意力機(jī)制成功的運(yùn)用于關(guān)鍵詞的提取模塊中?偟膩碚f,我們很好的解決了模型訓(xùn)練語料的缺乏和詩歌生成系統(tǒng)很難基于現(xiàn)代概念生成相應(yīng)詩歌的問題。并在一定程度上解決了生成詩歌的主題漂移和詩句的語義連貫問題。實(shí)驗(yàn)結(jié)果表明,我們的主題注意力機(jī)制對生成詩歌的質(zhì)量有著顯著的提升。同時,在與PPG模型的對比實(shí)驗(yàn)中,我們的模型也表現(xiàn)出了更好的性能。
【圖文】:
基于主題注意力機(jī)制的中文古典詩歌自動生成研究邐逡逑基于序列生成對抗網(wǎng)絡(luò)的方法逡逑寺11」提出的基于梯度g?略的序列生成對抗網(wǎng)絡(luò)(Sequence邋Generative逡逑arial邋Nets)將序列生成過程當(dāng)作一個序列決策的過程。將誤差作為一種X楀義系慕崩砸恢智襖〉姆絞窖盜罰,用澡帀ě习的探索模曙湧更新生迟p紜e義希保八荊蛄猩啥鑰雇綈礁瞿P停桓鏨贍P停牽濉讎斜皰義。辶x
本文編號:2709955
【圖文】:
基于主題注意力機(jī)制的中文古典詩歌自動生成研究邐逡逑基于序列生成對抗網(wǎng)絡(luò)的方法逡逑寺11」提出的基于梯度g?略的序列生成對抗網(wǎng)絡(luò)(Sequence邋Generative逡逑arial邋Nets)將序列生成過程當(dāng)作一個序列決策的過程。將誤差作為一種X楀義系慕崩砸恢智襖〉姆絞窖盜罰,用澡帀ě习的探索模曙湧更新生迟p紜e義希保八荊蛄猩啥鑰雇綈礁瞿P停桓鏨贍P停牽濉讎斜皰義。辶x
本文編號:2709955
本文鏈接:http://sikaile.net/gudaiwenxuelunwen/2709955.html