基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究
發(fā)布時(shí)間:2021-02-24 10:16
詩(shī)歌是一種凝練而特別的文學(xué)形式,中國(guó)傳統(tǒng)詩(shī)歌作為我國(guó)重要的文化遺產(chǎn),體現(xiàn)了勞動(dòng)人民非凡的智慧和創(chuàng)造力。絕句是中國(guó)傳統(tǒng)詩(shī)歌中具有代表性的詩(shī)歌體裁,其在結(jié)構(gòu)、平仄、押韻等方面都有嚴(yán)格的要求。創(chuàng)作一首合格的絕句對(duì)于普通人來(lái)說(shuō)并不是件容易的事情,而對(duì)于計(jì)算機(jī)來(lái)說(shuō),如何自動(dòng)生成絕句同樣是充滿挑戰(zhàn)的課題。對(duì)絕句自動(dòng)生成的研究,一方面可以降低詩(shī)歌創(chuàng)作門(mén)檻,讓普通民眾感受詩(shī)歌創(chuàng)作的魅力,有利于中華傳統(tǒng)文化的傳承;另一方面,絕句生成的研究讓計(jì)算機(jī)進(jìn)行文學(xué)創(chuàng)作成為可能,將給傳統(tǒng)詩(shī)人及詩(shī)歌研究人員帶來(lái)沖擊,一定程度上將促進(jìn)中國(guó)傳統(tǒng)詩(shī)歌的創(chuàng)新與發(fā)展;同時(shí)絕句生成作為自然語(yǔ)言處理領(lǐng)域一項(xiàng)特別且有趣的研究,可啟發(fā)其他文本類型的生成研究,促進(jìn)自然語(yǔ)言處理相關(guān)技術(shù)的發(fā)展。因此對(duì)絕句生成的研究具有現(xiàn)實(shí)意義。絕句等體裁詩(shī)歌生成的研究,經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個(gè)階段,前兩類方法生成的詩(shī)歌通常需要人工參與,且常出現(xiàn)較低級(jí)的錯(cuò)誤,而隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的方法在詩(shī)歌生成中表現(xiàn)優(yōu)異,成為了主流。本文在現(xiàn)有絕句生成方法基礎(chǔ)上,針對(duì)絕句生成中主題漂移、語(yǔ)義不連貫等...
【文章來(lái)源】:江西師范大學(xué)江西省
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
孟浩然五言絕句《春曉》
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究52基于關(guān)鍵詞轉(zhuǎn)換擴(kuò)展的絕句生成模型設(shè)計(jì)2.1絕句生成問(wèn)題描述本文絕句生成的研究基于深度學(xué)習(xí)技術(shù),其整體流程如圖2-1。圖2-1:基于深度學(xué)習(xí)技術(shù)的絕句生成整體流程圖在絕句生成的研究中,首先對(duì)絕句數(shù)據(jù)集進(jìn)行收集整理;特征工程階段對(duì)絕句數(shù)據(jù)進(jìn)行文本表示,接著將收集的絕句數(shù)據(jù)預(yù)處理,讓計(jì)算機(jī)可以更好的理解處理絕句數(shù)據(jù);然后將數(shù)據(jù)分為測(cè)試集、訓(xùn)練集和驗(yàn)證集,使用訓(xùn)練集對(duì)深度學(xué)習(xí)模型進(jìn)行迭代訓(xùn)練,得到絕句生成最優(yōu)模型;驗(yàn)證集用于驗(yàn)證模型的性能;測(cè)試集用于對(duì)訓(xùn)練完成的絕句生成模型進(jìn)行測(cè)試評(píng)價(jià)。2.2相關(guān)工作絕句是中國(guó)傳統(tǒng)詩(shī)歌中具有代表性的詩(shī)歌體裁,對(duì)于絕句生成相關(guān)工作的研究,可看作是詩(shī)歌生成相關(guān)工作的研究,因此本節(jié)對(duì)基于深度學(xué)習(xí)技術(shù)的絕句生成相關(guān)工作的闡述主要從詩(shī)歌生成相關(guān)工作進(jìn)行闡述。20世紀(jì)60年代,國(guó)外便出現(xiàn)了詩(shī)歌生成的相關(guān)研究,而國(guó)內(nèi)對(duì)于相關(guān)研究相對(duì)起步較晚,直到20世紀(jì)90年代才出現(xiàn)中文詩(shī)歌的生成研究,在將近60年的不斷研究探索過(guò)程中,涌現(xiàn)了許多方法,詩(shī)歌生成的研究大致經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個(gè)階段。基于規(guī)則和模板的生成方法階段主要有基于模板的方法[6][7][8]、基于實(shí)例推理的方法[9],這類方法更多的是通過(guò)模板設(shè)定進(jìn)行填空組合生成,生成的詩(shī)歌很不連貫,甚至不能稱作傳統(tǒng)意義上的詩(shī)歌。在基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段,周昌樂(lè)等人在宋詞生成中引入遺傳算法,把宋詞生成看作是最優(yōu)化問(wèn)題[10];Yan等人把
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究9圖2-2:基于關(guān)鍵詞轉(zhuǎn)換擴(kuò)展的絕句生成模型框架圖2.3.1關(guān)鍵詞轉(zhuǎn)換在關(guān)鍵詞轉(zhuǎn)換階段,用戶可輸入任意文本序列作為寫(xiě)作意圖,該文本序列可以是一個(gè)主題詞、一個(gè)句子或是一段話。在以往的詩(shī)歌生成中[17],關(guān)鍵詞提取階段將從用戶輸入文本序列中提取出多個(gè)關(guān)鍵詞,使得關(guān)鍵詞數(shù)量與詩(shī)歌總行數(shù)相同,若不夠再進(jìn)行關(guān)鍵詞擴(kuò)展,達(dá)到關(guān)鍵詞與詩(shī)歌總行數(shù)相等。該模型在提取多個(gè)主題詞時(shí),易造成寫(xiě)作意圖表達(dá)不明確的問(wèn)題,如在PPG模型中當(dāng)輸入句子“春天像一位姑娘,踏著輕盈的腳步來(lái)了”,經(jīng)過(guò)關(guān)鍵詞提取,將提取出“春天”、“姑娘”兩個(gè)關(guān)鍵詞,再經(jīng)過(guò)主題詞擴(kuò)展,生成詩(shī)歌。這句話主題關(guān)鍵詞應(yīng)該是“春天”,但因?yàn)槟P瓦x擇多個(gè)主題詞,“姑娘”和“春天”相關(guān)性低,因此容易造成主題偏離問(wèn)題,同時(shí)提取的主題詞過(guò)于白話文,不利于后續(xù)詩(shī)歌生成。而本文提出的KTEQG絕句生成模型在用戶寫(xiě)作意圖關(guān)鍵詞(主題詞)提取時(shí),為了明確寫(xiě)作主題,只提取評(píng)分最高的唯一關(guān)鍵詞。因確定的唯一關(guān)鍵詞容易出現(xiàn)白話文詞語(yǔ),其與詩(shī)詞預(yù)料庫(kù)中的古文詞語(yǔ)不匹配,不利于子主題詞生成和詩(shī)歌的生成,因此確定唯一關(guān)鍵詞后,還將進(jìn)行文言文詞語(yǔ)轉(zhuǎn)換,確定唯一文言文主題關(guān)鍵字詞。下面將對(duì)主題關(guān)鍵詞提取及轉(zhuǎn)換的具體實(shí)現(xiàn)進(jìn)行介紹。關(guān)鍵詞提取主要目標(biāo)是從文本中自動(dòng)提取出可以表示文本內(nèi)容的詞語(yǔ)。關(guān)鍵詞提取可分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督的方法[22],有監(jiān)督方法將關(guān)鍵詞提取看作二元分類的問(wèn)題,該方法須先提供已標(biāo)注關(guān)鍵詞的訓(xùn)練語(yǔ)料,然后才能對(duì)關(guān)鍵詞進(jìn)行判斷提取,也就是說(shuō)要先通過(guò)語(yǔ)料訓(xùn)練獲得關(guān)鍵詞提取模型,然后再基于模型進(jìn)行關(guān)鍵詞提齲半監(jiān)督方法需要人工參與,非全自動(dòng)的實(shí)現(xiàn),無(wú)需大量的訓(xùn)練數(shù)據(jù),只需部分語(yǔ)?
【參考文獻(xiàn)】:
期刊論文
[1]論詩(shī)歌評(píng)價(jià)的標(biāo)準(zhǔn):從柏拉圖到朱光潛[J]. 王改娣. 英美文學(xué)研究論叢. 2019(02)
[2]基于古詩(shī)文知識(shí)圖譜的詩(shī)詞創(chuàng)作系統(tǒng)[J]. 李星宇,王麗娟. 計(jì)算機(jī)產(chǎn)品與流通. 2019(04)
[3]唐詩(shī)宋詞賞析——中國(guó)古典詩(shī)歌的鑒賞藝術(shù)[J]. 梅敬忠. 領(lǐng)導(dǎo)科學(xué)論壇. 2018(16)
[4]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周?chē)?guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[5]從圖靈測(cè)試到深度學(xué)習(xí):人工智能60年[J]. 萬(wàn)赟. 科技導(dǎo)報(bào). 2016(07)
[6]空間信息的自然語(yǔ)言表達(dá)模型[J]. 杜清運(yùn),任福. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(06)
[7]自然語(yǔ)言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
[8]一種宋詞自動(dòng)生成的遺傳算法及其機(jī)器實(shí)現(xiàn)[J]. 周昌樂(lè),游維,丁曉君. 軟件學(xué)報(bào). 2010(03)
碩士論文
[1]唐絕句章法藝術(shù)研究[D]. 馮佳寧.南京師范大學(xué) 2018
[2]基于深度學(xué)習(xí)技術(shù)的中國(guó)傳統(tǒng)詩(shī)歌生成方法研究[D]. 王哲.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[3]基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的中文文本情感分析[D]. 李丹.北京郵電大學(xué) 2017
[4]基于TextRank算法的單文檔自動(dòng)文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號(hào):3049219
【文章來(lái)源】:江西師范大學(xué)江西省
【文章頁(yè)數(shù)】:54 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
孟浩然五言絕句《春曉》
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究52基于關(guān)鍵詞轉(zhuǎn)換擴(kuò)展的絕句生成模型設(shè)計(jì)2.1絕句生成問(wèn)題描述本文絕句生成的研究基于深度學(xué)習(xí)技術(shù),其整體流程如圖2-1。圖2-1:基于深度學(xué)習(xí)技術(shù)的絕句生成整體流程圖在絕句生成的研究中,首先對(duì)絕句數(shù)據(jù)集進(jìn)行收集整理;特征工程階段對(duì)絕句數(shù)據(jù)進(jìn)行文本表示,接著將收集的絕句數(shù)據(jù)預(yù)處理,讓計(jì)算機(jī)可以更好的理解處理絕句數(shù)據(jù);然后將數(shù)據(jù)分為測(cè)試集、訓(xùn)練集和驗(yàn)證集,使用訓(xùn)練集對(duì)深度學(xué)習(xí)模型進(jìn)行迭代訓(xùn)練,得到絕句生成最優(yōu)模型;驗(yàn)證集用于驗(yàn)證模型的性能;測(cè)試集用于對(duì)訓(xùn)練完成的絕句生成模型進(jìn)行測(cè)試評(píng)價(jià)。2.2相關(guān)工作絕句是中國(guó)傳統(tǒng)詩(shī)歌中具有代表性的詩(shī)歌體裁,對(duì)于絕句生成相關(guān)工作的研究,可看作是詩(shī)歌生成相關(guān)工作的研究,因此本節(jié)對(duì)基于深度學(xué)習(xí)技術(shù)的絕句生成相關(guān)工作的闡述主要從詩(shī)歌生成相關(guān)工作進(jìn)行闡述。20世紀(jì)60年代,國(guó)外便出現(xiàn)了詩(shī)歌生成的相關(guān)研究,而國(guó)內(nèi)對(duì)于相關(guān)研究相對(duì)起步較晚,直到20世紀(jì)90年代才出現(xiàn)中文詩(shī)歌的生成研究,在將近60年的不斷研究探索過(guò)程中,涌現(xiàn)了許多方法,詩(shī)歌生成的研究大致經(jīng)歷了基于規(guī)則和模板的生成方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三個(gè)階段。基于規(guī)則和模板的生成方法階段主要有基于模板的方法[6][7][8]、基于實(shí)例推理的方法[9],這類方法更多的是通過(guò)模板設(shè)定進(jìn)行填空組合生成,生成的詩(shī)歌很不連貫,甚至不能稱作傳統(tǒng)意義上的詩(shī)歌。在基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)階段,周昌樂(lè)等人在宋詞生成中引入遺傳算法,把宋詞生成看作是最優(yōu)化問(wèn)題[10];Yan等人把
基于深度學(xué)習(xí)技術(shù)的絕句生成方法研究9圖2-2:基于關(guān)鍵詞轉(zhuǎn)換擴(kuò)展的絕句生成模型框架圖2.3.1關(guān)鍵詞轉(zhuǎn)換在關(guān)鍵詞轉(zhuǎn)換階段,用戶可輸入任意文本序列作為寫(xiě)作意圖,該文本序列可以是一個(gè)主題詞、一個(gè)句子或是一段話。在以往的詩(shī)歌生成中[17],關(guān)鍵詞提取階段將從用戶輸入文本序列中提取出多個(gè)關(guān)鍵詞,使得關(guān)鍵詞數(shù)量與詩(shī)歌總行數(shù)相同,若不夠再進(jìn)行關(guān)鍵詞擴(kuò)展,達(dá)到關(guān)鍵詞與詩(shī)歌總行數(shù)相等。該模型在提取多個(gè)主題詞時(shí),易造成寫(xiě)作意圖表達(dá)不明確的問(wèn)題,如在PPG模型中當(dāng)輸入句子“春天像一位姑娘,踏著輕盈的腳步來(lái)了”,經(jīng)過(guò)關(guān)鍵詞提取,將提取出“春天”、“姑娘”兩個(gè)關(guān)鍵詞,再經(jīng)過(guò)主題詞擴(kuò)展,生成詩(shī)歌。這句話主題關(guān)鍵詞應(yīng)該是“春天”,但因?yàn)槟P瓦x擇多個(gè)主題詞,“姑娘”和“春天”相關(guān)性低,因此容易造成主題偏離問(wèn)題,同時(shí)提取的主題詞過(guò)于白話文,不利于后續(xù)詩(shī)歌生成。而本文提出的KTEQG絕句生成模型在用戶寫(xiě)作意圖關(guān)鍵詞(主題詞)提取時(shí),為了明確寫(xiě)作主題,只提取評(píng)分最高的唯一關(guān)鍵詞。因確定的唯一關(guān)鍵詞容易出現(xiàn)白話文詞語(yǔ),其與詩(shī)詞預(yù)料庫(kù)中的古文詞語(yǔ)不匹配,不利于子主題詞生成和詩(shī)歌的生成,因此確定唯一關(guān)鍵詞后,還將進(jìn)行文言文詞語(yǔ)轉(zhuǎn)換,確定唯一文言文主題關(guān)鍵字詞。下面將對(duì)主題關(guān)鍵詞提取及轉(zhuǎn)換的具體實(shí)現(xiàn)進(jìn)行介紹。關(guān)鍵詞提取主要目標(biāo)是從文本中自動(dòng)提取出可以表示文本內(nèi)容的詞語(yǔ)。關(guān)鍵詞提取可分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督的方法[22],有監(jiān)督方法將關(guān)鍵詞提取看作二元分類的問(wèn)題,該方法須先提供已標(biāo)注關(guān)鍵詞的訓(xùn)練語(yǔ)料,然后才能對(duì)關(guān)鍵詞進(jìn)行判斷提取,也就是說(shuō)要先通過(guò)語(yǔ)料訓(xùn)練獲得關(guān)鍵詞提取模型,然后再基于模型進(jìn)行關(guān)鍵詞提齲半監(jiān)督方法需要人工參與,非全自動(dòng)的實(shí)現(xiàn),無(wú)需大量的訓(xùn)練數(shù)據(jù),只需部分語(yǔ)?
【參考文獻(xiàn)】:
期刊論文
[1]論詩(shī)歌評(píng)價(jià)的標(biāo)準(zhǔn):從柏拉圖到朱光潛[J]. 王改娣. 英美文學(xué)研究論叢. 2019(02)
[2]基于古詩(shī)文知識(shí)圖譜的詩(shī)詞創(chuàng)作系統(tǒng)[J]. 李星宇,王麗娟. 計(jì)算機(jī)產(chǎn)品與流通. 2019(04)
[3]唐詩(shī)宋詞賞析——中國(guó)古典詩(shī)歌的鑒賞藝術(shù)[J]. 梅敬忠. 領(lǐng)導(dǎo)科學(xué)論壇. 2018(16)
[4]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周?chē)?guó)棟,張麗. 軟件學(xué)報(bào). 2017(09)
[5]從圖靈測(cè)試到深度學(xué)習(xí):人工智能60年[J]. 萬(wàn)赟. 科技導(dǎo)報(bào). 2016(07)
[6]空間信息的自然語(yǔ)言表達(dá)模型[J]. 杜清運(yùn),任福. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(06)
[7]自然語(yǔ)言處理中主題模型的發(fā)展[J]. 徐戈,王厚峰. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
[8]一種宋詞自動(dòng)生成的遺傳算法及其機(jī)器實(shí)現(xiàn)[J]. 周昌樂(lè),游維,丁曉君. 軟件學(xué)報(bào). 2010(03)
碩士論文
[1]唐絕句章法藝術(shù)研究[D]. 馮佳寧.南京師范大學(xué) 2018
[2]基于深度學(xué)習(xí)技術(shù)的中國(guó)傳統(tǒng)詩(shī)歌生成方法研究[D]. 王哲.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[3]基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的中文文本情感分析[D]. 李丹.北京郵電大學(xué) 2017
[4]基于TextRank算法的單文檔自動(dòng)文摘研究[D]. 曹洋.南京大學(xué) 2016
本文編號(hào):3049219
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3049219.html
最近更新
教材專著