基于循環(huán)神經(jīng)網(wǎng)絡(luò)的對(duì)聯(lián)生成模型研究
發(fā)布時(shí)間:2020-07-14 21:26
【摘要】:對(duì)聯(lián),又叫做對(duì)子或者楹聯(lián),是中國(guó)的傳統(tǒng)文化之一。對(duì)聯(lián)講究平仄要協(xié)調(diào),對(duì)仗要工整,上下聯(lián)字?jǐn)?shù)相同,結(jié)構(gòu)也保持一致,是中華語(yǔ)言的一種獨(dú)特的藝術(shù)形式,具有非常濃厚的美感,受到了人們的廣泛喜愛(ài)?梢哉f(shuō),中國(guó)的對(duì)聯(lián)文化是中國(guó)傳統(tǒng)文化的完美結(jié)晶,也是中國(guó)語(yǔ)言的瑰寶。為了讓愛(ài)好者和初學(xué)者更加方便的學(xué)習(xí)對(duì)聯(lián)知識(shí),也更加進(jìn)一步弘揚(yáng)和傳承中華民族文化,對(duì)聯(lián)的自動(dòng)生成問(wèn)題近年來(lái)受到關(guān)注。序列生成問(wèn)題就是根據(jù)一個(gè)給定的輸入序列,生成輸出序列。序列生成問(wèn)題有很多應(yīng)用,比如文檔摘要、機(jī)器翻譯、問(wèn)答系統(tǒng)等。而對(duì)聯(lián)生成問(wèn)題很也屬于一種典型的序列生成問(wèn)題。針對(duì)對(duì)聯(lián)生成問(wèn)題,人們提出了編碼-解碼模型。編碼,就是用一個(gè)固定長(zhǎng)度的向量將你輸入序列表示出來(lái),而解碼是將編碼時(shí)生成的固定長(zhǎng)度向量轉(zhuǎn)化為輸出序列。編碼器和解碼器的使用是不固定的,可以根據(jù)個(gè)人喜好和實(shí)驗(yàn)效果自由組合,一般可選循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡(jiǎn)稱RNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡(jiǎn)稱CNN)、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bi-directional current neural network,簡(jiǎn)稱BiRNN)以及循環(huán)神經(jīng)網(wǎng)絡(luò)的變種——門控循環(huán)單元(gate recurrent unit,簡(jiǎn)稱GRU)和長(zhǎng)期短期記憶神經(jīng)網(wǎng)絡(luò)(long short term memory network,簡(jiǎn)稱LSTM)等。本文設(shè)計(jì)和實(shí)現(xiàn)了基于深度學(xué)習(xí)的中國(guó)對(duì)聯(lián)編碼-解碼生成模型,該模型使用雙向GRU進(jìn)行編碼,使用GRU進(jìn)行解碼,選擇詞向量方法進(jìn)行對(duì)聯(lián)的表示。本文的主要?jiǎng)?chuàng)新之處有兩點(diǎn)。首先針對(duì)對(duì)聯(lián)生成問(wèn)題相對(duì)于其他自然語(yǔ)言理解問(wèn)題的特殊性,在訓(xùn)練詞向量的時(shí)候,不僅考慮序列中前后字的上下文關(guān)系,同時(shí)考慮了上下聯(lián)之間對(duì)應(yīng)字的相關(guān)性,構(gòu)建了針對(duì)對(duì)聯(lián)生成問(wèn)題的字向量,并應(yīng)用于模型的表示。其次,本文在模型中引入了兩種注意力機(jī)制(attention mechanism,簡(jiǎn)稱AM),第一種是常規(guī)做法,即將上聯(lián)中的不同位置的字進(jìn)行加權(quán)作為生成下聯(lián)中的不同位置字的注意力輸入,因?yàn)楦白⒁狻睂?duì)應(yīng)位置字的影響而使得效果好。為了進(jìn)一步增強(qiáng)上下聯(lián)之間的整體語(yǔ)境的連貫性,本文針對(duì)對(duì)聯(lián)生成問(wèn)題,引入了第二種注意力機(jī)制,即把通過(guò)doc2vec訓(xùn)練好的對(duì)應(yīng)的句向量信息加入到解碼模型的注意力輸入中。實(shí)驗(yàn)結(jié)果則證明,考慮對(duì)應(yīng)關(guān)系之后的模型效果有所提升,在加入上聯(lián)句向量信息之后效果又有所提升?偨Y(jié)起來(lái),本文的主要工作包括:首先收集數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理,包含對(duì)聯(lián)數(shù)據(jù)和經(jīng)過(guò)篩選的古詩(shī)文上下句,構(gòu)建了對(duì)聯(lián)本地?cái)?shù)據(jù)庫(kù);其次使用word2vec訓(xùn)練了兩個(gè)版本的字向量,一個(gè)是只考慮了前后上下文關(guān)系的字向量,另一個(gè)是我們提出的加入了上下聯(lián)對(duì)應(yīng)位置關(guān)系的對(duì)聯(lián)字向量,并將其應(yīng)用于模型初始化;之后訓(xùn)練了上聯(lián)對(duì)應(yīng)的句向量,并將其應(yīng)用于解碼階段;然后設(shè)計(jì)和實(shí)現(xiàn)了基于深度學(xué)習(xí)的中國(guó)對(duì)聯(lián)編碼-解碼生成模型,并利用訓(xùn)練好的模型對(duì)測(cè)試集生成下聯(lián);最后使用自動(dòng)評(píng)價(jià)以及人工評(píng)測(cè)的方法對(duì)生成的結(jié)果進(jìn)行效果測(cè)評(píng)。自動(dòng)對(duì)聯(lián)生成模型的建立能夠幫助對(duì)聯(lián)愛(ài)好者生成參考對(duì)聯(lián),是初學(xué)者能更好地學(xué)習(xí)對(duì)聯(lián),體會(huì)中華語(yǔ)言藝術(shù)的魅力,從而進(jìn)一步熱愛(ài)中華民族的經(jīng)典文化。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:I207.6;TP183
【圖文】:
第 1 章 緒論,當(dāng)時(shí)還不叫神經(jīng)網(wǎng)絡(luò)這個(gè)名字,而是叫做感知機(jī)(perception),最早提出知機(jī)結(jié)構(gòu)簡(jiǎn)單,只有輸入層、隱藏層和輸出層三層,叫做單層感知機(jī)。輸入特征向量的輸入,輸入層的特征向量經(jīng)過(guò)隱藏層的變換到達(dá)輸出層后,在輸?shù)玫椒诸惖慕Y(jié)果。單層感知機(jī)的結(jié)構(gòu)非常簡(jiǎn)單,但是使用范圍也很有限,對(duì)于稍微復(fù)雜一點(diǎn)函無(wú)能為力了,連異或操作都不能完成,后來(lái)在上個(gè)世紀(jì)的八十年代由elhart、Hinton、Lecun 和 Williams 等人提出了多層感知機(jī),從而才克服了這題。多層感知機(jī)就是在單層感知機(jī)的基礎(chǔ)上多加了幾層隱藏層,如圖 1.1 所示。
神經(jīng)語(yǔ)言模型總體架構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖輸 入 層 包 含 context(w) 中 2n 個(gè) 詞 語(yǔ) 的 詞 向 量 V(context(w)1) ,V(context(w)2),...,V(context(w)2n)∈Rm,這里 m 的含義同上表示詞向量的維度。投影層的操作是將輸入層的 2n 個(gè)向量做求和累加,如式 2.12 所示。 = ( ( ) ) …………………(2.12)輸出層是一棵二叉樹(shù),它的葉子節(jié)點(diǎn)是在語(yǔ)料中出現(xiàn)過(guò)的詞語(yǔ),這棵樹(shù)是按照詞語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)當(dāng)做權(quán)值構(gòu)造出來(lái)的,是一棵哈夫曼樹(shù),這棵樹(shù)中的葉子節(jié)點(diǎn)共有N=|D|個(gè),分別對(duì)應(yīng)著詞典D中的詞語(yǔ),非葉子節(jié)點(diǎn)一共有N-1個(gè),也就是圖 2.2 中陰影的那些點(diǎn)。這個(gè)例子中,將 6 個(gè)詞向量作為輸入,輸出是所有詞的 softmax 概率,當(dāng)然,這里希望訓(xùn)練樣本中給定的中心詞的概率最大,對(duì)應(yīng)的 CBOW 神經(jīng)網(wǎng)絡(luò)輸入層有 6 個(gè)神經(jīng)元,輸出層的神經(jīng)元個(gè)數(shù)就是詞匯表大小,隱藏層的個(gè)數(shù)可以由研究
本文編號(hào):2755506
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:I207.6;TP183
【圖文】:
第 1 章 緒論,當(dāng)時(shí)還不叫神經(jīng)網(wǎng)絡(luò)這個(gè)名字,而是叫做感知機(jī)(perception),最早提出知機(jī)結(jié)構(gòu)簡(jiǎn)單,只有輸入層、隱藏層和輸出層三層,叫做單層感知機(jī)。輸入特征向量的輸入,輸入層的特征向量經(jīng)過(guò)隱藏層的變換到達(dá)輸出層后,在輸?shù)玫椒诸惖慕Y(jié)果。單層感知機(jī)的結(jié)構(gòu)非常簡(jiǎn)單,但是使用范圍也很有限,對(duì)于稍微復(fù)雜一點(diǎn)函無(wú)能為力了,連異或操作都不能完成,后來(lái)在上個(gè)世紀(jì)的八十年代由elhart、Hinton、Lecun 和 Williams 等人提出了多層感知機(jī),從而才克服了這題。多層感知機(jī)就是在單層感知機(jī)的基礎(chǔ)上多加了幾層隱藏層,如圖 1.1 所示。
神經(jīng)語(yǔ)言模型總體架構(gòu)
圖 2.2 CBOW 模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖輸 入 層 包 含 context(w) 中 2n 個(gè) 詞 語(yǔ) 的 詞 向 量 V(context(w)1) ,V(context(w)2),...,V(context(w)2n)∈Rm,這里 m 的含義同上表示詞向量的維度。投影層的操作是將輸入層的 2n 個(gè)向量做求和累加,如式 2.12 所示。 = ( ( ) ) …………………(2.12)輸出層是一棵二叉樹(shù),它的葉子節(jié)點(diǎn)是在語(yǔ)料中出現(xiàn)過(guò)的詞語(yǔ),這棵樹(shù)是按照詞語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)當(dāng)做權(quán)值構(gòu)造出來(lái)的,是一棵哈夫曼樹(shù),這棵樹(shù)中的葉子節(jié)點(diǎn)共有N=|D|個(gè),分別對(duì)應(yīng)著詞典D中的詞語(yǔ),非葉子節(jié)點(diǎn)一共有N-1個(gè),也就是圖 2.2 中陰影的那些點(diǎn)。這個(gè)例子中,將 6 個(gè)詞向量作為輸入,輸出是所有詞的 softmax 概率,當(dāng)然,這里希望訓(xùn)練樣本中給定的中心詞的概率最大,對(duì)應(yīng)的 CBOW 神經(jīng)網(wǎng)絡(luò)輸入層有 6 個(gè)神經(jīng)元,輸出層的神經(jīng)元個(gè)數(shù)就是詞匯表大小,隱藏層的個(gè)數(shù)可以由研究
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 周昌樂(lè);游維;丁曉君;;一種宋詞自動(dòng)生成的遺傳算法及其機(jī)器實(shí)現(xiàn)[J];軟件學(xué)報(bào);2010年03期
本文編號(hào):2755506
本文鏈接:http://sikaile.net/gudaiwenxuelunwen/2755506.html
最近更新
教材專著