Cas-GAN:一種基于GAN和強(qiáng)化學(xué)習(xí)的對(duì)話管理策略學(xué)習(xí)方法
發(fā)布時(shí)間:2020-03-29 04:58
【摘要】:對(duì)話管理系統(tǒng)在日常生活中有廣泛的應(yīng)用,如在線購(gòu)物,酒店預(yù)訂和駕駛預(yù)訂。在對(duì)話管理系統(tǒng)中,用戶通過(guò)多輪對(duì)話與系統(tǒng)交互。有效的對(duì)話管理策略有助于對(duì)話系統(tǒng)有效地響應(yīng)用戶。對(duì)話管理中的策略學(xué)習(xí)是一項(xiàng)復(fù)雜的任務(wù)。為了建立一個(gè)目標(biāo)導(dǎo)向的對(duì)話代理,過(guò)去的研究中,使用了不同的方法來(lái)訓(xùn)練有效的對(duì)話策略系統(tǒng)。生成對(duì)抗網(wǎng)絡(luò)(GAN)由兩個(gè)網(wǎng)絡(luò),生成器和鑒別器構(gòu)成。生成器的主要作用是從真實(shí)數(shù)據(jù)生成虛假樣本,側(cè)重于策略學(xué)習(xí)過(guò)程的優(yōu)化。鑒別器網(wǎng)絡(luò)將接收來(lái)自策略學(xué)習(xí)訓(xùn)練得到的有效輸出,并且將產(chǎn)生獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)輸出可以是假或真,具體取決于0到1的值。GAN已經(jīng)被應(yīng)用于對(duì)話生成中,用來(lái)選擇最佳策略以幫助構(gòu)建對(duì)話代理。有效的對(duì)話策略學(xué)習(xí)可以提高對(duì)話管理的質(zhì)量(流暢度和多樣性)。而強(qiáng)化學(xué)習(xí)(RL)算法則用于優(yōu)化策略策略,因?yàn)樾蛄惺请x散的。在目前的研究中,我們提出了一種新技術(shù),圖生成對(duì)抗網(wǎng)絡(luò)(CasGAN),將GCN和RL結(jié)合起來(lái)。Cas-GAN可以通過(guò)使用圖卷積網(wǎng)絡(luò)(GCN)來(lái)對(duì)序列之間的關(guān)系進(jìn)行建模。該圖由不同的高級(jí)和低級(jí)節(jié)點(diǎn)組成。我們使用最大對(duì)數(shù)似然(MLL)方法來(lái)優(yōu)化參數(shù),選擇最佳節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,我們所提的方法CasGAN比Seq-GAN更加有效。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP315;O157.5;TP18
本文編號(hào):2605483
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP315;O157.5;TP18
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 Nabeel Muhammad;Cas-GAN:一種基于GAN和強(qiáng)化學(xué)習(xí)的對(duì)話管理策略學(xué)習(xí)方法[D];華南理工大學(xué);2019年
,本文編號(hào):2605483
本文鏈接:http://sikaile.net/guanlilunwen/glzh/2605483.html
最近更新
教材專著