基于預(yù)訓(xùn)練的開放域角色化對(duì)話生成關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2021-02-16 18:50
在各種自然語言處理任務(wù)中,人機(jī)對(duì)話任務(wù)由于具有很大的挑戰(zhàn)性、趣味性和實(shí)用性,一直是受到學(xué)術(shù)界和工業(yè)界廣泛關(guān)注的熱點(diǎn)問題,各種用于建模人機(jī)對(duì)話任務(wù)的統(tǒng)計(jì)模型和深度學(xué)習(xí)模型也層出不窮。在人機(jī)對(duì)話領(lǐng)域,開放域角色化對(duì)話生成是一個(gè)最近很受業(yè)內(nèi)青睞的研究問題,主要研究的是如何使得機(jī)器人在預(yù)設(shè)的人物角色信息下,生成既符合人物角色,又與上下文一致的回復(fù)。近些年來,以Transformer結(jié)構(gòu)為基礎(chǔ)的預(yù)訓(xùn)練語言模型在各種自然語言處理任務(wù)上取得了令人矚目的成績(jī)。在對(duì)話生成領(lǐng)域,以GPT為代表的預(yù)訓(xùn)練單向語言模型被逐漸開始用于開放域?qū)υ捝扇蝿?wù)上,并取得了相比于傳統(tǒng)RNN對(duì)話模型更好的效果。但是這種普通結(jié)構(gòu)的預(yù)訓(xùn)練Transformer在直接建模角色化對(duì)話生成任務(wù)時(shí)存在著種種弊端。為了使其能夠更好地建模角色化對(duì)話生成任務(wù),我們進(jìn)行了以下幾個(gè)部分的研究:(1)使用額外的記憶模塊來獨(dú)立編碼角色化信息。為了減少在編碼時(shí)拼接角色化信息和對(duì)話歷史帶來的噪聲,我們探索了兩種角色化信息的編碼方式,分別是使用獨(dú)立編碼器的編碼方式和使用記憶網(wǎng)絡(luò)的編碼方式。(2)在Transformer的解碼器端增加復(fù)制機(jī)制。由于當(dāng)前的角色...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2論文結(jié)構(gòu)框架圖??
ad?Attention??t??f?[?Linear??!?MatMul? ̄*]?f??.?T?t?Concat??|?SoftMax?|?? ̄ ̄??r?,?w?>??I?Mask?(opt.)?I?Scaled?Dot-Product?,???? ̄?Attention?*?0??I?Scale?|?111?III?111??[ ̄MatMul ̄ ̄)?Linear?Linear?Linear?|.??f?f??〇?K?V??V?K?〇??圖2-2多頭放縮點(diǎn)積|注意力機(jī)制??這凰計(jì)算Attention時(shí)的Query(Q),?Key(K),?Value(V)都梟序到本身,所以叫??做Self-Attention。具體的Attention計(jì):奠公式為:??Attention(Q,?K,?V)?=?softmax?^?(2-1)??MultiHead(Q,K,V)?=?ConcatQiead^?...,headh)W°?(2-2)??其中,??headi?=?Attentio^QW^?,KW^?,VW^)?(2-3)??在:公式2-1中:,Q,?K,V為輸入序到對(duì)應(yīng)的詞嵌入表爾矩.陣。dk是詞向曇隱??層狀態(tài)維度,這里矩陣Q和矩陣K轉(zhuǎn)置通過矩陣乘法來計(jì)算每個(gè)位置的相似程??-14?-??
會(huì)直接影響到西復(fù)的生成質(zhì)量,所以無??論暴使租RNN-based的Seq2Seq模型還是Transformer-based.的模型,對(duì)解碼器??進(jìn)行預(yù)訓(xùn)練都能比較有效地提高生成質(zhì)量《最常見的用來預(yù)訓(xùn)練解碼器的任務(wù)??是語言模型任務(wù)(LanguageModel),由千與生成任務(wù)的解碼過程很類似,所以??可以作為很好的輔助任務(wù)來幫助模型的訓(xùn)練。??一個(gè)典型的使用標(biāo)準(zhǔn)語參樣型推為預(yù)訓(xùn)練任務(wù):的Transformer-based的模型??是GPT?(GPT2.0),其預(yù)訓(xùn)練時(shí)的語官模型任務(wù)如圖2-4所示。??OpenAI?GPT??。?[。?)?■"? ̄* ̄N??(Trm?)(?Trm?)…?(Trm?)??(Trm?)(?Trm?)…?f?Trm?)??|?E1?l?E2?…?EN??圖2-4?GPT模型中的語言模型任務(wù)[14]??-17-??
【參考文獻(xiàn)】:
期刊論文
[1]人機(jī)對(duì)話系統(tǒng)綜述[J]. 車萬翔,張偉男. 人工智能. 2018(01)
本文編號(hào):3036784
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2論文結(jié)構(gòu)框架圖??
ad?Attention??t??f?[?Linear??!?MatMul? ̄*]?f??.?T?t?Concat??|?SoftMax?|?? ̄ ̄??r?,?w?>??I?Mask?(opt.)?I?Scaled?Dot-Product?,???? ̄?Attention?*?0??I?Scale?|?111?III?111??[ ̄MatMul ̄ ̄)?Linear?Linear?Linear?|.??f?f??〇?K?V??V?K?〇??圖2-2多頭放縮點(diǎn)積|注意力機(jī)制??這凰計(jì)算Attention時(shí)的Query(Q),?Key(K),?Value(V)都梟序到本身,所以叫??做Self-Attention。具體的Attention計(jì):奠公式為:??Attention(Q,?K,?V)?=?softmax?^?(2-1)??MultiHead(Q,K,V)?=?ConcatQiead^?...,headh)W°?(2-2)??其中,??headi?=?Attentio^QW^?,KW^?,VW^)?(2-3)??在:公式2-1中:,Q,?K,V為輸入序到對(duì)應(yīng)的詞嵌入表爾矩.陣。dk是詞向曇隱??層狀態(tài)維度,這里矩陣Q和矩陣K轉(zhuǎn)置通過矩陣乘法來計(jì)算每個(gè)位置的相似程??-14?-??
會(huì)直接影響到西復(fù)的生成質(zhì)量,所以無??論暴使租RNN-based的Seq2Seq模型還是Transformer-based.的模型,對(duì)解碼器??進(jìn)行預(yù)訓(xùn)練都能比較有效地提高生成質(zhì)量《最常見的用來預(yù)訓(xùn)練解碼器的任務(wù)??是語言模型任務(wù)(LanguageModel),由千與生成任務(wù)的解碼過程很類似,所以??可以作為很好的輔助任務(wù)來幫助模型的訓(xùn)練。??一個(gè)典型的使用標(biāo)準(zhǔn)語參樣型推為預(yù)訓(xùn)練任務(wù):的Transformer-based的模型??是GPT?(GPT2.0),其預(yù)訓(xùn)練時(shí)的語官模型任務(wù)如圖2-4所示。??OpenAI?GPT??。?[。?)?■"? ̄* ̄N??(Trm?)(?Trm?)…?(Trm?)??(Trm?)(?Trm?)…?f?Trm?)??|?E1?l?E2?…?EN??圖2-4?GPT模型中的語言模型任務(wù)[14]??-17-??
【參考文獻(xiàn)】:
期刊論文
[1]人機(jī)對(duì)話系統(tǒng)綜述[J]. 車萬翔,張偉男. 人工智能. 2018(01)
本文編號(hào):3036784
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3036784.html
最近更新
教材專著