天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多輪交互的任務(wù)型對話系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用

發(fā)布時間:2022-02-22 02:52
  任務(wù)型對話系統(tǒng)(Task-oriented Dialogue System)是自然語言處理中的重要任務(wù)之一,在日常生活中的智能客服、個人助手等場景下有廣泛的應(yīng)用。其任務(wù)是根據(jù)用戶的輸入返回系統(tǒng)生成的回復(fù),通過多輪交互的形式實現(xiàn)用戶的請求或者目標(biāo)。為完成這一任務(wù),經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型被用于構(gòu)建任務(wù)型對話系統(tǒng)實現(xiàn)對話狀態(tài)追蹤和系統(tǒng)回復(fù)生成。但此類方法依舊面臨一些挑戰(zhàn),例如,如何緩解神經(jīng)網(wǎng)絡(luò)構(gòu)建的對話系統(tǒng)依賴于大量標(biāo)注數(shù)據(jù)的問題,以及如何在對話系統(tǒng)中有效地引入外部知識以適應(yīng)復(fù)雜場景的問題。為了應(yīng)對上述挑戰(zhàn),本文提出了基于領(lǐng)域自適應(yīng)和引入外部知識的任務(wù)型對話模型。通過使用領(lǐng)域自適應(yīng)方法來緩解任務(wù)型對話系統(tǒng)中面臨的缺乏標(biāo)注語料問題,實現(xiàn)任務(wù)型對話模型的領(lǐng)域遷移。通過使用一種引入外部知識的方法,將知識圖譜的推理結(jié)果加入到對話系統(tǒng)中,使對話系統(tǒng)適應(yīng)于復(fù)雜領(lǐng)域。本文的主要工作包括:1.提出了基于領(lǐng)域自適應(yīng)的任務(wù)型對話模型。該模型可以將訓(xùn)練得到的源領(lǐng)域知識轉(zhuǎn)移到訓(xùn)練樣本有限的目標(biāo)領(lǐng)域中,從而應(yīng)對缺乏標(biāo)注語料的問題。具體而言,本文在序列到序列模型中設(shè)計了一個領(lǐng)域特征過濾器,以減少源領(lǐng)域中的無效特征并保留通用... 

【文章來源】:華東師范大學(xué)上海市211工程院校985工程院校教育部直屬院校

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于多輪交互的任務(wù)型對話系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用


多輪對話系統(tǒng)流程圖

網(wǎng)絡(luò)模型,文本,計算公式,權(quán)重值


華東師范大學(xué)碩士學(xué)位論文11=(·[1,]+)(2-1)其中σ表示sigmod激活函數(shù)。對于輸入門,其決定了要新加入的信息量的多少,決定因素分別為:sigmod函數(shù)輸出的,以及tan函數(shù)輸出的。輸入門的計算公式如下:=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述這些信息后,就可以計算當(dāng)前單元的信息表示,計算公式如下:=1+(2-4)最后對于輸出門,決定了網(wǎng)絡(luò)的輸出h。輸出門也由兩個激活函數(shù)所組成,計算公式表示如下:=([1,]+)(2-5)=tan()(2-6)2.2.3注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)相關(guān)的模型中,研究者往往會通過引入注意力機(jī)制來提升模型對特征提取的能力[46]。在文本處理中,我們可以認(rèn)為文本的每個部分對于整個句子占的權(quán)重不同,文本中一些關(guān)鍵詞占的比重較大,而一些虛詞或語氣詞則對語義貢獻(xiàn)很校注意力機(jī)制的目標(biāo)就是對神經(jīng)網(wǎng)絡(luò)中的各個單元不同的權(quán)重值,權(quán)重值越低,表示該單元的信息所占比重越小;否則該單元的信息就更重要。在一些任務(wù)中,若要提取細(xì)粒度的信息,那么神經(jīng)網(wǎng)絡(luò)對文本的處理往往需要分層提圖2-2長短期記憶網(wǎng)絡(luò)模型結(jié)構(gòu)

示意圖,決策過程,示意圖,狀態(tài)


華東師范大學(xué)碩士學(xué)位論文14饋信息。策略的定義是智能體在給定時間的行為方式,即當(dāng)前狀態(tài)到行為之間的映射關(guān)系,或者當(dāng)前狀態(tài)下智能體可能采取的動作概率分布。獎勵信號定義了強(qiáng)化學(xué)習(xí)問題的目標(biāo),智能體通過不斷探索行動空間,使得獎勵信號最大化。2.4.1馬爾科夫決策過程馬爾可夫決策過程(MarkovDecisionProcess,MDP)是序貫決策的數(shù)學(xué)模型。強(qiáng)化學(xué)習(xí)的問題通常可以轉(zhuǎn)化為馬爾可夫決策過程。如圖2-3所示,環(huán)境向智能體給出當(dāng)前的狀態(tài),然后智能體根據(jù)當(dāng)前狀態(tài)狀態(tài)和策略π,執(zhí)行動作,接著環(huán)境會對動作作出反饋,并將獎勵返回給智能體,同時更新下一個狀態(tài)。這個過程如此反復(fù),智能體需要在這個過程中不斷學(xué)習(xí)最優(yōu)策略,以使得累積獎勵最大化。在上述過程中,在策略π下,狀態(tài)的價值函數(shù)就是從狀態(tài)開始,根據(jù)策略π而執(zhí)行動作,直到結(jié)束可以獲得的期望累積回報,用()表示,其計算方法可以表示如下:()=[|=]=[∑++1|=∞=0](2-12)其中,表示在時間步獲得的回報,是衰減系數(shù),表示距離當(dāng)前狀態(tài)越遠(yuǎn)的獎勵的系數(shù)越小.圖2-3馬爾科夫決策過程示意圖


本文編號:3638543

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3638543.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶25680***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com