當(dāng)前位置：主頁 > 科技論文 > 計算機(jī)應(yīng)用論文 >

基于多輪交互的任務(wù)型對話系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用

發(fā)布時間：2022-02-22 02:52

　　任務(wù)型對話系統(tǒng)（Task-oriented Dialogue System）是自然語言處理中的重要任務(wù)之一,在日常生活中的智能客服、個人助手等場景下有廣泛的應(yīng)用。其任務(wù)是根據(jù)用戶的輸入返回系統(tǒng)生成的回復(fù),通過多輪交互的形式實現(xiàn)用戶的請求或者目標(biāo)。為完成這一任務(wù),經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型被用于構(gòu)建任務(wù)型對話系統(tǒng)實現(xiàn)對話狀態(tài)追蹤和系統(tǒng)回復(fù)生成。但此類方法依舊面臨一些挑戰(zhàn),例如,如何緩解神經(jīng)網(wǎng)絡(luò)構(gòu)建的對話系統(tǒng)依賴于大量標(biāo)注數(shù)據(jù)的問題,以及如何在對話系統(tǒng)中有效地引入外部知識以適應(yīng)復(fù)雜場景的問題。為了應(yīng)對上述挑戰(zhàn),本文提出了基于領(lǐng)域自適應(yīng)和引入外部知識的任務(wù)型對話模型。通過使用領(lǐng)域自適應(yīng)方法來緩解任務(wù)型對話系統(tǒng)中面臨的缺乏標(biāo)注語料問題,實現(xiàn)任務(wù)型對話模型的領(lǐng)域遷移。通過使用一種引入外部知識的方法,將知識圖譜的推理結(jié)果加入到對話系統(tǒng)中,使對話系統(tǒng)適應(yīng)于復(fù)雜領(lǐng)域。本文的主要工作包括:1.提出了基于領(lǐng)域自適應(yīng)的任務(wù)型對話模型。該模型可以將訓(xùn)練得到的源領(lǐng)域知識轉(zhuǎn)移到訓(xùn)練樣本有限的目標(biāo)領(lǐng)域中,從而應(yīng)對缺乏標(biāo)注語料的問題。具體而言,本文在序列到序列模型中設(shè)計了一個領(lǐng)域特征過濾器,以減少源領(lǐng)域中的無效特征并保留通用...

【文章來源】：華東師范大學(xué)上海市211工程院校985工程院校教育部直屬院校

【文章頁數(shù)】：72 頁

【學(xué)位級別】：碩士

【部分圖文】：

多輪對話系統(tǒng)流程圖

網(wǎng)絡(luò)模型,文本,計算公式,權(quán)重值

華東師范大學(xué)碩士學(xué)位論文11=(·[1,]+)(2-1)其中σ表示sigmod激活函數(shù)。對于輸入門，其決定了要新加入的信息量的多少，決定因素分別為：sigmod函數(shù)輸出的，以及tan函數(shù)輸出的。輸入門的計算公式如下：=(·[1,]+)(2-2)=tan(·[1,]+)(2-3)已知需要上述這些信息后，就可以計算當(dāng)前單元的信息表示，計算公式如下：=1+(2-4)最后對于輸出門，決定了網(wǎng)絡(luò)的輸出h。輸出門也由兩個激活函數(shù)所組成，計算公式表示如下：=([1,]+)(2-5)=tan()(2-6)2.2.3注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)相關(guān)的模型中，研究者往往會通過引入注意力機(jī)制來提升模型對特征提取的能力[46]。在文本處理中，我們可以認(rèn)為文本的每個部分對于整個句子占的權(quán)重不同，文本中一些關(guān)鍵詞占的比重較大，而一些虛詞或語氣詞則對語義貢獻(xiàn)很校注意力機(jī)制的目標(biāo)就是對神經(jīng)網(wǎng)絡(luò)中的各個單元不同的權(quán)重值，權(quán)重值越低，表示該單元的信息所占比重越小；否則該單元的信息就更重要。在一些任務(wù)中，若要提取細(xì)粒度的信息，那么神經(jīng)網(wǎng)絡(luò)對文本的處理往往需要分層提圖2-2長短期記憶網(wǎng)絡(luò)模型結(jié)構(gòu)

示意圖,決策過程,示意圖,狀態(tài)

華東師范大學(xué)碩士學(xué)位論文14饋信息。策略的定義是智能體在給定時間的行為方式，即當(dāng)前狀態(tài)到行為之間的映射關(guān)系，或者當(dāng)前狀態(tài)下智能體可能采取的動作概率分布。獎勵信號定義了強(qiáng)化學(xué)習(xí)問題的目標(biāo)，智能體通過不斷探索行動空間，使得獎勵信號最大化。2.4.1馬爾科夫決策過程馬爾可夫決策過程（MarkovDecisionProcess,MDP）是序貫決策的數(shù)學(xué)模型。強(qiáng)化學(xué)習(xí)的問題通常可以轉(zhuǎn)化為馬爾可夫決策過程。如圖2-3所示，環(huán)境向智能體給出當(dāng)前的狀態(tài)，然后智能體根據(jù)當(dāng)前狀態(tài)狀態(tài)和策略π，執(zhí)行動作，接著環(huán)境會對動作作出反饋，并將獎勵返回給智能體，同時更新下一個狀態(tài)。這個過程如此反復(fù)，智能體需要在這個過程中不斷學(xué)習(xí)最優(yōu)策略，以使得累積獎勵最大化。在上述過程中，在策略π下，狀態(tài)的價值函數(shù)就是從狀態(tài)開始，根據(jù)策略π而執(zhí)行動作，直到結(jié)束可以獲得的期望累積回報，用()表示，其計算方法可以表示如下：()=[|=]=[∑++1|=∞=0](2-12)其中，表示在時間步獲得的回報,是衰減系數(shù)，表示距離當(dāng)前狀態(tài)越遠(yuǎn)的獎勵的系數(shù)越小.圖2-3馬爾科夫決策過程示意圖

本文編號：3638543

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3638543.html

上一篇：基于深度學(xué)習(xí)與主動學(xué)習(xí)的中醫(yī)術(shù)語識別研究
下一篇：基于超像素原理的動態(tài)彩色顯示

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多輪交互的任務(wù)型對話系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用