當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

一種神經(jīng)網(wǎng)絡(luò)對(duì)話系統(tǒng)中的低頻詞壓縮方法

發(fā)布時(shí)間：2021-09-02 10:01

　　近年來(lái),基于深度神經(jīng)網(wǎng)絡(luò)的生成式對(duì)話系統(tǒng)受到了來(lái)自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。生成式對(duì)話系統(tǒng)通常被建模為序列到序列任務(wù),即將用戶的問(wèn)話當(dāng)做源序列,回答用戶的回復(fù)做為目標(biāo)序列。Encoder-Decoder是當(dāng)前用于實(shí)現(xiàn)生成式對(duì)話的主流框架,由兩部分組成,Encoder負(fù)責(zé)理解用戶的問(wèn)話文本,Decoder負(fù)責(zé)生成一個(gè)新的文本回復(fù)用戶。目前大部分基于Encoder-Decoder框架的生成式對(duì)話系統(tǒng)采用詞級(jí)別模型,即將對(duì)話中的文本表示為詞向量序列,通過(guò)維護(hù)一個(gè)包含詞向量的詞表來(lái)理解或產(chǎn)生一個(gè)對(duì)應(yīng)的詞。受限于當(dāng)前計(jì)算機(jī)硬件發(fā)展的限制,詞表通常只能被設(shè)計(jì)為有限容量,詞表之外的詞將會(huì)變成未登錄詞。由于詞表中不包含未登錄詞的詞向量,因此未登錄詞不能被Encoder理解,也不能被Decoder生成,最終影響對(duì)話系統(tǒng)的整體性能,降低對(duì)話系統(tǒng)的生成質(zhì)量。為了解決生成式對(duì)話中的未登錄詞問(wèn)題,并改善基于Encoder-Decoder的對(duì)話系統(tǒng)的性能,本文提出了基于低頻詞壓縮表示的生成式對(duì)話模型HL-EncDec。HL-EncDec將未登錄詞歸類為低頻詞,并利用語(yǔ)言中字符數(shù)目恒定且總量少的特性,將低頻詞壓縮到...

【文章來(lái)源】：北京大學(xué)北京市 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：59 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

Encoder-Decoder生成式對(duì)話系統(tǒng)示意圖

詞頻分布,詞表

頻數(shù)累計(jì) 1.06 億，其中橫坐標(biāo)代表的是排位在對(duì)應(yīng)取值的詞，縱坐標(biāo)代表的是該詞的使用頻數(shù)，并且為了便于觀察，該值已經(jīng)以 2 為底取了對(duì)數(shù)�？梢园l(fā)現(xiàn)排位靠前的小部分詞是被頻繁使用的常用詞，而排位靠后的絕大部分詞是很少被使用的稀疏詞�？紤]到這一點(diǎn)，在 Encoder-Decoder 中詞表的構(gòu)成方式常采用貪心策略，使詞表盡可能覆蓋到實(shí)際對(duì)話，即根據(jù)設(shè)定的詞表容量| |，將選擇頻度最高的前| |個(gè)詞加入到詞表中，剩余的詞做為未登錄詞處理。這種基于貪心策略的詞表構(gòu)成方法可以獲得近似最大的詞覆蓋率，其中詞覆蓋率DataCoverage的計(jì)算方式如下：DataCoverage# ##(4.1)其中# 代表整個(gè)語(yǔ)料中所有詞使用頻數(shù)總和，而# 代表排位在| |以外所有詞的頻數(shù)總和。詞覆蓋率越大，代表這個(gè)詞表能夠覆蓋語(yǔ)料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆圖 4.1 詞頻分布

覆蓋率,詞表

代表這個(gè)詞表能夠覆蓋語(yǔ)料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆蓋率分別為:[0.85,0.90,0.94,0.97,0.98,0.99]。由此可見(jiàn)，選擇排位靠前的前| |的詞加入詞表，可以取得非常高的覆蓋率。雖然整個(gè)語(yǔ)料中包含 70 多萬(wàn)詞，但僅前 10000 個(gè)詞就可以獲得高達(dá) 90%的覆蓋率。但從另一個(gè)角度去觀察，會(huì)發(fā)現(xiàn)隨著詞表規(guī)格的不斷增加，詞表覆蓋率增長(zhǎng)的收益卻在下降。詞表規(guī)格從 5000 翻倍提升到 10000 時(shí)，詞表覆蓋率增長(zhǎng)了 5%，從 10000 翻倍到 20000，詞表覆蓋率增長(zhǎng)了 4%

本文編號(hào)：3378810

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3378810.html

上一篇：事件觸發(fā)機(jī)制下非線性切換系統(tǒng)故障檢測(cè)
下一篇：智慧協(xié)同網(wǎng)絡(luò)中基于機(jī)器學(xué)習(xí)的DDoS攻擊防御機(jī)制設(shè)計(jì)實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種神經(jīng)網(wǎng)絡(luò)對(duì)話系統(tǒng)中的低頻詞壓縮方法