一種神經(jīng)網(wǎng)絡(luò)對(duì)話系統(tǒng)中的低頻詞壓縮方法
發(fā)布時(shí)間:2021-09-02 10:01
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的生成式對(duì)話系統(tǒng)受到了來自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。生成式對(duì)話系統(tǒng)通常被建模為序列到序列任務(wù),即將用戶的問話當(dāng)做源序列,回答用戶的回復(fù)做為目標(biāo)序列。Encoder-Decoder是當(dāng)前用于實(shí)現(xiàn)生成式對(duì)話的主流框架,由兩部分組成,Encoder負(fù)責(zé)理解用戶的問話文本,Decoder負(fù)責(zé)生成一個(gè)新的文本回復(fù)用戶。目前大部分基于Encoder-Decoder框架的生成式對(duì)話系統(tǒng)采用詞級(jí)別模型,即將對(duì)話中的文本表示為詞向量序列,通過維護(hù)一個(gè)包含詞向量的詞表來理解或產(chǎn)生一個(gè)對(duì)應(yīng)的詞。受限于當(dāng)前計(jì)算機(jī)硬件發(fā)展的限制,詞表通常只能被設(shè)計(jì)為有限容量,詞表之外的詞將會(huì)變成未登錄詞。由于詞表中不包含未登錄詞的詞向量,因此未登錄詞不能被Encoder理解,也不能被Decoder生成,最終影響對(duì)話系統(tǒng)的整體性能,降低對(duì)話系統(tǒng)的生成質(zhì)量。為了解決生成式對(duì)話中的未登錄詞問題,并改善基于Encoder-Decoder的對(duì)話系統(tǒng)的性能,本文提出了基于低頻詞壓縮表示的生成式對(duì)話模型HL-EncDec。HL-EncDec將未登錄詞歸類為低頻詞,并利用語言中字符數(shù)目恒定且總量少的特性,將低頻詞壓縮到...
【文章來源】:北京大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Encoder-Decoder生成式對(duì)話系統(tǒng)示意圖
頻數(shù)累計(jì) 1.06 億,其中橫坐標(biāo)代表的是排位在對(duì)應(yīng)取值的詞,縱坐標(biāo)代表的是該詞的使用頻數(shù),并且為了便于觀察,該值已經(jīng)以 2 為底取了對(duì)數(shù)?梢园l(fā)現(xiàn)排位靠前的小部分詞是被頻繁使用的常用詞,而排位靠后的絕大部分詞是很少被使用的稀疏詞?紤]到這一點(diǎn),在 Encoder-Decoder 中詞表的構(gòu)成方式常采用貪心策略,使詞表盡可能覆蓋到實(shí)際對(duì)話,即根據(jù)設(shè)定的詞表容量| |,將選擇頻度最高的前| |個(gè)詞加入到詞表中,剩余的詞做為未登錄詞處理。這種基于貪心策略的詞表構(gòu)成方法可以獲得近似最大的詞覆蓋率,其中詞覆蓋率DataCoverage的計(jì)算方式如下:DataCoverage# ##(4.1)其中# 代表整個(gè)語料中所有詞使用頻數(shù)總和,而# 代表排位在| |以外所有詞的頻數(shù)總和。詞覆蓋率越大,代表這個(gè)詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆圖 4.1 詞頻分布
代表這個(gè)詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆蓋率分別為:[0.85,0.90,0.94,0.97,0.98,0.99]。由此可見,選擇排位靠前的前| |的詞加入詞表,可以取得非常高的覆蓋率。雖然整個(gè)語料中包含 70 多萬詞,但僅前 10000 個(gè)詞就可以獲得高達(dá) 90%的覆蓋率。但從另一個(gè)角度去觀察,會(huì)發(fā)現(xiàn)隨著詞表規(guī)格的不斷增加,詞表覆蓋率增長的收益卻在下降。詞表規(guī)格從 5000 翻倍提升到 10000 時(shí),詞表覆蓋率增長了 5%,從 10000 翻倍到 20000,詞表覆蓋率增長了 4%
本文編號(hào):3378810
【文章來源】:北京大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Encoder-Decoder生成式對(duì)話系統(tǒng)示意圖
頻數(shù)累計(jì) 1.06 億,其中橫坐標(biāo)代表的是排位在對(duì)應(yīng)取值的詞,縱坐標(biāo)代表的是該詞的使用頻數(shù),并且為了便于觀察,該值已經(jīng)以 2 為底取了對(duì)數(shù)?梢园l(fā)現(xiàn)排位靠前的小部分詞是被頻繁使用的常用詞,而排位靠后的絕大部分詞是很少被使用的稀疏詞?紤]到這一點(diǎn),在 Encoder-Decoder 中詞表的構(gòu)成方式常采用貪心策略,使詞表盡可能覆蓋到實(shí)際對(duì)話,即根據(jù)設(shè)定的詞表容量| |,將選擇頻度最高的前| |個(gè)詞加入到詞表中,剩余的詞做為未登錄詞處理。這種基于貪心策略的詞表構(gòu)成方法可以獲得近似最大的詞覆蓋率,其中詞覆蓋率DataCoverage的計(jì)算方式如下:DataCoverage# ##(4.1)其中# 代表整個(gè)語料中所有詞使用頻數(shù)總和,而# 代表排位在| |以外所有詞的頻數(shù)總和。詞覆蓋率越大,代表這個(gè)詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆圖 4.1 詞頻分布
代表這個(gè)詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預(yù)料的詞覆蓋率和詞表大小的關(guān)系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計(jì)算得到的覆蓋率分別為:[0.85,0.90,0.94,0.97,0.98,0.99]。由此可見,選擇排位靠前的前| |的詞加入詞表,可以取得非常高的覆蓋率。雖然整個(gè)語料中包含 70 多萬詞,但僅前 10000 個(gè)詞就可以獲得高達(dá) 90%的覆蓋率。但從另一個(gè)角度去觀察,會(huì)發(fā)現(xiàn)隨著詞表規(guī)格的不斷增加,詞表覆蓋率增長的收益卻在下降。詞表規(guī)格從 5000 翻倍提升到 10000 時(shí),詞表覆蓋率增長了 5%,從 10000 翻倍到 20000,詞表覆蓋率增長了 4%
本文編號(hào):3378810
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3378810.html
最近更新
教材專著