基于門(mén)控卷積網(wǎng)絡(luò)與CTC的端到端語(yǔ)音識(shí)別
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1 模型結(jié)構(gòu)
本文設(shè)計(jì)的1D-CNN+GLU+CTC的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。首先對(duì)輸入的原始音頻序列x進(jìn)行預(yù)處理和特征提取。然后通過(guò)4類(lèi)共10個(gè)卷積塊(CNNblocks),每個(gè)CNNblock包含3個(gè)操作,分別為一維卷積、門(mén)控線性單元和Dropout,每類(lèi)CNNblock設(shè)置....
圖2 音頻特征提取流程
在端到端的語(yǔ)音識(shí)別系統(tǒng)中,最常用的特征為梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)和基于濾波器組的特征Fbank(Filterbank)。MFCC基于人耳聽(tīng)覺(jué)特性進(jìn)行設(shè)計(jì),是在梅爾刻度頻率提取出來(lái)的倒譜參數(shù)。Fbank特征....
圖3 一維門(mén)控卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)最先在圖像識(shí)別領(lǐng)域得到廣泛的應(yīng)用,之后被引入到自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域。將CNN用于語(yǔ)音識(shí)別,不僅可以精確控制依賴項(xiàng)的長(zhǎng)度,通過(guò)堆疊CNN來(lái)標(biāo)識(shí)長(zhǎng)序列還可以使鄰近的輸入元素在較低的層進(jìn)行交互,而遠(yuǎn)處的元素在較高的層進(jìn)行交互,從而提取更高層、更抽象的特征。本文使用融合....
圖4 CTC籬笆網(wǎng)格
通常,一個(gè)很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當(dāng)路徑長(zhǎng)度為6時(shí),標(biāo)簽序列“cat”的全部合法路徑。除了從路徑中獲取最終標(biāo)簽序列外,路徑合并過(guò)程還旨在計(jì)算最終標(biāo)簽序列的概率。定義變換B為從序列中刪除空白和重復(fù),則B(cc-aat)=B(c-attt)=cat。....
本文編號(hào):4025306
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/4025306.html