基于門控卷積網(wǎng)絡與CTC的端到端語音識別
發(fā)布時間:2025-01-09 06:36
針對傳統(tǒng)聲學模型存在模型組件復雜且不能統(tǒng)一進行訓練,數(shù)據(jù)必須進行預對齊的問題,提出基于一維門控卷積神經(jīng)網(wǎng)絡與CTC的中文端到端語音識別模型。通過堆疊多層一維卷積神經(jīng)網(wǎng)絡進行聲學建模,提取包含上下文信息的高層抽象特征,融合門控線性單元減少梯度彌散,利用CTC算法實現(xiàn)以漢字字符作為建;亩说蕉擞柧毢徒獯a。在公開數(shù)據(jù)集上的實驗結果表明,與基線模型相比,該模型語音識別性能有明顯提升,字錯誤率降低了3.3%以上。
【文章頁數(shù)】:5 頁
【部分圖文】:
本文編號:4025306
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1 模型結構
本文設計的1D-CNN+GLU+CTC的深度神經(jīng)網(wǎng)絡模型結構如圖1所示。首先對輸入的原始音頻序列x進行預處理和特征提取。然后通過4類共10個卷積塊(CNNblocks),每個CNNblock包含3個操作,分別為一維卷積、門控線性單元和Dropout,每類CNNblock設置....
圖2 音頻特征提取流程
在端到端的語音識別系統(tǒng)中,最常用的特征為梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficient,MFCC)和基于濾波器組的特征Fbank(Filterbank)。MFCC基于人耳聽覺特性進行設計,是在梅爾刻度頻率提取出來的倒譜參數(shù)。Fbank特征....
圖3 一維門控卷積神經(jīng)網(wǎng)絡結構
卷積神經(jīng)網(wǎng)絡最先在圖像識別領域得到廣泛的應用,之后被引入到自然語言處理和語音識別領域。將CNN用于語音識別,不僅可以精確控制依賴項的長度,通過堆疊CNN來標識長序列還可以使鄰近的輸入元素在較低的層進行交互,而遠處的元素在較高的層進行交互,從而提取更高層、更抽象的特征。本文使用融合....
圖4 CTC籬笆網(wǎng)格
通常,一個很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當路徑長度為6時,標簽序列“cat”的全部合法路徑。除了從路徑中獲取最終標簽序列外,路徑合并過程還旨在計算最終標簽序列的概率。定義變換B為從序列中刪除空白和重復,則B(cc-aat)=B(c-attt)=cat。....
本文編號:4025306
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/4025306.html
最近更新
教材專著