基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別

發(fā)布時(shí)間：2024-02-17 17:31

　　針對(duì)卷積神經(jīng)網(wǎng)絡(luò)在連續(xù)語(yǔ)音識(shí)別中識(shí)別性能較差的問(wèn)題,提出多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別的算法,并結(jié)合聯(lián)結(jié)時(shí)序分類算法,構(gòu)建端到端中文語(yǔ)音識(shí)別系統(tǒng)。將多尺度學(xué)習(xí)和殘差機(jī)制以及空洞卷積引入到神經(jīng)網(wǎng)絡(luò)中,擺脫序列建模對(duì)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的依賴,提高模型的訓(xùn)練速度,增強(qiáng)語(yǔ)音識(shí)別的抗噪聲干擾性。實(shí)驗(yàn)表明,與雙向長(zhǎng)短時(shí)記憶模型(BLSTM)、深度卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN)和卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短時(shí)記憶模型(CNN-LSTM)相比,該模型的字錯(cuò)誤率WER(Word Error Rate)分別降低了9%、5%和3%左右,且在噪聲環(huán)境下的識(shí)別率也優(yōu)于傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)。

【文章頁(yè)數(shù)】：5 頁(yè)

【部分圖文】：

圖1語(yǔ)音信號(hào)的時(shí)頻圖

語(yǔ)音當(dāng)前的狀態(tài),與前后的狀態(tài)都有關(guān),網(wǎng)絡(luò)層數(shù)越多,丟失的細(xì)節(jié)信息越多,因此本文引入多尺度特征。圖1為一段純凈語(yǔ)音的時(shí)頻圖,圖2為加了噪聲的語(yǔ)音時(shí)頻圖,兩幅圖所表示的語(yǔ)音內(nèi)容相同,橫向?yàn)闀r(shí)間軸,縱向?yàn)轭l率軸,該段語(yǔ)音有16s,時(shí)頻圖的時(shí)間軸較長(zhǎng)。時(shí)頻圖反映了語(yǔ)音的信號(hào)強(qiáng)度在不同頻....

圖2含噪語(yǔ)音的時(shí)頻圖

圖1語(yǔ)音信號(hào)的時(shí)頻圖圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型

圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型

圖2含噪語(yǔ)音的時(shí)頻圖2連接時(shí)序CTC的應(yīng)用

圖4不同信噪比下不同模型的誤碼率(cafe)

本文還對(duì)比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經(jīng)網(wǎng)絡(luò)比BLSTM網(wǎng)絡(luò)的抗噪聲性能更加穩(wěn)定,噪聲越強(qiáng),BLSTM網(wǎng)絡(luò)的識(shí)別率較差并且識(shí)別率下降更快,不利于實(shí)際生活中的應(yīng)用。而....

本文編號(hào)：3901145

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/3901145.html

上一篇：級(jí)聯(lián)式信道化和異構(gòu)服務(wù)器的ESM系統(tǒng)組合架構(gòu)
下一篇：基于機(jī)器學(xué)習(xí)的雷達(dá)目標(biāo)和雜波分類

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別