天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別

發(fā)布時(shí)間:2024-02-17 17:31
  針對(duì)卷積神經(jīng)網(wǎng)絡(luò)在連續(xù)語(yǔ)音識(shí)別中識(shí)別性能較差的問(wèn)題,提出多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別的算法,并結(jié)合聯(lián)結(jié)時(shí)序分類算法,構(gòu)建端到端中文語(yǔ)音識(shí)別系統(tǒng)。將多尺度學(xué)習(xí)和殘差機(jī)制以及空洞卷積引入到神經(jīng)網(wǎng)絡(luò)中,擺脫序列建模對(duì)長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的依賴,提高模型的訓(xùn)練速度,增強(qiáng)語(yǔ)音識(shí)別的抗噪聲干擾性。實(shí)驗(yàn)表明,與雙向長(zhǎng)短時(shí)記憶模型(BLSTM)、深度卷積神經(jīng)網(wǎng)絡(luò)模型(DCNN)和卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短時(shí)記憶模型(CNN-LSTM)相比,該模型的字錯(cuò)誤率WER(Word Error Rate)分別降低了9%、5%和3%左右,且在噪聲環(huán)境下的識(shí)別率也優(yōu)于傳統(tǒng)的語(yǔ)音識(shí)別系統(tǒng)。

【文章頁(yè)數(shù)】:5 頁(yè)

【部分圖文】:

圖1語(yǔ)音信號(hào)的時(shí)頻圖

圖1語(yǔ)音信號(hào)的時(shí)頻圖

語(yǔ)音當(dāng)前的狀態(tài),與前后的狀態(tài)都有關(guān),網(wǎng)絡(luò)層數(shù)越多,丟失的細(xì)節(jié)信息越多,因此本文引入多尺度特征。圖1為一段純凈語(yǔ)音的時(shí)頻圖,圖2為加了噪聲的語(yǔ)音時(shí)頻圖,兩幅圖所表示的語(yǔ)音內(nèi)容相同,橫向?yàn)闀r(shí)間軸,縱向?yàn)轭l率軸,該段語(yǔ)音有16s,時(shí)頻圖的時(shí)間軸較長(zhǎng)。時(shí)頻圖反映了語(yǔ)音的信號(hào)強(qiáng)度在不同頻....


圖2含噪語(yǔ)音的時(shí)頻圖

圖2含噪語(yǔ)音的時(shí)頻圖

圖1語(yǔ)音信號(hào)的時(shí)頻圖圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型


圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型

圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型

圖2含噪語(yǔ)音的時(shí)頻圖2連接時(shí)序CTC的應(yīng)用


圖4不同信噪比下不同模型的誤碼率(cafe)

圖4不同信噪比下不同模型的誤碼率(cafe)

本文還對(duì)比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經(jīng)網(wǎng)絡(luò)比BLSTM網(wǎng)絡(luò)的抗噪聲性能更加穩(wěn)定,噪聲越強(qiáng),BLSTM網(wǎng)絡(luò)的識(shí)別率較差并且識(shí)別率下降更快,不利于實(shí)際生活中的應(yīng)用。而....



本文編號(hào):3901145

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3901145.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0e2ff***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com