基于多尺度殘差深度卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
圖1語(yǔ)音信號(hào)的時(shí)頻圖
語(yǔ)音當(dāng)前的狀態(tài),與前后的狀態(tài)都有關(guān),網(wǎng)絡(luò)層數(shù)越多,丟失的細(xì)節(jié)信息越多,因此本文引入多尺度特征。圖1為一段純凈語(yǔ)音的時(shí)頻圖,圖2為加了噪聲的語(yǔ)音時(shí)頻圖,兩幅圖所表示的語(yǔ)音內(nèi)容相同,橫向?yàn)闀r(shí)間軸,縱向?yàn)轭l率軸,該段語(yǔ)音有16s,時(shí)頻圖的時(shí)間軸較長(zhǎng)。時(shí)頻圖反映了語(yǔ)音的信號(hào)強(qiáng)度在不同頻....
圖2含噪語(yǔ)音的時(shí)頻圖
圖1語(yǔ)音信號(hào)的時(shí)頻圖圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型
圖3多尺度殘差深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別模型
圖2含噪語(yǔ)音的時(shí)頻圖2連接時(shí)序CTC的應(yīng)用
圖4不同信噪比下不同模型的誤碼率(cafe)
本文還對(duì)比不同噪聲在低信噪比下的BLSTM、DCNN1、CNN-LSTM模型和本文模型的誤碼率。由圖4-圖6可知,在低信噪比下,本文提出的多尺度殘差深度神經(jīng)網(wǎng)絡(luò)比BLSTM網(wǎng)絡(luò)的抗噪聲性能更加穩(wěn)定,噪聲越強(qiáng),BLSTM網(wǎng)絡(luò)的識(shí)別率較差并且識(shí)別率下降更快,不利于實(shí)際生活中的應(yīng)用。而....
本文編號(hào):3901145
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3901145.html