天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN-BGRU的音素識別研究

發(fā)布時間:2021-07-19 16:49
  音素是一個語言體系中最小的語音單位,音素識別在大詞匯語音識別任務(wù)中不受詞匯和語句的限制.因此,選擇音素作為識別單元,建立基于CNN-BGRU的神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)音素語譜圖的分類.首先,使用短時傅里葉變換生成音素語譜圖作為模型的輸入;其次建立CNN-BGRU模型,利用改進的VGGNet模型提取音素語譜圖的特征,再使用雙向門控循環(huán)單元(BGRU)實現(xiàn)音素語譜圖的序列信息表示;最后,通過Softmax分類器實現(xiàn)音素語譜圖的分類.實驗使用TIMIT英語語音數(shù)據(jù)集進行音素語譜圖識別,準(zhǔn)確率達到98.6%,優(yōu)于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM這4個模型. 

【文章來源】:云南民族大學(xué)學(xué)報(自然科學(xué)版). 2020,29(05)

【文章頁數(shù)】:8 頁

【部分圖文】:

基于CNN-BGRU的音素識別研究


卷積核大小的影響

結(jié)構(gòu)圖,結(jié)構(gòu)圖,全連接,特征圖


1) 由于全連接層的參數(shù)量較大,所以通過減少全連接層來降低整個網(wǎng)絡(luò)的參數(shù)總量,以此來提升VGGNet模型的性能,本文將VGGNet模型的3個全連接層減少為1個全連接層.2) 由于全局均值池化層能通過加強特征圖與標(biāo)簽之間的對應(yīng)關(guān)系提升網(wǎng)絡(luò)的特征提取能力,所以本章使用全局均值池化層代替最后1個最大池化層,求得每個特征圖的平均值,然后將輸出的結(jié)果向量直接輸入softmax層,這樣可以在保證網(wǎng)絡(luò)性能的情況下,有效地減少網(wǎng)絡(luò)的參數(shù)數(shù)量.

模型結(jié)構(gòu),圖像特征,音素,語譜圖


卷積神經(jīng)網(wǎng)絡(luò)CNN對于圖像識別任務(wù)效果出色,VGGNet在提取圖像特征上具有優(yōu)勢,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擅長時序數(shù)據(jù)的處理,BGRU對于序列信息識別效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素語譜圖的圖像特征;然后將圖像特征輸入BGRU模型,通過正向傳遞隱層和反向傳遞隱層實現(xiàn)音素語譜圖的序列信息表示;最后輸入給SoftMax分類器輸出分類結(jié)果,VGG-BGRU模型結(jié)構(gòu)圖如圖5所示:圖5 改進CNN-BGRU模型結(jié)構(gòu)

【參考文獻】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的音素識別研究[J]. 黎長江,胡燕.  微電子學(xué)與計算機. 2017(08)
[2]基于用戶和產(chǎn)品Attention機制的層次BGRU模型[J]. 鄭雄風(fēng),丁立新,萬潤澤.  計算機工程與應(yīng)用. 2018(11)
[3]一種基于RBM的深層神經(jīng)網(wǎng)絡(luò)音素識別方法[J]. 陳琦,張文林,牛銅,李弼程.  信息工程大學(xué)學(xué)報. 2013(05)
[4]論漢語方言語音的演變[J]. 李如龍.  語言研究. 1999(01)



本文編號:3291061

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/3291061.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶da57d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com