基于CNN-BGRU的音素識別研究
發(fā)布時間:2021-07-19 16:49
音素是一個語言體系中最小的語音單位,音素識別在大詞匯語音識別任務(wù)中不受詞匯和語句的限制.因此,選擇音素作為識別單元,建立基于CNN-BGRU的神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)音素語譜圖的分類.首先,使用短時傅里葉變換生成音素語譜圖作為模型的輸入;其次建立CNN-BGRU模型,利用改進(jìn)的VGGNet模型提取音素語譜圖的特征,再使用雙向門控循環(huán)單元(BGRU)實現(xiàn)音素語譜圖的序列信息表示;最后,通過Softmax分類器實現(xiàn)音素語譜圖的分類.實驗使用TIMIT英語語音數(shù)據(jù)集進(jìn)行音素語譜圖識別,準(zhǔn)確率達(dá)到98.6%,優(yōu)于CNN(VGG16)、CNN-RNN、CNN-BRNN、CNN-BLSTM這4個模型.
【文章來源】:云南民族大學(xué)學(xué)報(自然科學(xué)版). 2020,29(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
卷積核大小的影響
1) 由于全連接層的參數(shù)量較大,所以通過減少全連接層來降低整個網(wǎng)絡(luò)的參數(shù)總量,以此來提升VGGNet模型的性能,本文將VGGNet模型的3個全連接層減少為1個全連接層.2) 由于全局均值池化層能通過加強特征圖與標(biāo)簽之間的對應(yīng)關(guān)系提升網(wǎng)絡(luò)的特征提取能力,所以本章使用全局均值池化層代替最后1個最大池化層,求得每個特征圖的平均值,然后將輸出的結(jié)果向量直接輸入softmax層,這樣可以在保證網(wǎng)絡(luò)性能的情況下,有效地減少網(wǎng)絡(luò)的參數(shù)數(shù)量.
卷積神經(jīng)網(wǎng)絡(luò)CNN對于圖像識別任務(wù)效果出色,VGGNet在提取圖像特征上具有優(yōu)勢,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擅長時序數(shù)據(jù)的處理,BGRU對于序列信息識別效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素語譜圖的圖像特征;然后將圖像特征輸入BGRU模型,通過正向傳遞隱層和反向傳遞隱層實現(xiàn)音素語譜圖的序列信息表示;最后輸入給SoftMax分類器輸出分類結(jié)果,VGG-BGRU模型結(jié)構(gòu)圖如圖5所示:圖5 改進(jìn)CNN-BGRU模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的音素識別研究[J]. 黎長江,胡燕. 微電子學(xué)與計算機(jī). 2017(08)
[2]基于用戶和產(chǎn)品Attention機(jī)制的層次BGRU模型[J]. 鄭雄風(fēng),丁立新,萬潤澤. 計算機(jī)工程與應(yīng)用. 2018(11)
[3]一種基于RBM的深層神經(jīng)網(wǎng)絡(luò)音素識別方法[J]. 陳琦,張文林,牛銅,李弼程. 信息工程大學(xué)學(xué)報. 2013(05)
[4]論漢語方言語音的演變[J]. 李如龍. 語言研究. 1999(01)
本文編號:3291061
【文章來源】:云南民族大學(xué)學(xué)報(自然科學(xué)版). 2020,29(05)
【文章頁數(shù)】:8 頁
【部分圖文】:
卷積核大小的影響
1) 由于全連接層的參數(shù)量較大,所以通過減少全連接層來降低整個網(wǎng)絡(luò)的參數(shù)總量,以此來提升VGGNet模型的性能,本文將VGGNet模型的3個全連接層減少為1個全連接層.2) 由于全局均值池化層能通過加強特征圖與標(biāo)簽之間的對應(yīng)關(guān)系提升網(wǎng)絡(luò)的特征提取能力,所以本章使用全局均值池化層代替最后1個最大池化層,求得每個特征圖的平均值,然后將輸出的結(jié)果向量直接輸入softmax層,這樣可以在保證網(wǎng)絡(luò)性能的情況下,有效地減少網(wǎng)絡(luò)的參數(shù)數(shù)量.
卷積神經(jīng)網(wǎng)絡(luò)CNN對于圖像識別任務(wù)效果出色,VGGNet在提取圖像特征上具有優(yōu)勢,循環(huán)神經(jīng)網(wǎng)絡(luò)RNN擅長時序數(shù)據(jù)的處理,BGRU對于序列信息識別效果出色.本文提出的CNN-BGRU模型利用VGGNet提取音素語譜圖的圖像特征;然后將圖像特征輸入BGRU模型,通過正向傳遞隱層和反向傳遞隱層實現(xiàn)音素語譜圖的序列信息表示;最后輸入給SoftMax分類器輸出分類結(jié)果,VGG-BGRU模型結(jié)構(gòu)圖如圖5所示:圖5 改進(jìn)CNN-BGRU模型結(jié)構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)的音素識別研究[J]. 黎長江,胡燕. 微電子學(xué)與計算機(jī). 2017(08)
[2]基于用戶和產(chǎn)品Attention機(jī)制的層次BGRU模型[J]. 鄭雄風(fēng),丁立新,萬潤澤. 計算機(jī)工程與應(yīng)用. 2018(11)
[3]一種基于RBM的深層神經(jīng)網(wǎng)絡(luò)音素識別方法[J]. 陳琦,張文林,牛銅,李弼程. 信息工程大學(xué)學(xué)報. 2013(05)
[4]論漢語方言語音的演變[J]. 李如龍. 語言研究. 1999(01)
本文編號:3291061
本文鏈接:http://sikaile.net/kejilunwen/wltx/3291061.html
最近更新
教材專著