基于卷積神經(jīng)網(wǎng)絡(luò)的大容量漢語孤立字語音識別方法
發(fā)布時間:2021-03-20 13:55
使用錄音設(shè)備對1 605個常用漢字進(jìn)行錄音,得到920個孤立字發(fā)音、3 680個非特定人的語音樣本庫.采用語音語譜圖作為漢語單字語音識別的特征,構(gòu)建了6層卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于模型庫的語音識別.通過深度學(xué)習(xí)方法對語音樣本進(jìn)行了訓(xùn)練和識別.實(shí)驗(yàn)結(jié)果表明,所構(gòu)造的20-40-3500結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型對語音樣本庫具有最好的識別效果,對測試樣本的識別率達(dá)到97.87%,對全部樣本的識別率達(dá)到99.32%.
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020,52(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
漢字發(fā)音zhao一聲時的彩色語譜圖與灰度圖
(4)語音信號加窗:進(jìn)行預(yù)加重數(shù)字濾波處理后,進(jìn)行加窗分幀處理[10].語音信號具有短時平穩(wěn)性,這樣就可以把語音信號分為一些短時間段來進(jìn)行處理,這就是分幀.語音信號的分幀是采用可移動的有限長度的窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的.一般每秒的幀數(shù)為33~100幀,視情況而定.一般的分幀方法為交疊分段的方法,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為0~0.5(見圖7).圖7 語音預(yù)加重例圖
語音預(yù)加重例圖
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J]. 陳耀丹,王連明. 東北師大學(xué)報(自然科學(xué)版). 2016(02)
[2]基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J]. 王山海,景新幸,楊海燕. 計算機(jī)應(yīng)用研究. 2015(08)
[3]卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J]. 張晴晴,劉勇,王智超,潘接林,顏永紅. 網(wǎng)絡(luò)新媒體技術(shù). 2014(06)
[4]基于聽覺仿生模型的樂器識別[J]. 張琳,王珊,秦曉瑜,陳海霞,王連明. 東北師大學(xué)報(自然科學(xué)版). 2014(01)
[5]漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J]. 劉加. 電子學(xué)報. 2000(01)
[6]最大互信息用于語音識別[J]. 張春濤,吳善培. 北京郵電大學(xué)學(xué)報. 1998(03)
[7]基于話者分類和HMM的話者自適應(yīng)語音識別[J]. 戴蓓倩,郁正慶,戴任飛,張勁松,王長富,司虎. 中國科學(xué)技術(shù)大學(xué)學(xué)報. 1996(02)
本文編號:3091112
【文章來源】:東北師大學(xué)報(自然科學(xué)版). 2020,52(02)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
漢字發(fā)音zhao一聲時的彩色語譜圖與灰度圖
(4)語音信號加窗:進(jìn)行預(yù)加重數(shù)字濾波處理后,進(jìn)行加窗分幀處理[10].語音信號具有短時平穩(wěn)性,這樣就可以把語音信號分為一些短時間段來進(jìn)行處理,這就是分幀.語音信號的分幀是采用可移動的有限長度的窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)的.一般每秒的幀數(shù)為33~100幀,視情況而定.一般的分幀方法為交疊分段的方法,前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般為0~0.5(見圖7).圖7 語音預(yù)加重例圖
語音預(yù)加重例圖
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J]. 陳耀丹,王連明. 東北師大學(xué)報(自然科學(xué)版). 2016(02)
[2]基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識別的研究[J]. 王山海,景新幸,楊海燕. 計算機(jī)應(yīng)用研究. 2015(08)
[3]卷積神經(jīng)網(wǎng)絡(luò)在語音識別中的應(yīng)用[J]. 張晴晴,劉勇,王智超,潘接林,顏永紅. 網(wǎng)絡(luò)新媒體技術(shù). 2014(06)
[4]基于聽覺仿生模型的樂器識別[J]. 張琳,王珊,秦曉瑜,陳海霞,王連明. 東北師大學(xué)報(自然科學(xué)版). 2014(01)
[5]漢語大詞匯量連續(xù)語音識別系統(tǒng)研究進(jìn)展[J]. 劉加. 電子學(xué)報. 2000(01)
[6]最大互信息用于語音識別[J]. 張春濤,吳善培. 北京郵電大學(xué)學(xué)報. 1998(03)
[7]基于話者分類和HMM的話者自適應(yīng)語音識別[J]. 戴蓓倩,郁正慶,戴任飛,張勁松,王長富,司虎. 中國科學(xué)技術(shù)大學(xué)學(xué)報. 1996(02)
本文編號:3091112
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3091112.html
最近更新
教材專著