神經(jīng)網(wǎng)絡時序分類方法在語音識別中的應用研究
發(fā)布時間:2020-10-25 01:38
隨著人工智能領域研究的深入以及大數(shù)據(jù)語料的不斷積累,語音識別技術得到突飛猛進的發(fā)展,神經(jīng)網(wǎng)絡開始大規(guī)模應用于語音識別技術,端到端語音識別成為近年來人工智能研究的熱點課題。然而,由于特定說話人含有不同發(fā)音特性、不同語種發(fā)音特性不同等原因,導致端到端語音識別模型對中文的識別準確率偏低;谝陨媳尘,本文結(jié)合中文語言模型對現(xiàn)下主流端到端語音識別框架的結(jié)構進行研究和改進,以提高端到端語音識別框架對于漢語的識別準確率和效率。首先,本文設計基于傳統(tǒng)隱馬爾科夫-混合高斯聲學模型結(jié)合詞典和N-gram語言模型的建模方法作為本文的基線實驗。在對隱馬爾科夫-混合高斯模型的研究中,對語音信號易于受到上下文內(nèi)容影響的問題,設計利用上下文相關的三音素聲學模型,通過考慮每一音素相鄰的前后音素,進而提升模型性能。同時,對語音易受到說話人發(fā)音特性影響的問題,設計融合說話人自適應技術的隱馬爾科夫-混合高斯模型的建模方式,以提高本文基線實驗的識別準確率。其次,本文針對端到端框架對中文識別準確率較低的問題,提出結(jié)合語言模型的非完全端到端框架的語音識別方法,將非完全端到端框架應用于神經(jīng)網(wǎng)絡時序分類方法對語音識別的研究中。針對LSTM-CTC端到端模型計算復雜度高,訓練速度耗時過長的問題,本文提出了一種改進的映射長短期記憶時序網(wǎng)絡,用以優(yōu)化模型的訓練速率。同時針對語音特征的長時依賴性并不只有正向傳播的特點,在端到端模型中設計采用雙向映射長短期記憶時序網(wǎng)絡,替代固有的單向長短期記憶時序網(wǎng)絡,通過對語音特征進行雙向提取,從而提高模型的準確率。最后,選取希爾貝殼公司的AISHELL語音數(shù)據(jù)庫對本文所提出的方法進行實驗驗證,針對實驗過程中雙向神經(jīng)網(wǎng)絡訓練易產(chǎn)生過擬合的問題,將語音數(shù)據(jù)庫通過速度擾動技術進行擴充、實驗。最終實驗結(jié)果顯示,模型的準確率和速率較基線實驗結(jié)果都得到顯著提升。
【學位單位】:東北石油大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
語音識別基本原理圖
神經(jīng)元示意圖
前饋神經(jīng)網(wǎng)絡結(jié)構圖
【參考文獻】
本文編號:2855267
【學位單位】:東北石油大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
語音識別基本原理圖
神經(jīng)元示意圖
前饋神經(jīng)網(wǎng)絡結(jié)構圖
【參考文獻】
相關期刊論文 前6條
1 張湘莉蘭;駱志剛;李明;;Merge-Weighted Dynamic Time Warping for Speech Recognition[J];Journal of Computer Science and Technology;2014年06期
2 邢安昊;黎塔;顏永紅;;利用二重打分方法的激活詞語音識別[J];聲學技術;2013年S1期
3 賀玲玲;周元;;基于改進MFCC的異常聲音識別算法[J];重慶工商大學學報(自然科學版);2012年02期
4 闕大順;趙永安;文先林;李蓓;;基于DHMM和VQ的關鍵詞識別系統(tǒng)研究[J];武漢理工大學學報;2011年02期
5 馬婉婕;孫虎元;孫立娟;孫曉光;;基于神經(jīng)網(wǎng)絡集成的手寫識別系統(tǒng)[J];計算機應用與軟件;2009年08期
6 曾國蓀;改善神經(jīng)網(wǎng)絡反向傳播算法的訓練時間[J];小型微型計算機系統(tǒng);1996年11期
本文編號:2855267
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2855267.html
最近更新
教材專著