神經(jīng)網(wǎng)絡時序分類方法在語音識別中的應用研究

發(fā)布時間：2020-10-25 01:38

　　隨著人工智能領域研究的深入以及大數(shù)據(jù)語料的不斷積累,語音識別技術得到突飛猛進的發(fā)展,神經(jīng)網(wǎng)絡開始大規(guī)模應用于語音識別技術,端到端語音識別成為近年來人工智能研究的熱點課題。然而,由于特定說話人含有不同發(fā)音特性、不同語種發(fā)音特性不同等原因,導致端到端語音識別模型對中文的識別準確率偏低�；谝陨媳尘�,本文結(jié)合中文語言模型對現(xiàn)下主流端到端語音識別框架的結(jié)構進行研究和改進,以提高端到端語音識別框架對于漢語的識別準確率和效率。首先,本文設計基于傳統(tǒng)隱馬爾科夫-混合高斯聲學模型結(jié)合詞典和N-gram語言模型的建模方法作為本文的基線實驗。在對隱馬爾科夫-混合高斯模型的研究中,對語音信號易于受到上下文內(nèi)容影響的問題,設計利用上下文相關的三音素聲學模型,通過考慮每一音素相鄰的前后音素,進而提升模型性能。同時,對語音易受到說話人發(fā)音特性影響的問題,設計融合說話人自適應技術的隱馬爾科夫-混合高斯模型的建模方式,以提高本文基線實驗的識別準確率。其次,本文針對端到端框架對中文識別準確率較低的問題,提出結(jié)合語言模型的非完全端到端框架的語音識別方法,將非完全端到端框架應用于神經(jīng)網(wǎng)絡時序分類方法對語音識別的研究中。針對LSTM-CTC端到端模型計算復雜度高,訓練速度耗時過長的問題,本文提出了一種改進的映射長短期記憶時序網(wǎng)絡,用以優(yōu)化模型的訓練速率。同時針對語音特征的長時依賴性并不只有正向傳播的特點,在端到端模型中設計采用雙向映射長短期記憶時序網(wǎng)絡,替代固有的單向長短期記憶時序網(wǎng)絡,通過對語音特征進行雙向提取,從而提高模型的準確率。最后,選取希爾貝殼公司的AISHELL語音數(shù)據(jù)庫對本文所提出的方法進行實驗驗證,針對實驗過程中雙向神經(jīng)網(wǎng)絡訓練易產(chǎn)生過擬合的問題,將語音數(shù)據(jù)庫通過速度擾動技術進行擴充、實驗。最終實驗結(jié)果顯示,模型的準確率和速率較基線實驗結(jié)果都得到顯著提升。
【學位單位】：東北石油大學
【學位級別】：碩士
【學位年份】：2019
【中圖分類】：TN912.34
【部分圖文】：

波形,語音識別,基本原理,分幀