噪聲環(huán)境下孤立詞語音識別研究

發(fā)布時間：2020-10-31 10:52

　　通常人類可以在背景音樂、引擎聲音和其他聲學噪音環(huán)境中識別語音,但自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)在這種環(huán)境中表現不佳。最近在神經科學方面的實驗和理論工作已經發(fā)現了許多可以用來解決這個問題的方法。本文基于生物啟發(fā)的ASR方法在噪聲環(huán)境下進行對ASR穩(wěn)健性的研究。首先本文對譜時響應野(Spectrotemporal Receptive Field,STRF)進行理論研究,通過對比基于STRF的目標函數和ETSI在不同信噪比環(huán)境下的識別率,實驗結果證明以聽覺神經元STRF為模型的ASR在噪聲環(huán)境下穩(wěn)健性有所提高,但其整體性能沒有明顯改善。其次,本文使用基于尖峰模型神經元的語音表征方法,該方法中的神經元是特征檢測器,其在語音的短時間窗口內選擇性地響應時間特征。并且提出一種基于支持向量機(Upport Vector Machine,SVM)的訓練神經元響應特性的方法,將STRF中的神經元計算結果與先前無輔助手段下的神經響應結果進行比較,發(fā)現神經元中的尖峰序列能夠提高系統(tǒng)穩(wěn)健性。本文使用兩種方法對基于尖峰的語音表征進行解碼,第一種方法使用基于隱馬爾可夫模型的經典ASR技術;第二種方法是一種改進的基于模板的識別方法,該方法是基于尖峰序列之間最長公共子序列的語音相似性度量。在不同信噪比環(huán)境下進行正交優(yōu)化實驗,實驗結果表明性能最優(yōu)的組合為基于尖峰模型神經元的語音表征和改進的基于模板的識別方法。最后,應用標記音節(jié)核心位置的音節(jié)檢測方法來解碼連續(xù)語音的尖峰表征,該方法通過將音節(jié)信息并入ASR系統(tǒng),并結合基于SVM的訓練與峰值選擇算法。使用該方法與傳統(tǒng)方法在不同信噪比環(huán)境下進行連續(xù)語音解碼,實驗結果表明該方法有效提高在噪聲條件下的識別率。然而,該方法在無噪聲條件下的識別率低于傳統(tǒng)方法。
【學位單位】：長春理工大學
【學位級別】：碩士
【學位年份】：2018
【中圖分類】：TN912.34
【部分圖文】：

聽覺,差距,語音識別

果差距仍然很大。2005 年，Sroka 和 Braida 在音識別結果與人類聽覺結果進行比較，其信噪]。2011 年一項類似研究中也發(fā)現了 15 dB 的差足[3]。2013 年基于神經科學啟發(fā)方法的研究中語音識別會有 10 dB 的性能差距（圖 1.2）[4]。

聽覺,數字識別,人類,差距

結果差距仍然很大。2005 年，Sroka 和 Braida 在加性的輔音識別結果與人類聽覺結果進行比較，其信噪比（1）[2]。2011 年一項類似研究中也發(fā)現了 15 dB 的差距，不足[3]。2013 年基于神經科學啟發(fā)方法的研究中發(fā)現用語音識別會有 10 dB 的性能差距（圖 1.2）[4]。圖 1ASR 輔音識別與人類聽覺相比較

聽覺通路

1.2.2 大腦中的聽覺表示和編碼大腦處理語音和其他聲音如圖1.3所示，進入耳朵的聲音通過中耳骨傳遞到耳蝸。耳蝸的基底膜與語音中的各種頻率分量共振，將這些振動轉換成通過聽覺神經發(fā)送到大腦的電信號。在腦干中，耳蝸核中的各種細胞類型對電信號進行歸一化和調制檢測，并將信號分離成“流”用于源定位和模式識別[19,21]。信息通過上橄欖體兩耳信號合并繼續(xù)到下丘（Inferior Colliculus, IC）。IC開始識別基本的時頻調制，并通過丘腦的內側膝狀體核（Medial Geniculate Nucleus, MGN）將信號發(fā)送到皮層[19,22,23]，研究重點在聽覺皮層上。圖 1.3 聽覺通路圖系統(tǒng)神經科學最近的工作揭示了有關神經反應及其在該領域信息處理中的作用的見解。這些見解幾乎沒有涉及到 ASR，因此為新的基于生物學啟發(fā)的方法提供了豐富的想法。1.2.2.1 譜時響應野（Spectrotemporal Receptive Field, STRF）30 年前首先由 Aertsen 和 Johannesma 提出聽覺神經元的 STRF，這些研究的結果
【參考文獻】

相關期刊論文前1條

1 麥麥提艾力·吐爾遜;戴禮榮;;深度神經網絡在維吾爾語大詞匯量連續(xù)語音識別中的應用[J];數據采集與處理;2015年02期

相關博士學位論文前2條

1 張仕良;基于深度神經網絡的語音識別模型研究[D];中國科學技術大學;2017年

2 游大濤;基于聽覺機理的魯棒特征提取及在說話人識別中的應用[D];哈爾濱工業(yè)大學;2013年

相關碩士學位論文前5條

1 劉勝江;連續(xù)數字語音識別系統(tǒng)的研究及應用[D];浙江工業(yè)大學;2016年

2 朱曉明;序列的公共特征提取算法研究[D];大連理工大學;2016年

3 王一蒙;語音識別關鍵技術研究[D];電子科技大學;2015年

4 王真真;改進的稀疏最小二乘支持向量機在語音識別中的應用[D];太原理工大學;2014年

5 郭偉;基于聽覺神經原理的語音信號處理[D];上海交通大學;2009年

本文編號：2863849

資料下載