噪聲環(huán)境下孤立詞語音識別研究
發(fā)布時間:2020-10-31 10:52
通常人類可以在背景音樂、引擎聲音和其他聲學噪音環(huán)境中識別語音,但自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)在這種環(huán)境中表現(xiàn)不佳。最近在神經(jīng)科學方面的實驗和理論工作已經(jīng)發(fā)現(xiàn)了許多可以用來解決這個問題的方法。本文基于生物啟發(fā)的ASR方法在噪聲環(huán)境下進行對ASR穩(wěn)健性的研究。首先本文對譜時響應(yīng)野(Spectrotemporal Receptive Field,STRF)進行理論研究,通過對比基于STRF的目標函數(shù)和ETSI在不同信噪比環(huán)境下的識別率,實驗結(jié)果證明以聽覺神經(jīng)元STRF為模型的ASR在噪聲環(huán)境下穩(wěn)健性有所提高,但其整體性能沒有明顯改善。其次,本文使用基于尖峰模型神經(jīng)元的語音表征方法,該方法中的神經(jīng)元是特征檢測器,其在語音的短時間窗口內(nèi)選擇性地響應(yīng)時間特征。并且提出一種基于支持向量機(Upport Vector Machine,SVM)的訓練神經(jīng)元響應(yīng)特性的方法,將STRF中的神經(jīng)元計算結(jié)果與先前無輔助手段下的神經(jīng)響應(yīng)結(jié)果進行比較,發(fā)現(xiàn)神經(jīng)元中的尖峰序列能夠提高系統(tǒng)穩(wěn)健性。本文使用兩種方法對基于尖峰的語音表征進行解碼,第一種方法使用基于隱馬爾可夫模型的經(jīng)典ASR技術(shù);第二種方法是一種改進的基于模板的識別方法,該方法是基于尖峰序列之間最長公共子序列的語音相似性度量。在不同信噪比環(huán)境下進行正交優(yōu)化實驗,實驗結(jié)果表明性能最優(yōu)的組合為基于尖峰模型神經(jīng)元的語音表征和改進的基于模板的識別方法。最后,應(yīng)用標記音節(jié)核心位置的音節(jié)檢測方法來解碼連續(xù)語音的尖峰表征,該方法通過將音節(jié)信息并入ASR系統(tǒng),并結(jié)合基于SVM的訓練與峰值選擇算法。使用該方法與傳統(tǒng)方法在不同信噪比環(huán)境下進行連續(xù)語音解碼,實驗結(jié)果表明該方法有效提高在噪聲條件下的識別率。然而,該方法在無噪聲條件下的識別率低于傳統(tǒng)方法。
【學位單位】:長春理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.34
【部分圖文】:
果差距仍然很大。2005 年,Sroka 和 Braida 在音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中語音識別會有 10 dB 的性能差距(圖 1.2)[4]。
結(jié)果差距仍然很大。2005 年,Sroka 和 Braida 在加性 的輔音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪比(1)[2]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差距,不足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中發(fā)現(xiàn)用語音識別會有 10 dB 的性能差距(圖 1.2)[4]。圖 1ASR 輔音識別與人類聽覺相比較
1.2.2 大腦中的聽覺表示和編碼大腦處理語音和其他聲音如圖1.3所示,進入耳朵的聲音通過中耳骨傳遞到耳蝸。耳蝸的基底膜與語音中的各種頻率分量共振,將這些振動轉(zhuǎn)換成通過聽覺神經(jīng)發(fā)送到大腦的電信號。在腦干中,耳蝸核中的各種細胞類型對電信號進行歸一化和調(diào)制檢測,并將信號分離成“流”用于源定位和模式識別[19,21]。信息通過上橄欖體兩耳信號合并繼續(xù)到下丘(Inferior Colliculus, IC)。IC開始識別基本的時頻調(diào)制,并通過丘腦的內(nèi)側(cè)膝狀體核(Medial Geniculate Nucleus, MGN)將信號發(fā)送到皮層[19,22,23],研究重點在聽覺皮層上。圖 1.3 聽覺通路圖系統(tǒng)神經(jīng)科學最近的工作揭示了有關(guān)神經(jīng)反應(yīng)及其在該領(lǐng)域信息處理中的作用的見解。這些見解幾乎沒有涉及到 ASR,因此為新的基于生物學啟發(fā)的方法提供了豐富的想法。1.2.2.1 譜時響應(yīng)野(Spectrotemporal Receptive Field, STRF)30 年前首先由 Aertsen 和 Johannesma 提出聽覺神經(jīng)元的 STRF,這些研究的結(jié)果
【參考文獻】
本文編號:2863849
【學位單位】:長春理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.34
【部分圖文】:
果差距仍然很大。2005 年,Sroka 和 Braida 在音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中語音識別會有 10 dB 的性能差距(圖 1.2)[4]。
結(jié)果差距仍然很大。2005 年,Sroka 和 Braida 在加性 的輔音識別結(jié)果與人類聽覺結(jié)果進行比較,其信噪比(1)[2]。2011 年一項類似研究中也發(fā)現(xiàn)了 15 dB 的差距,不足[3]。2013 年基于神經(jīng)科學啟發(fā)方法的研究中發(fā)現(xiàn)用語音識別會有 10 dB 的性能差距(圖 1.2)[4]。圖 1ASR 輔音識別與人類聽覺相比較
1.2.2 大腦中的聽覺表示和編碼大腦處理語音和其他聲音如圖1.3所示,進入耳朵的聲音通過中耳骨傳遞到耳蝸。耳蝸的基底膜與語音中的各種頻率分量共振,將這些振動轉(zhuǎn)換成通過聽覺神經(jīng)發(fā)送到大腦的電信號。在腦干中,耳蝸核中的各種細胞類型對電信號進行歸一化和調(diào)制檢測,并將信號分離成“流”用于源定位和模式識別[19,21]。信息通過上橄欖體兩耳信號合并繼續(xù)到下丘(Inferior Colliculus, IC)。IC開始識別基本的時頻調(diào)制,并通過丘腦的內(nèi)側(cè)膝狀體核(Medial Geniculate Nucleus, MGN)將信號發(fā)送到皮層[19,22,23],研究重點在聽覺皮層上。圖 1.3 聽覺通路圖系統(tǒng)神經(jīng)科學最近的工作揭示了有關(guān)神經(jīng)反應(yīng)及其在該領(lǐng)域信息處理中的作用的見解。這些見解幾乎沒有涉及到 ASR,因此為新的基于生物學啟發(fā)的方法提供了豐富的想法。1.2.2.1 譜時響應(yīng)野(Spectrotemporal Receptive Field, STRF)30 年前首先由 Aertsen 和 Johannesma 提出聽覺神經(jīng)元的 STRF,這些研究的結(jié)果
【參考文獻】
相關(guān)期刊論文 前1條
1 麥麥提艾力·吐爾遜;戴禮榮;;深度神經(jīng)網(wǎng)絡(luò)在維吾爾語大詞匯量連續(xù)語音識別中的應(yīng)用[J];數(shù)據(jù)采集與處理;2015年02期
相關(guān)博士學位論文 前2條
1 張仕良;基于深度神經(jīng)網(wǎng)絡(luò)的語音識別模型研究[D];中國科學技術(shù)大學;2017年
2 游大濤;基于聽覺機理的魯棒特征提取及在說話人識別中的應(yīng)用[D];哈爾濱工業(yè)大學;2013年
相關(guān)碩士學位論文 前5條
1 劉勝江;連續(xù)數(shù)字語音識別系統(tǒng)的研究及應(yīng)用[D];浙江工業(yè)大學;2016年
2 朱曉明;序列的公共特征提取算法研究[D];大連理工大學;2016年
3 王一蒙;語音識別關(guān)鍵技術(shù)研究[D];電子科技大學;2015年
4 王真真;改進的稀疏最小二乘支持向量機在語音識別中的應(yīng)用[D];太原理工大學;2014年
5 郭偉;基于聽覺神經(jīng)原理的語音信號處理[D];上海交通大學;2009年
本文編號:2863849
本文鏈接:http://sikaile.net/kejilunwen/wltx/2863849.html
最近更新
教材專著