噪聲下的語音識別算法研究
發(fā)布時間:2020-06-26 02:06
【摘要】:隨著科學的進步和技術(shù)的發(fā)展,語音識別算法和相應的識別系統(tǒng)已經(jīng)相當成熟。動態(tài)時間規(guī)整算法(DTW)、矢量量化算法(VQ)、隱馬爾可夫模型(HMM)以及人工神經(jīng)網(wǎng)絡(ANN)等算法,使得語音識別無論是識別率還是識別效率上都有較大的提升。目前,在實驗室環(huán)境下,語音識別系統(tǒng)對純凈語音的識別率能夠達到95%以上,具有一個非常高的識別精度。但是復雜噪聲環(huán)境中,具有各種來源的噪聲。在這樣的噪聲環(huán)境下,語音識別系統(tǒng)的識別率會受到很大的影響,由于訓練樣本與樣本庫特征的失配,使得系統(tǒng)的識別性能急劇下降。因此,若要將語音識別系統(tǒng)進行有效的實際應用,如何設計出抗噪聲的識別將是目前真正需要解決的問題。本文首先從近幾十年的語音識別的發(fā)展出發(fā),介紹了語音識別系統(tǒng)的基本概念以及整體結(jié)構(gòu),包括對語音信號進行采樣,語音分離去噪,預加重,分幀加窗,進行端點檢測等過程進行了介紹,并詳細對端點檢測的兩種方法進行分析說明。之后對車載語音識別系統(tǒng)進行了介紹,并結(jié)合相關需求,引入戰(zhàn)場指揮車車載語音識別系統(tǒng)的概念,通過公交車環(huán)境對戰(zhàn)場指揮車進行模擬,驗證去噪算法的性能。然后本文介紹了車載語音識別系統(tǒng)所面對的汽車噪聲,從噪聲來源和噪聲頻譜特性對汽車噪聲進行分析。接著從去噪技術(shù)入手,研究在噪聲存在的情況下語音信號分離方法。重點介紹了基于盲信號分離和禁忌搜索算法的去噪聲技術(shù),將盲信號分離技術(shù)用于車載復雜噪聲環(huán)境下的去噪,通過測試波形分離,驗證在復雜環(huán)境下的盲信號分離性能。接下來本文介紹語音信號的特征參數(shù)的提取。對比LPC系數(shù)、LPCC系數(shù)以及MFCC系數(shù),并在最后的實驗中進行對比選擇。在進行特征參數(shù)提取后,本文又對矢量量化技術(shù)進行介紹,重點介紹設計碼本的LBG算法。此外,本文還對基于HMM的語音識別技術(shù)進行了研究。包括對HMM模型概念的介紹,HMM在語音識別系統(tǒng)中存在的三個問題。并從問題出發(fā),通過對這三個問題的解決來建立基于HMM的語音識別系統(tǒng)。在此基礎上,提出多段式HMM算法,將原有的語音識別系統(tǒng)進行改進。最后,為了驗證去噪算法以及多段式HMM語音識別系統(tǒng)的性能,設計了一系列的實驗。首先選取四個小型的語音庫在四種不同的環(huán)境下進行識別系統(tǒng)的性能測試,包括特征參數(shù)的選取、碼本容量和HMM狀態(tài)數(shù)的確定,以及在不同環(huán)境中受到的環(huán)境噪聲影響的大小等。之后,為了驗證去噪算法的性能,設計了在四種具有不同種類噪聲的環(huán)境下進行的識別率和識別時間的對比實驗。在不同的環(huán)境中,使用動態(tài)時間規(guī)整算法、基于小波變換的語音增強算法以及本文所采用的基于盲信號分離的多段式HMM識別算法,分別獲取這三種算法的識別率以及識別時間。通過這兩個最直觀的數(shù)據(jù)來對算法性能進行驗證。
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TN912.34
【圖文】:
圖1-1典型語音識別系統(tǒng)基本框架圖逡逑語音識別系統(tǒng)實際是模式識別學科在實際中的應用口]。首先,W人類語音特逡逑點為基礎,計算機建立相應的語音模型。通過分析輸入語音信號,提取信號中的逡逑語音特征,建立語音識別系統(tǒng)中所需的模板庫。當有待識別語音輸入到識別系統(tǒng)逡逑中,計算機同樣對該語音信號進行特征提取,并通過某種搜索和匹配算法,將該逡逑特征與在計算機中存儲的模板進行匹配,從而尋找出與輸入信號特征匹配的基本逡逑識別結(jié)果,再經(jīng)過后處理之后,計算機會給出最終的識別結(jié)果。在整個識別系統(tǒng)逡逑中,影響識別率的關鍵就在于特征的選擇、模板庫的優(yōu)劣化及匹配算法的性能[6]。逡逑1.1.2語音識別技術(shù)的應用逡逑目前,語音識別系統(tǒng)的應用范圍相當廣泛,如信息查詢、服務系統(tǒng)、汽車導逡逑航設備、智能語音翻譯、工業(yè)控制系統(tǒng)等[7]。在這些領域中,操作人員往往因為逡逑手被占用,或者不存在鍵盤輸入條件,無法用傳統(tǒng)的方式進行正常的人機交互。逡逑此時,要想增加控制操作,應該X椉有碌氖褂玫慕換シ絞。利用渔燈对机器发出埩x
本文編號:2729664
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TN912.34
【圖文】:
圖1-1典型語音識別系統(tǒng)基本框架圖逡逑語音識別系統(tǒng)實際是模式識別學科在實際中的應用口]。首先,W人類語音特逡逑點為基礎,計算機建立相應的語音模型。通過分析輸入語音信號,提取信號中的逡逑語音特征,建立語音識別系統(tǒng)中所需的模板庫。當有待識別語音輸入到識別系統(tǒng)逡逑中,計算機同樣對該語音信號進行特征提取,并通過某種搜索和匹配算法,將該逡逑特征與在計算機中存儲的模板進行匹配,從而尋找出與輸入信號特征匹配的基本逡逑識別結(jié)果,再經(jīng)過后處理之后,計算機會給出最終的識別結(jié)果。在整個識別系統(tǒng)逡逑中,影響識別率的關鍵就在于特征的選擇、模板庫的優(yōu)劣化及匹配算法的性能[6]。逡逑1.1.2語音識別技術(shù)的應用逡逑目前,語音識別系統(tǒng)的應用范圍相當廣泛,如信息查詢、服務系統(tǒng)、汽車導逡逑航設備、智能語音翻譯、工業(yè)控制系統(tǒng)等[7]。在這些領域中,操作人員往往因為逡逑手被占用,或者不存在鍵盤輸入條件,無法用傳統(tǒng)的方式進行正常的人機交互。逡逑此時,要想增加控制操作,應該X椉有碌氖褂玫慕換シ絞。利用渔燈对机器发出埩x
本文編號:2729664
本文鏈接:http://sikaile.net/kejilunwen/wltx/2729664.html
最近更新
教材專著