面向藏語拉薩話語音識別的語音增強方法研究
發(fā)布時間:2021-08-04 02:45
語音增強是針對語音傳遞中經常遇到的噪音干擾的問題而設計的一種噪音削弱、語音強化的方法。而在語音識別的時候總會有各種或多或少的背景噪音夾雜在語音中。那么語音增強就可以有效的降低背景噪音、強化語音、提升語音識別的效果。本文選題來源于國家自然科學基金項目多民族語言語音識別。該項課題實施中需要解決語音識的噪音問題,故就有了本論文的研究的目的。本文選題的目和意義是解決帶噪語音識別困難,改善聽取語音質量。研究更有效的區(qū)分噪音和藏語拉薩話的增強系統(tǒng),提升識別的準確率。本文展開了以下的工作:著重探討和分析了語音增強的技術和藏語語音處理的方法。概述了藏語發(fā)音特點和藏語語音學相關知識,在語音預處理和語音數(shù)字信號處理知識進行了概要介紹。對于語音增強語料的標準和采集相關流程采用了標準的方法,介紹了如何完成了實驗語料的采集和制作,測試語料的制作和測試。本文實驗選擇了傳統(tǒng)單通道語音增方法并對該方法進行研究。傳統(tǒng)語音增強方法中研究了幾類具有代表性的方法,并進一步探討了傳統(tǒng)語音增強算法的基本原理。分析了各種方法下的語音增強系統(tǒng)的框圖,對于各種傳統(tǒng)單通道語音增強的技術路線進行了分析,研究了實驗結果。同時本文著重探討和分...
【文章來源】:西北民族大學甘肅省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
自適應濾波系統(tǒng)流程圖
西北民族大學碩士學位論文20圖4-2 譜減法系統(tǒng)流程圖譜減法增強系統(tǒng)方法步驟1)對y(t)進行短時傅立葉變換求得Y(w)2)通過無話段語音幀長NI,估計噪音功率譜 2 D( )對噪聲進行估計、提取噪聲功率譜3)語音功率譜和噪音功率譜相減。4)估計的幅度乘以相位信號。| ( )|*yX w ( )5)逆傅立葉變換得到了估計的語音 x ( t)通過以上的方法就可以得到增強后的語音,該方法的數(shù)據(jù)我們將在第五章稍后討論。4.4 維納濾波語音增強維納濾波法的思路是:對于帶噪語音信號,確定濾波器的沖擊響應和傳遞函數(shù)的特點,使得帶噪語音信號經過該濾波器后得到最接近于增強后的的語音信號。采用維納濾波的好處是增強后的殘留噪聲類似于白噪聲,而不是有節(jié)奏起伏的音樂噪聲。維納濾波是平穩(wěn)條件下時域波形的最小均方誤差準則估計[17]。由于沒有考慮到語音頻譜分量的幅度對人的聽覺最重要,因此采用維納濾波來增強語音存在一定的缺陷。維納濾波器的方法對信號的復頻譜生成的一個線性估計器,在(復頻譜)噪聲和語音的 DFT 系數(shù)為獨立高斯隨機變量的條件下,該估計值從最小均方誤差意義上看為最優(yōu)。4.4.1 維納濾波原理輸入信號通過一個線性時不限系統(tǒng)之后產生一個輸出信號 y ( n )。使輸出信號 d*(n)盡量逼近期望信號 d(n) 。這可以通過計算估計誤差 e(n),使其最小化來實
2) 在對加窗分幀后進行快速傅立葉變換,分別求出幅度譜、相位譜,并將其保存下來3) 使用帶噪語音初始的無話段語音幀 NI,估計出噪音平均功率譜和平均幅度譜。4) 使用 VAD 檢測算法分析帶噪語音幀的無話段語音幀,利用幀實時更新噪音的平均功率譜或者幅度譜。5) 先計算有話段幀的后驗信噪比概率、再(4.27)估計出語音幀幀的先驗信噪比、進一步就求解出了帶噪語音幀下的維納濾波器的傳遞函數(shù)。6) 求解出語音幀的濾波器的輸出的幅度譜。7) 將輸出的幅度譜和語音的相位譜結合,并進行傅立葉逆變換、再將語音還原到時域階段,到還原階段將增強好的語音幀拼接起來,得到增強后的語音信號。具體的系統(tǒng)框圖如下。
【參考文獻】:
期刊論文
[1]基于改進譜減法的語音增強研究[J]. 劉志坤,唐小明,朱洪偉. 計算機仿真. 2009(06)
[2]藏語文-音自動規(guī)則轉換及其實現(xiàn)[J]. 李永宏,孔江平,于洪志. 清華大學學報(自然科學版). 2008(S1)
[3]西藏古代的文法研究[J]. 周煒. 西南民族學院學報(哲學社會科學版). 1999(04)
碩士論文
[1]語音識別技術在人機交互中的應用研究[D]. 高雪.北方工業(yè)大學 2017
[2]基于深度神經網絡的語音增強算法研究[D]. 魏泉水.南京大學 2016
[3]基于深度學習與并行計算的語音增強系統(tǒng)[D]. 石博天.內蒙古大學 2016
[4]基于GPU的深度神經網絡模型并行及優(yōu)化方法研究[D]. 張函.華中科技大學 2016
[5]藏語語音識別技術研究[D]. 拉龍東智.西藏大學 2015
[6]西安方言的聲學特征分析和韻律建模的研究[D]. 郭威彤.西北師范大學 2009
[7]LMS算法的改進研究及其在語音增強方面的應用和性能評估[D]. 樊殊昱.電子科技大學 2007
[8]基于小波變換的語音信號增強方法研究[D]. 黃蘇雨.南昌大學 2007
本文編號:3320842
【文章來源】:西北民族大學甘肅省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
自適應濾波系統(tǒng)流程圖
西北民族大學碩士學位論文20圖4-2 譜減法系統(tǒng)流程圖譜減法增強系統(tǒng)方法步驟1)對y(t)進行短時傅立葉變換求得Y(w)2)通過無話段語音幀長NI,估計噪音功率譜 2 D( )對噪聲進行估計、提取噪聲功率譜3)語音功率譜和噪音功率譜相減。4)估計的幅度乘以相位信號。| ( )|*yX w ( )5)逆傅立葉變換得到了估計的語音 x ( t)通過以上的方法就可以得到增強后的語音,該方法的數(shù)據(jù)我們將在第五章稍后討論。4.4 維納濾波語音增強維納濾波法的思路是:對于帶噪語音信號,確定濾波器的沖擊響應和傳遞函數(shù)的特點,使得帶噪語音信號經過該濾波器后得到最接近于增強后的的語音信號。采用維納濾波的好處是增強后的殘留噪聲類似于白噪聲,而不是有節(jié)奏起伏的音樂噪聲。維納濾波是平穩(wěn)條件下時域波形的最小均方誤差準則估計[17]。由于沒有考慮到語音頻譜分量的幅度對人的聽覺最重要,因此采用維納濾波來增強語音存在一定的缺陷。維納濾波器的方法對信號的復頻譜生成的一個線性估計器,在(復頻譜)噪聲和語音的 DFT 系數(shù)為獨立高斯隨機變量的條件下,該估計值從最小均方誤差意義上看為最優(yōu)。4.4.1 維納濾波原理輸入信號通過一個線性時不限系統(tǒng)之后產生一個輸出信號 y ( n )。使輸出信號 d*(n)盡量逼近期望信號 d(n) 。這可以通過計算估計誤差 e(n),使其最小化來實
2) 在對加窗分幀后進行快速傅立葉變換,分別求出幅度譜、相位譜,并將其保存下來3) 使用帶噪語音初始的無話段語音幀 NI,估計出噪音平均功率譜和平均幅度譜。4) 使用 VAD 檢測算法分析帶噪語音幀的無話段語音幀,利用幀實時更新噪音的平均功率譜或者幅度譜。5) 先計算有話段幀的后驗信噪比概率、再(4.27)估計出語音幀幀的先驗信噪比、進一步就求解出了帶噪語音幀下的維納濾波器的傳遞函數(shù)。6) 求解出語音幀的濾波器的輸出的幅度譜。7) 將輸出的幅度譜和語音的相位譜結合,并進行傅立葉逆變換、再將語音還原到時域階段,到還原階段將增強好的語音幀拼接起來,得到增強后的語音信號。具體的系統(tǒng)框圖如下。
【參考文獻】:
期刊論文
[1]基于改進譜減法的語音增強研究[J]. 劉志坤,唐小明,朱洪偉. 計算機仿真. 2009(06)
[2]藏語文-音自動規(guī)則轉換及其實現(xiàn)[J]. 李永宏,孔江平,于洪志. 清華大學學報(自然科學版). 2008(S1)
[3]西藏古代的文法研究[J]. 周煒. 西南民族學院學報(哲學社會科學版). 1999(04)
碩士論文
[1]語音識別技術在人機交互中的應用研究[D]. 高雪.北方工業(yè)大學 2017
[2]基于深度神經網絡的語音增強算法研究[D]. 魏泉水.南京大學 2016
[3]基于深度學習與并行計算的語音增強系統(tǒng)[D]. 石博天.內蒙古大學 2016
[4]基于GPU的深度神經網絡模型并行及優(yōu)化方法研究[D]. 張函.華中科技大學 2016
[5]藏語語音識別技術研究[D]. 拉龍東智.西藏大學 2015
[6]西安方言的聲學特征分析和韻律建模的研究[D]. 郭威彤.西北師范大學 2009
[7]LMS算法的改進研究及其在語音增強方面的應用和性能評估[D]. 樊殊昱.電子科技大學 2007
[8]基于小波變換的語音信號增強方法研究[D]. 黃蘇雨.南昌大學 2007
本文編號:3320842
本文鏈接:http://sikaile.net/kejilunwen/wltx/3320842.html
最近更新
教材專著