天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

遠(yuǎn)場語音識別系統(tǒng)中的語音增強(qiáng)技術(shù)研究

發(fā)布時間:2020-04-23 14:01
【摘要】:在遠(yuǎn)場語音識別系統(tǒng)中,麥克風(fēng)接收到的遠(yuǎn)場語音信號會受到背景噪聲、人聲干擾和混響干擾的影響,使語音的質(zhì)量和可懂度顯著下降,并嚴(yán)重影響語音識別系統(tǒng)的性能。因此,近年來高效的語音增強(qiáng)算法,包括多通道語音去混響算法、多通道波束形成算法以及單通道語音增強(qiáng)算法,在語音信號處理領(lǐng)域變得格外引人注目。對于混響干擾,最常用的方法是多通道線性預(yù)測(Multi-Channel Linear Prediction,MCLP)自適應(yīng)去混響算法;對于人聲干擾,目前主要依賴波束形成算法抑制指定方向外的干擾;對于背景噪聲,除傳統(tǒng)的信號處理算法外,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的方法也已經(jīng)開始應(yīng)用到語音增強(qiáng)領(lǐng)域中。目前波束形成算法主要采用廣義旁瓣相消器(Generalized Sidelobe Canceller,GSC),因此,本文沒有詳細(xì)描述波束形成算法,而是主要對MCLP自適應(yīng)去混響算法以及單通道的語音增強(qiáng)算法進(jìn)行了研究,主要的研究內(nèi)容如下:首先,針對遞歸最小二乘(Recursive Least Squares,RLS)算法在理論上具有數(shù)值不穩(wěn)定性的問題,本文對原型的基于RLS的MCLP自適應(yīng)去混響算法進(jìn)行改進(jìn),提出了基于正交分解的遞歸最小二乘(QR-decomposition Recursive Least Squares,QRRLS)的MCLP自適應(yīng)去混響算法,該算法具有與原型算法相同的去混響特性和更好的數(shù)值穩(wěn)定性。然后,在基于QR-RLS的MCLP自適應(yīng)去混響算法的基礎(chǔ)上,推導(dǎo)了基于可變遺忘因子的正交三角分解遞歸最小二乘(Variable Forgetting Factor QRdecomposition Recursive Least Squares,VFFQR-RLS)的MCLP自適應(yīng)去混響算法。該算法可以根據(jù)系數(shù)向量的變化來選擇合適的遺忘因子,使得算法在收斂性和最小均方誤差(Minimum Mean Square Error,MMSE)之間達(dá)到較好的均衡。仿真實驗表明,在不同的混響特性下,兩種改進(jìn)的MCLP自適應(yīng)去混響算法均具有較好的去混響性能和穩(wěn)定性。其次,針對基于DNN的單通道語音增強(qiáng)算法,本文提出了基于漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò)(Progressive Deep Neural Networks,PDNNs)以及漸進(jìn)式長短期記憶網(wǎng)絡(luò)(Progressive Long Short-Term Memory Networks,PLSTMs)來解決原型DNN語音增強(qiáng)算法在低信噪比下性能嚴(yán)重下降的問題。該方法將整個增強(qiáng)任務(wù)分解為多個子任務(wù)來完成,并且前面完成的子任務(wù)會為后面的子任務(wù)提供先驗知識,使得后面的子任務(wù)可以更好地學(xué)習(xí)它的目標(biāo)。針對學(xué)習(xí)目標(biāo),本文也提出了對于多個子任務(wù)基于信噪比的語音特征。仿真結(jié)果表明,提出的基于PDNNs和基于PLSTMs的單通道語音增強(qiáng)算法在各個信噪比下的性能對比原始的DNN和LSTMs(Long Short-Term Memory Networks,LSTMs)均有顯著的提升,其中包括在低信噪比下的泛化性,以及在抑制噪聲的同時,也減小了語音信號的失真度。最后,本文提出了遠(yuǎn)場語音識別系統(tǒng)中的語音增強(qiáng)框架,包括維納濾波預(yù)處理模塊、語音去混響模塊、波束形成模塊以及單通道后處理模塊。仿真實驗表明,提出的語音增強(qiáng)框架能有效地抑制遠(yuǎn)場語音識別系統(tǒng)中存在的干擾,對于語音質(zhì)量以及語音可懂度有顯著的提升效果。
【圖文】:

示意圖,直達(dá)聲,麥克風(fēng),反射信號


第 1 章 緒論第 1 章 緒論1.1 研究背景及意義遠(yuǎn)場語音識別系統(tǒng)性能很大程度上受到周圍環(huán)境的影響,比如房間混響干擾聲干擾、背景噪聲以及一些機(jī)器內(nèi)部噪聲等。這些干擾信號會嚴(yán)重降低語音信質(zhì)量和可懂度,從而極大地降低了遠(yuǎn)場語音識別系統(tǒng)的性能。首先影響遠(yuǎn)場語別系統(tǒng)的一個重要因素就是房間混響,混響是由于室內(nèi)各種障礙物反射所產(chǎn)生個混響干擾產(chǎn)生的簡易示意圖如圖 1.1 所示。

流程圖,神經(jīng)網(wǎng)絡(luò),流程圖,帶噪語音


圖 2.3 基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)的流程圖①特征提取在深度學(xué)習(xí)的語音增強(qiáng)領(lǐng)域中,主要有兩類特征可以選擇,分別是譜特征和掩蔽特征。在譜特征中,主要使用的是對數(shù)譜以及對數(shù)功率譜(log-powerspectra,LPS這是由于對數(shù)可以縮小數(shù)值的范圍,從而減小目標(biāo)的學(xué)習(xí)范圍,而 LPS 是目前使用最為廣泛的譜特征,其定義如下l f 2Y (t , f ) log (Y (t , f)) (2.18式中以帶噪語音為例,lY (t , f )表示帶噪語音的對數(shù)功率譜,fY (t , f )表示帶噪語音的幅度譜,,通過帶噪語音的短時傅里葉變換的模值得到。另外一類是掩蔽特征,是一種信號的時頻掩蔽,主要使用的時頻掩蔽特征是理想二值掩蔽(IdealBinaryMask,IBM)[47]、目標(biāo)二值掩蔽(TargetBinaryMask,TBM)[48]
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊正哲;任玉玲;杜省;柳瑞波;;分區(qū)域方言客服語音識別系統(tǒng)研究[J];網(wǎng)絡(luò)新媒體技術(shù);2019年01期

2 高飛;黃哲瑩;王子騰;李軍鋒;顏永紅;;早晚期混響劃分對理想比值掩蔽在語音識別性能上的影響[J];聲學(xué)學(xué)報;2019年04期

3 周曉武;;嵌入式實時英語語音識別系統(tǒng)的設(shè)計與研究[J];電子設(shè)計工程;2017年08期

4 肖明堯;;基于嵌入式的語音識別系統(tǒng)設(shè)計與實現(xiàn)[J];長春師范大學(xué)學(xué)報;2017年10期

5 楊龍;;淺析小型語音識別系統(tǒng)的研究和開發(fā)[J];信息化建設(shè);2015年10期

6 ;法苑傳真[J];江淮法治;2016年22期

7 ;語音識別系統(tǒng)[J];少先隊活動;2014年05期

8 任

本文編號:2637812


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2637812.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cd0e9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com