基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語(yǔ)音分離
第一章 緒論
1.1 研究背景和意義
人類(lèi)互相溝通交流最簡(jiǎn)單最直接的方式就是語(yǔ)言表達(dá);祉懘嬖谟谖覀?nèi)粘I畹姆椒矫婷,古人就有“余音繞梁,三日不絕”來(lái)形容混響。但混響也是不容忽視的問(wèn)題。由于環(huán)境的多樣性,尤其是在相對(duì)封閉的室內(nèi)空間中,如音樂(lè)廳、教室和會(huì)議廳等,當(dāng)麥克風(fēng)和說(shuō)話者之間的距離較遠(yuǎn)的時(shí)候,麥克風(fēng)接收到的語(yǔ)音信號(hào)所含混響聲[1]就比較明顯;祉懙拇嬖谑菇邮盏降恼f(shuō)話者的聲音清晰度降低,混淆不清,甚至嚴(yán)重地影響了語(yǔ)音音質(zhì)的清晰度和可懂度。 近年來(lái),數(shù)字信號(hào)處理技術(shù)得到迅猛發(fā)展,并廣泛地應(yīng)用于人們的學(xué)習(xí),工作和生活中。隨著人們對(duì)語(yǔ)音通信質(zhì)量的需求不斷地增加,對(duì)通信設(shè)備的要求逐漸提高;祉懖粌H影響人們的聽(tīng)覺(jué),特別是有聽(tīng)覺(jué)障礙的患者,而且對(duì)通信設(shè)備的聯(lián)絡(luò)和自動(dòng)語(yǔ)音識(shí)別等系統(tǒng)的性能也產(chǎn)生不可忽視的干擾,嚴(yán)重時(shí)可能導(dǎo)致系統(tǒng)的癱瘓。因此,抑制或消除混響的影響,分離目標(biāo)語(yǔ)音非常必要。 混響語(yǔ)音分離是從房間混響中提取目標(biāo)信號(hào),這類(lèi)似于“雞尾酒會(huì)”問(wèn)題(Cocktail-Party)[2],抑制、降低噪聲的干擾,選擇并提取感興趣的聲音信號(hào)。DSP 技術(shù)發(fā)展的日臻成熟,語(yǔ)音分離技術(shù)被廣泛應(yīng)用于各個(gè)領(lǐng)域,比如語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、無(wú)線電視電話會(huì)議、電子耳蝸、助聽(tīng)器研究和聲源定位等[3]。語(yǔ)音分離技術(shù)的研究是一個(gè)科學(xué)熱點(diǎn)和難點(diǎn)課題,具有較強(qiáng)的理論意義和廣闊的發(fā)展前景。
........
1.2 研究現(xiàn)狀
語(yǔ)音分離主要對(duì)提取聲音信號(hào)的交互方式進(jìn)行假定,嘗試從被污染的語(yǔ)音中分離目標(biāo)語(yǔ)音。盲源分離(Blind Sources Separation, BSS )[4]是語(yǔ)音信號(hào)處理領(lǐng)域中重要的研究方向,它的提出始于20世紀(jì)80年代。盲源分離模型的定義是在源信號(hào)和傳輸通道參數(shù)都未知的情況下,僅由觀察到的混合信號(hào)恢復(fù)出目標(biāo)源信號(hào)的過(guò)程。 1986年,在美國(guó)Utah州召開(kāi)的神經(jīng)網(wǎng)絡(luò)計(jì)算會(huì)議上,Jeanny Herault和Christian Jutten提出了一個(gè)遞歸網(wǎng)絡(luò)模型,基于類(lèi)似Hebb學(xué)習(xí)規(guī)則的算法,實(shí)現(xiàn)混合信號(hào)中獨(dú)立源信號(hào)的盲分離,奠定了后期算法的基礎(chǔ),開(kāi)啟了盲源分離標(biāo)志性的研究時(shí)代。 Comon 于 1994 年首次提出了獨(dú)立分量分析 (Independent Component Analysis ,ICA)[5][6]的概念,ICA的基本原理是:利用信號(hào)的高階統(tǒng)計(jì)量,經(jīng)過(guò)適當(dāng)?shù)木性變換,使各個(gè)源信號(hào)之間彼此獨(dú)立,然后分離出目標(biāo)源信號(hào)。獨(dú)立分量分析法自提出后就被越來(lái)越多的研究人員關(guān)注,1995年美國(guó)加州圣地亞哥大學(xué)的Bell和Sejnowski提出了信息最大化的方法解決盲源分離問(wèn)題[7]。1996年B. A.Pearlmutter基于ICA的原理,引入最大似然準(zhǔn)則函數(shù)[8]。1997年Hyvarien提出了快速固定點(diǎn)算法[9],即Fast ICA算法,該算法計(jì)算簡(jiǎn)單且快速收斂,具有良好的穩(wěn)定性,被廣泛應(yīng)用于盲源分離中。2000年后,對(duì)ICA算法的研究取得了更多成果。Herrnann提出了基于源特性的目標(biāo)函數(shù)[10],Eriksson于2003年提出了利用傅立葉系數(shù)構(gòu)建最小化特征函數(shù)的ICA算法[11],Almeida于2004年提出了基于互信息的ICA算法[12]。至今, ICA仍是盲源分離的研究熱點(diǎn)。 計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis,CASA)[13]能夠模擬人類(lèi)的聽(tīng)覺(jué)感知系統(tǒng),成為盲源分離的重要研究方向。自Cooke提出的早期CASA語(yǔ)音分離系統(tǒng)后,得到了巨大的發(fā)展。CACA系統(tǒng)模型基于一個(gè)很重要的生理感知能力——聽(tīng)覺(jué)掩蔽效應(yīng)[14],較強(qiáng)能量的聲源信號(hào)會(huì)掩蔽掉較弱能量的聲源信號(hào)。
.........
第二章 混響的基本知識(shí)
混響是生活中很常見(jiàn)的現(xiàn)象。聲源發(fā)出后,在室內(nèi)各壁面(包括地面)上連續(xù)發(fā)生多次反射形成交叉混和在一起的多重回聲形成混響。在信號(hào)處理中,對(duì)相對(duì)封閉的空間采集或錄制聲音信號(hào)時(shí),麥克風(fēng)接收到的信號(hào)不僅包括聲源直接傳輸?shù)闹边_(dá)聲,還包括聲源經(jīng)其他反射面或障礙物反射得到的疊加反射聲波,除此之外還可能包括其他聲源產(chǎn)生的干擾疊加信號(hào)。
2.1 房間混響
聲源發(fā)出的聲波在房間內(nèi)傳播時(shí),由于天花板、墻壁和地板等障礙物發(fā)生的反射,并且經(jīng)反射后都要被障礙物吸收一部分。反射后語(yǔ)音信號(hào)幅度變大,相位產(chǎn)生變化,與聲源信號(hào)波形相似,但由于后續(xù)的反射信號(hào)疊加產(chǎn)生“污染”。當(dāng)聲源在室內(nèi)和相對(duì)封閉的空間里停止發(fā)聲后,聲音信號(hào)在房間內(nèi)經(jīng)過(guò)障礙物的多次反射和吸收,到達(dá)麥克風(fēng)的聲音信號(hào)除了直達(dá)聲外還包含聲音信號(hào)經(jīng)其他反射面?zhèn)鱽?lái)的反射聲音信號(hào),形成一系列疊加信號(hào),這種現(xiàn)象叫做房間混響。一般來(lái)講,麥克風(fēng)接收到的混響信號(hào)包括直達(dá)聲(聲源直接傳播到麥克風(fēng)的聲音),前期混響(Early Reverberation,聲源經(jīng)過(guò)反射面較短時(shí)間到達(dá)的反射部分)和后期混響(Late Reverberation,,聲源到達(dá)后較長(zhǎng)時(shí)間的反射部分)[24]。室內(nèi)混響如圖 2.1 所示。
2.2 混響的模型
研究混響語(yǔ)音分離問(wèn)題的過(guò)程中,現(xiàn)有的實(shí)驗(yàn)條件難以滿足要求,因此采用混響語(yǔ)音仿真模型,模擬房間脈沖響應(yīng)適用最廣的就是鏡像源(Image-source model, ISM)模型。Allen和Berkley[27]等人基于統(tǒng)計(jì)聲學(xué)的研究,提出經(jīng)典的ISM模型。鏡像源模型依據(jù)鏡面反射原理,求得鏡像聲源的反射軌跡。該模型假定房間是矩形的,各障礙物表面都是光滑的,對(duì)聲波呈鏡面反射,且每次反射都損失部分能量。將此現(xiàn)象看作是一系列信號(hào)強(qiáng)度逐漸衰弱的鏡像源,語(yǔ)音質(zhì)量是指語(yǔ)音中所含字、詞和句的清晰程度。語(yǔ)音質(zhì)量評(píng)價(jià)不僅與信號(hào)處理有關(guān),而且與心理學(xué)、生理學(xué)的研究密不可分。在選擇語(yǔ)音質(zhì)量評(píng)價(jià)時(shí)既要有主觀感受也要有客觀分析。進(jìn)行語(yǔ)音質(zhì)量評(píng)價(jià)需要綜合多學(xué)科信息,最大可能?chē)?yán)謹(jǐn)、科學(xué)地分析和評(píng)估語(yǔ)音質(zhì)量。因此,如何準(zhǔn)確合理地選擇語(yǔ)音質(zhì)量評(píng)價(jià)方法,是一個(gè)相當(dāng)棘手的難題。 實(shí)現(xiàn)混響語(yǔ)音分離后,需要對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行科學(xué)地評(píng)估和比較,分析目標(biāo)語(yǔ)音分離的效果。語(yǔ)音質(zhì)量根據(jù)混響語(yǔ)音分離的效果從主觀和客觀兩個(gè)方面進(jìn)行評(píng)價(jià)。主觀的效果主要依賴人們的聽(tīng)覺(jué),比較直接、便捷,而客觀評(píng)價(jià)方法通過(guò)對(duì)生成數(shù)據(jù)的分析和處理,準(zhǔn)確直觀地反映語(yǔ)音分離的效果。
.............
第三章 基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的混響語(yǔ)音分離 .... 17
3.1 引言 ..... 17
3.2 算法框架 ....... 17
3.3 實(shí)驗(yàn)結(jié)果與分析 ..... 29
3.4 本章小結(jié) ....... 33
第四章 基于深度神經(jīng)網(wǎng)絡(luò)的混響語(yǔ)音分離 ............ 35
4.1 深度神經(jīng)網(wǎng)絡(luò) ......... 35
4.1.1 深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) ....... 35
4.1.2 深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 ....... 36
4.2 基于 DNN 學(xué)習(xí)的單聲道混響語(yǔ)音分離 ...... 37
4.2.1 特征提取 ....... 37
4.2.2 DNN 的模型訓(xùn)練 ............. 38
4.2.3 后期處理 ....... 39
4.3 基于 DNN 分類(lèi)的雙聲道混響語(yǔ)音分離 ...... 40
4.3.1 算法原理 ....... 41
4.3.2 特征提取 ....... 42
4.3.3 DNN 分類(lèi) ..... 46
4.4 實(shí)驗(yàn)結(jié)果與分析 ..... 48
4.5 本章小結(jié) ....... 51
第五章 總結(jié)與展望 ............ 53
5.1 全文總結(jié) ....... 53
5.2 研究展望 ....... 54
第四章 基于深度神經(jīng)網(wǎng)絡(luò)的混響語(yǔ)音分離
4.1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)實(shí)質(zhì)上就是擁有多層網(wǎng)絡(luò)結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),通常指隱藏層的個(gè)數(shù)多于1的人工神經(jīng)網(wǎng)絡(luò)。早期人工神經(jīng)網(wǎng)絡(luò)的延伸和發(fā)展形成深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。多倫多大學(xué)Hinton[38]教授于2006年發(fā)表了一篇介紹新的神經(jīng)網(wǎng)絡(luò)模型的論文《Reducing the dimensionality of data with neural networks》以來(lái),深度學(xué)習(xí)引起了相關(guān)研究者的熱情和興趣。其基本原理是建立模擬人腦的認(rèn)知模型,通過(guò)整合低層的特征,生成抽象表達(dá)的高層信息,然后利用高層的信息來(lái)表現(xiàn)屬性、目的或者特征,挖掘數(shù)據(jù)的特征表達(dá)式分布,它能夠?qū)Υ笠?guī)模的數(shù)據(jù)進(jìn)行聚集、分類(lèi)和處理信息,使計(jì)算機(jī)仿照人腦認(rèn)知能力解釋數(shù)據(jù)。近些年來(lái),深度學(xué)習(xí)理論的研究在語(yǔ)音、圖像和人工智能等各個(gè)領(lǐng)域都取得了迅速的發(fā)展。 深度神經(jīng)網(wǎng)絡(luò)通過(guò)用數(shù)學(xué)模型建立和設(shè)定一定的激勵(lì)函數(shù)進(jìn)行有監(jiān)督或無(wú)監(jiān)督式訓(xùn)練,提取得到數(shù)據(jù)的網(wǎng)絡(luò)參數(shù)來(lái)用于比如特征提取等任務(wù)中。大量神經(jīng)元組成的層級(jí)式的拓?fù)渚W(wǎng)絡(luò)結(jié)構(gòu)模擬人的神經(jīng)網(wǎng)絡(luò)系統(tǒng),神經(jīng)元之間通過(guò)不同的權(quán)重相互刺激,擬合數(shù)據(jù)間的復(fù)雜關(guān)系,挖掘數(shù)據(jù)間更深層的信息,影響整個(gè)神經(jīng)網(wǎng)絡(luò)的輸出。隨著其深度的加深,深度神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)也越來(lái)越凸顯,隱藏層的增加大幅度提高其網(wǎng)絡(luò)的自適應(yīng)性和自組織能力。
.........
總結(jié)
隨著人機(jī)交互需求的日益增加,在通信和信號(hào)處理等領(lǐng)域,從帶有噪聲和干擾的復(fù)雜的觀測(cè)信號(hào)中提取人們所需要的目標(biāo)信號(hào)都有實(shí)際的應(yīng)用。像在房間混響這樣復(fù)雜的環(huán)境中,諧波特征被破壞,觀測(cè)信號(hào)也變得十分復(fù)雜,提取目標(biāo)信號(hào)就變的十分困難;祉懻Z(yǔ)音分離一直都是語(yǔ)音信號(hào)處理研究的熱點(diǎn)和難點(diǎn),在實(shí)時(shí)語(yǔ)音通訊設(shè)備、助聽(tīng)器、自動(dòng)語(yǔ)音識(shí)別技術(shù)等應(yīng)用中具有廣闊的發(fā)展前景。 根據(jù)本文對(duì)混響語(yǔ)音分離初步研究工作,重點(diǎn)研究了兩個(gè)比較前沿的科學(xué)熱點(diǎn)領(lǐng)域:計(jì)算聽(tīng)覺(jué)場(chǎng)景分析和深度神經(jīng)網(wǎng)絡(luò)。基于對(duì)以上課題的深入研究,提出了三種不同的混響語(yǔ)音分離的模型,主要完成了以下幾項(xiàng)任務(wù):
1.詳細(xì)闡述了混響的基本知識(shí),包括混響語(yǔ)音的產(chǎn)生過(guò)程,特征參數(shù)和其影響,以及混響的特點(diǎn)。重點(diǎn)分析了混響的數(shù)學(xué)模型和仿真模型——ISM模型,介紹了混響語(yǔ)音分離后的效果的評(píng)估,引出主觀和客觀的評(píng)測(cè)指標(biāo),分析了這幾種指標(biāo)的實(shí)現(xiàn)方法。
2.由于混響環(huán)境下系統(tǒng)脈沖響應(yīng)時(shí)間過(guò)長(zhǎng),甚至超過(guò)信號(hào)的平穩(wěn)時(shí)間,諧波結(jié)構(gòu)受到很大的破壞,傳統(tǒng)的基音檢測(cè)和單元標(biāo)記方法不能適用。針對(duì)房間混響條件下基音檢測(cè)算法性能?chē)?yán)重降低,提出了一種基于多基音檢測(cè)和監(jiān)督學(xué)習(xí)的分離算法。算法采用隱馬爾可夫模型對(duì)選擇的通道進(jìn)行多個(gè)基因跟蹤,并通過(guò)多層感知器對(duì)時(shí)頻單元標(biāo)記。為提高標(biāo)記的準(zhǔn)確性,對(duì)語(yǔ)音和非語(yǔ)音模型分別訓(xùn)練,并使用最大似然比檢驗(yàn)選擇訓(xùn)練模型,通過(guò)實(shí)驗(yàn)仿真證明,提出的算法優(yōu)越于Jin算法,能夠保持良好的性能。
3.針對(duì)混響和加噪條件下語(yǔ)音可懂度和音質(zhì)的大幅度降低,提出兩種基于DNN的混響語(yǔ)音分離算法;贒NN的單聲道混響語(yǔ)音分離算法通過(guò)學(xué)習(xí)從污染語(yǔ)音到純凈語(yǔ)音的量級(jí)頻譜圖的映射,對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行直接訓(xùn)練,實(shí)質(zhì)上衰減了由混響環(huán)境和背景噪聲導(dǎo)致的失真;贒NN的雙聲道混響語(yǔ)音分離算法則利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,通過(guò)實(shí)現(xiàn)時(shí)頻單元的分類(lèi)任務(wù),完成目標(biāo)語(yǔ)音的提取。使用雙耳間時(shí)差和強(qiáng)差的雙聲道特征以及Gammatone頻率倒譜系數(shù)的單聲道特征作為分類(lèi)的主要聽(tīng)覺(jué)特征。評(píng)估和對(duì)比表明基于DNN的混響語(yǔ)音分離算法在各種多聲源混響條件下產(chǎn)生良好的分離結(jié)果。
.........
參考文獻(xiàn)(略)
本文編號(hào):95083
本文鏈接:http://sikaile.net/wenshubaike/lwfw/95083.html