基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究

發(fā)布時(shí)間：2021-03-12 10:27

語音增強(qiáng)是語音信號處理研究領(lǐng)域的一個(gè)重要分支。在過去的幾十年中,有很多無監(jiān)督的語音增強(qiáng)方法被提出,它們主要是通過先估計(jì)噪聲的譜信息,然后從帶噪語譜中將估計(jì)的噪聲譜減掉以得到對干凈語音譜的預(yù)測。但是由于噪聲的隨機(jī)性和突變性,使得對噪聲的跟蹤和估計(jì)變得困難。同時(shí)在傳統(tǒng)的語音增強(qiáng)方法中,考慮到噪聲和語音間的相互作用關(guān)系很復(fù)雜,就需要一些對信號間的獨(dú)立性假設(shè)以及對特征分布的高斯性假設(shè),而這些假設(shè)通常是不合理的。首先,傳統(tǒng)的語音增強(qiáng)方法會殘留很多噪聲,甚至是音樂噪聲。其次,語音的細(xì)節(jié)也在較大程度上受到破壞,這主要體現(xiàn)在對低信噪比語音的增強(qiáng)中。再者,極端非平穩(wěn)噪聲一直是傳統(tǒng)語音增強(qiáng)方法中比較棘手的地方,因?yàn)榉瞧椒€(wěn)噪聲的突發(fā)性,使得它始終處于被欠估計(jì)狀態(tài),難以從帶噪語音中去掉,可實(shí)際聲學(xué)環(huán)境中,各種非平穩(wěn)噪聲又是大概率發(fā)生事件。最后,傳統(tǒng)的語音增強(qiáng)方法易引入一些非線性失真,使得其對后端的語音識別或語音編碼產(chǎn)生不良影響。近年來,隨著深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在語音識別領(lǐng)域的成功應(yīng)用,給了語音增強(qiáng)任務(wù)的研究人員很多啟發(fā)。DNN的深層非線性結(jié)構(gòu)可以被設(shè)計(jì)成一個(gè)精細(xì)的降噪濾波器。同時(shí)基于大數(shù)據(jù)訓(xùn)練,DNN可以充分學(xué)習(xí)帶噪語音和干凈語音之間的復(fù)雜的非線性關(guān)系。另外DNN的訓(xùn)練是離線學(xué)習(xí)的,如同人一樣,它能記住一些噪聲的模式,因而可以很好地抑制一些非平穩(wěn)噪聲。而在本論文中,我們提出一種幾乎無任何假設(shè)的基于DNN的語音增強(qiáng)方法,并針對實(shí)際環(huán)境中語音增強(qiáng)問題展開了一系列系統(tǒng)性的研究。首先我們提出了基于DNN的語音增強(qiáng)方法框架,對數(shù)功率譜被用作訓(xùn)練DNN模型的特征。DNN則作為映射函數(shù),可以從帶噪語音中預(yù)測出干凈語音。而DNN的訓(xùn)練是分兩步進(jìn)行的,即預(yù)訓(xùn)練和有監(jiān)督訓(xùn)練。預(yù)訓(xùn)練是基于受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)的逐層貪婪式初始化,它可以防止DNN陷入局部最優(yōu)。而有監(jiān)督調(diào)優(yōu)可以精準(zhǔn)地學(xué)習(xí)帶噪語音和干凈語音之間的非線性關(guān)系。其次,DNN是一種有監(jiān)督的學(xué)習(xí)模型,凡是有監(jiān)督的模型都存在如何應(yīng)對測試集不匹配問題,也即如何提升系統(tǒng)的泛化能力。上百種類型的噪聲數(shù)據(jù)被用來構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),以此提高DNN模型對未見的測試噪聲環(huán)境的適應(yīng)性。同時(shí)我們發(fā)現(xiàn),通過此種方法,系統(tǒng)對非平穩(wěn)噪聲有非常強(qiáng)的抑制能力。噪聲告知訓(xùn)練也可以進(jìn)一步地增強(qiáng)模型對測試噪聲環(huán)境的預(yù)見能力。而丟棄(Dropout)法可以防止訓(xùn)練出現(xiàn)過擬合現(xiàn)象。另外,我們還針對DNN作為回歸模型出現(xiàn)的過平滑問題,提出了全局方差均衡方法以提升增強(qiáng)的語音的聽感。再者,對測試中的不匹配帶噪語音需要做自適應(yīng),這個(gè)不匹配主要有：能量不匹配,噪聲環(huán)境不匹配和語言不匹配等方面。因此我們分別在特征層面,提出了均值移位方法,來解決測試語音的特征分布不一致的問題。而對于噪聲類型不匹配問題,我們提出了一種動態(tài)的噪聲告知訓(xùn)練方法,即先用IBM動態(tài)地估計(jì)每一幀的噪聲,然后用來輔助DNN的學(xué)習(xí)。語言不匹配問題,主要存在于跨語種測試的時(shí)候,由于不同語系發(fā)音上的差異性導(dǎo)致的丟音問題。我們提出了通過轉(zhuǎn)移學(xué)習(xí)的方法,來自適應(yīng)地解決這個(gè)問題。最后,對數(shù)功率譜上的最小均方誤差是訓(xùn)練DNN的目標(biāo)函數(shù),但是直接去優(yōu)化這個(gè)目標(biāo)函數(shù)有一定困難的。我們提出了一種間接的目標(biāo)函數(shù)優(yōu)化方式。考慮到對數(shù)功率譜域上的各個(gè)維度間是相互獨(dú)立的,因此我們把梅爾倒頻譜參數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)融合到系統(tǒng)中來,讓DNN去聯(lián)合優(yōu)化對數(shù)功率譜特征和MFCC特征。利用MFCC的每個(gè)參數(shù)都包含了頻率各個(gè)維度間的相關(guān)性來限制對對數(shù)功率譜的估計(jì),以得到一個(gè)在頻率各個(gè)維度上誤差更具有一致性的特征預(yù)測。除了MFCC這種連續(xù)性信息,我們還可以用一些具有分類特性的元信息來作為對對數(shù)功率譜預(yù)測的輔助項(xiàng),比如IBM,它顯式地表征了當(dāng)前時(shí)間頻率單元是噪聲主導(dǎo)的還是語音主導(dǎo)的。另外,經(jīng)過聚類的噪聲編碼也用來輔助DNN對對數(shù)功率譜特征的學(xué)習(xí)。在本論文的最后,我們給出了全文總結(jié),并對該課題的未來進(jìn)行了展望。

【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2015
【分類號】：TN912.35;TP183
【目錄】：

文章目錄

摘要

ABSTRACT

插圖

表格

第一章緒論

1.1 語音增強(qiáng)

1.1.1 語音增強(qiáng)的定義

1.1.2 語音增強(qiáng)的分類

1.1.3 語音增強(qiáng)的研究意義

1.2 單聲道語音增強(qiáng)的發(fā)展歷史和研究概況

1.3 單聲道語音增強(qiáng)方法闡述

1.3.1 帶噪語音的信號模型

1.3.2 傳統(tǒng)單聲道語音增強(qiáng)算法

1.3.3 有監(jiān)督語音增強(qiáng)算法

1.4 本論文的研究內(nèi)容和目標(biāo)概述

第二章基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)

2.1 引言

2.2 基于回歸深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)

2.2.1 SEDNN的原理

2.2.2 SEDNN的無監(jiān)督預(yù)訓(xùn)練

2.2.3 SEDNN的有監(jiān)督調(diào)優(yōu)

2.3 實(shí)驗(yàn)和結(jié)果

2.3.1 實(shí)驗(yàn)配置

2.3.2 實(shí)驗(yàn)分析和結(jié)論

2.4 本章小結(jié)

第三章泛化的基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)

3.1 引言

3.2 基于DNN的語音增強(qiáng)的泛化方法

3.2.1 基線系統(tǒng)

3.2.2 全局方差均衡

3.2.3 Dropout

3.2.4 噪聲告知訓(xùn)練

3.2.5 大數(shù)據(jù)訓(xùn)練

3.3 實(shí)驗(yàn)和結(jié)果

3.3.1 實(shí)驗(yàn)配置

3.3.2 實(shí)驗(yàn)分析和結(jié)論

3.4 本章總結(jié)

第四章基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)中的自適應(yīng)問題

4.1 引言

4.2 基于DNN的語音增強(qiáng)的自適應(yīng)方案

4.2.1 特征自適應(yīng)

4.2.2 噪聲自適應(yīng)

4.2.3 語言自適應(yīng)

4.3 實(shí)驗(yàn)和結(jié)果

4.3.1 實(shí)驗(yàn)配置

4.3.2 實(shí)驗(yàn)分析和結(jié)論

4.4 本章總結(jié)

第五章多目標(biāo)準(zhǔn)則學(xué)習(xí)

5.1 引言

5.2 多目標(biāo)準(zhǔn)則學(xué)習(xí)

5.2.1 與MFCC的聯(lián)合優(yōu)化

5.2.2 與IBM的聯(lián)合優(yōu)化和后處理

5.2.3 與噪聲編碼的聯(lián)合優(yōu)化

5.3 實(shí)驗(yàn)和結(jié)果

5.3.1 實(shí)驗(yàn)配置

5.3.2 實(shí)驗(yàn)分析和結(jié)論

5.4 本章總結(jié)

第六章總結(jié)

6.1 本文的主要貢獻(xiàn)與創(chuàng)新點(diǎn)

6.2 后續(xù)的研究工作

參考文獻(xiàn)

個(gè)人簡歷及在讀期間發(fā)表的學(xué)術(shù)論文

致謝

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 相征;朗朗;王靜;;基于基音頻能值的端點(diǎn)檢測算法[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期

2 呂軍;馬曉娜;;漢語孤立詞聲韻分割算法的研究[J];安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年03期

3 王暉;顏靖華;李傳珍;蔡娟娟;;音頻貝葉斯諧波模型中參數(shù)的提取[J];中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期

4 周長鋒;韓力群;;概率神經(jīng)網(wǎng)絡(luò)在文本無關(guān)說話人識別中的應(yīng)用[J];北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年01期

5 魏麗英;;簡析語音編碼[J];才智;2010年31期

6 由守杰;柏森;曹巍巍;;魯棒的DCT域音頻盲水印算法[J];重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期

7 肖菲;陳賀新;許萬里;趙巖;;模式匹配和過零率檢測的音頻差錯(cuò)掩蓋[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2011年01期

8 李雨昕;;基于余弦過完備原子庫的語音信號MP稀疏分解[J];成都電子機(jī)械高等專科學(xué)校學(xué)報(bào);2011年02期

9 劉瀟營;鄭郁正;李國良;;多類支持向量機(jī)在語音識別中的應(yīng)用[J];成都信息工程學(xué)院學(xué)報(bào);2010年01期

10 王昌喜;楊先軍;徐強(qiáng);馬祖長;孫怡寧;;基于三維加速度傳感器的上肢動作識別系統(tǒng)[J];傳感技術(shù)學(xué)報(bào);2010年06期

中國博士學(xué)位論文全文數(shù)據(jù)庫前10條

1 黃麗霞;非特定人魯棒性語音識別中前端濾波器的研究[D];太原理工大學(xué);2011年

2 謝春輝;音頻隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年

3 包桂蘭;基于EPG的蒙古語標(biāo)準(zhǔn)音協(xié)同發(fā)音研究[D];內(nèi)蒙古大學(xué);2011年

4 呂釗;噪聲環(huán)境下的語音識別算法研究[D];安徽大學(xué);2011年

5 姜濤;網(wǎng)絡(luò)環(huán)境下說話人識別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

6 肖文斌;基于耦合隱馬爾可夫模型的滾動軸承故障診斷與性能退化評估研究[D];上海交通大學(xué);2011年

7 韓志艷;語音信號魯棒特征提取及可視化技術(shù)研究[D];東北大學(xué);2009年

8 高林;育苗生產(chǎn)線氣吸式播種系統(tǒng)智能控制的研究[D];北京林業(yè)大學(xué);2008年

9 汪云路;語音隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2008年

10 錢博;基于漢語元音映射的說話人識別技術(shù)研究[D];南京理工大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 劉繼芳;基于計(jì)算聽覺場景分析的混合語音分離研究[D];哈爾濱工程大學(xué);2009年

2 王文姝;基于模糊理論的關(guān)鍵詞識別算法研究[D];哈爾濱工程大學(xué);2010年

3 劉維巍;語音信號基音周期檢測算法研究[D];哈爾濱工程大學(xué);2010年

4 樓佳;基于網(wǎng)絡(luò)QoS的AMR語音編碼算法研究[D];哈爾濱工程大學(xué);2010年

5 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學(xué);2010年

6 朱妹麗;三種篡改情況下的音頻鑒定方法研究[D];大連理工大學(xué);2010年

7 周翠梅;說話人識別技術(shù)的研究與實(shí)現(xiàn)[D];大連理工大學(xué);2010年

8 甄會;欠定盲分離混合矩陣估計(jì)方法的研究[D];大連理工大學(xué);2010年

9 張宇;基于倒譜特征的說話人識別方法研究[D];大連海事大學(xué);2010年

10 劉亞玉;限定性文本的語料庫自動構(gòu)建[D];中國海洋大學(xué);2010年

本文編號：228334

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/228334.html

上一篇：星載推掃型高光譜運(yùn)動成像誤差建模與高精度校正技術(shù)研究
下一篇：《華南理工大學(xué)》2015年博士論文

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深層神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)方法研究