天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

基于深層神經(jīng)網(wǎng)絡(luò)的語音增強方法研究

發(fā)布時間:2021-03-12 10:27

  語音增強是語音信號處理研究領(lǐng)域的一個重要分支。在過去的幾十年中,有很多無監(jiān)督的語音增強方法被提出,它們主要是通過先估計噪聲的譜信息,然后從帶噪語譜中將估計的噪聲譜減掉以得到對干凈語音譜的預(yù)測。但是由于噪聲的隨機性和突變性,使得對噪聲的跟蹤和估計變得困難。同時在傳統(tǒng)的語音增強方法中,考慮到噪聲和語音間的相互作用關(guān)系很復(fù)雜,就需要一些對信號間的獨立性假設(shè)以及對特征分布的高斯性假設(shè),而這些假設(shè)通常是不合理的。首先,傳統(tǒng)的語音增強方法會殘留很多噪聲,甚至是音樂噪聲。其次,語音的細節(jié)也在較大程度上受到破壞,這主要體現(xiàn)在對低信噪比語音的增強中。再者,極端非平穩(wěn)噪聲一直是傳統(tǒng)語音增強方法中比較棘手的地方,因為非平穩(wěn)噪聲的突發(fā)性,使得它始終處于被欠估計狀態(tài),難以從帶噪語音中去掉,可實際聲學(xué)環(huán)境中,各種非平穩(wěn)噪聲又是大概率發(fā)生事件。最后,傳統(tǒng)的語音增強方法易引入一些非線性失真,使得其對后端的語音識別或語音編碼產(chǎn)生不良影響。 近年來,隨著深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在語音識別領(lǐng)域的成功應(yīng)用,給了語音增強任務(wù)的研究人員很多啟發(fā)。DNN的深層非線性結(jié)構(gòu)可以被設(shè)計成一個精細的降噪濾波器。同時基于大數(shù)據(jù)訓(xùn)練,DNN可以充分學(xué)習(xí)帶噪語音和干凈語音之間的復(fù)雜的非線性關(guān)系。另外DNN的訓(xùn)練是離線學(xué)習(xí)的,如同人一樣,它能記住一些噪聲的模式,因而可以很好地抑制一些非平穩(wěn)噪聲。而在本論文中,我們提出一種幾乎無任何假設(shè)的基于DNN的語音增強方法,并針對實際環(huán)境中語音增強問題展開了一系列系統(tǒng)性的研究。 首先我們提出了基于DNN的語音增強方法框架,對數(shù)功率譜被用作訓(xùn)練DNN模型的特征。DNN則作為映射函數(shù),可以從帶噪語音中預(yù)測出干凈語音。而DNN的訓(xùn)練是分兩步進行的,即預(yù)訓(xùn)練和有監(jiān)督訓(xùn)練。預(yù)訓(xùn)練是基于受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)的逐層貪婪式初始化,它可以防止DNN陷入局部最優(yōu)。而有監(jiān)督調(diào)優(yōu)可以精準(zhǔn)地學(xué)習(xí)帶噪語音和干凈語音之間的非線性關(guān)系。 其次,DNN是一種有監(jiān)督的學(xué)習(xí)模型,凡是有監(jiān)督的模型都存在如何應(yīng)對測試集不匹配問題,也即如何提升系統(tǒng)的泛化能力。上百種類型的噪聲數(shù)據(jù)被用來構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),以此提高DNN模型對未見的測試噪聲環(huán)境的適應(yīng)性。同時我們發(fā)現(xiàn),通過此種方法,系統(tǒng)對非平穩(wěn)噪聲有非常強的抑制能力。噪聲告知訓(xùn)練也可以進一步地增強模型對測試噪聲環(huán)境的預(yù)見能力。而丟棄(Dropout)法可以防止訓(xùn)練出現(xiàn)過擬合現(xiàn)象。另外,我們還針對DNN作為回歸模型出現(xiàn)的過平滑問題,提出了全局方差均衡方法以提升增強的語音的聽感。 再者,對測試中的不匹配帶噪語音需要做自適應(yīng),這個不匹配主要有:能量不匹配,噪聲環(huán)境不匹配和語言不匹配等方面。因此我們分別在特征層面,提出了均值移位方法,來解決測試語音的特征分布不一致的問題。而對于噪聲類型不匹配問題,我們提出了一種動態(tài)的噪聲告知訓(xùn)練方法,即先用IBM動態(tài)地估計每一幀的噪聲,然后用來輔助DNN的學(xué)習(xí)。語言不匹配問題,主要存在于跨語種測試的時候,由于不同語系發(fā)音上的差異性導(dǎo)致的丟音問題。我們提出了通過轉(zhuǎn)移學(xué)習(xí)的方法,來自適應(yīng)地解決這個問題。 最后,對數(shù)功率譜上的最小均方誤差是訓(xùn)練DNN的目標(biāo)函數(shù),但是直接去優(yōu)化這個目標(biāo)函數(shù)有一定困難的。我們提出了一種間接的目標(biāo)函數(shù)優(yōu)化方式。考慮到對數(shù)功率譜域上的各個維度間是相互獨立的,因此我們把梅爾倒頻譜參數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)融合到系統(tǒng)中來,讓DNN去聯(lián)合優(yōu)化對數(shù)功率譜特征和MFCC特征。利用MFCC的每個參數(shù)都包含了頻率各個維度間的相關(guān)性來限制對對數(shù)功率譜的估計,以得到一個在頻率各個維度上誤差更具有一致性的特征預(yù)測。除了MFCC這種連續(xù)性信息,我們還可以用一些具有分類特性的元信息來作為對對數(shù)功率譜預(yù)測的輔助項,比如IBM,它顯式地表征了當(dāng)前時間頻率單元是噪聲主導(dǎo)的還是語音主導(dǎo)的。另外,經(jīng)過聚類的噪聲編碼也用來輔助DNN對對數(shù)功率譜特征的學(xué)習(xí)。 在本論文的最后,我們給出了全文總結(jié),并對該課題的未來進行了展望。

【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.35;TP183
【目錄】:

文章目錄
摘要
ABSTRACT
目錄
插圖
表格
第一章 緒論
    1.1 語音增強
        1.1.1 語音增強的定義
        1.1.2 語音增強的分類
        1.1.3 語音增強的研究意義
    1.2 單聲道語音增強的發(fā)展歷史和研究概況
    1.3 單聲道語音增強方法闡述
        1.3.1 帶噪語音的信號模型
        1.3.2 傳統(tǒng)單聲道語音增強算法
        1.3.3 有監(jiān)督語音增強算法
    1.4 本論文的研究內(nèi)容和目標(biāo)概述
第二章 基于深層神經(jīng)網(wǎng)絡(luò)的語音增強
    2.1 引言
    2.2 基于回歸深層神經(jīng)網(wǎng)絡(luò)的語音增強
        2.2.1 SEDNN的原理
        2.2.2 SEDNN的無監(jiān)督預(yù)訓(xùn)練
        2.2.3 SEDNN的有監(jiān)督調(diào)優(yōu)
    2.3 實驗和結(jié)果
        2.3.1 實驗配置
        2.3.2 實驗分析和結(jié)論
    2.4 本章小結(jié)
第三章 泛化的基于深層神經(jīng)網(wǎng)絡(luò)的語音增強
    3.1 引言
    3.2 基于DNN的語音增強的泛化方法
        3.2.1 基線系統(tǒng)
        3.2.2 全局方差均衡
        3.2.3 Dropout
        3.2.4 噪聲告知訓(xùn)練
        3.2.5 大數(shù)據(jù)訓(xùn)練
    3.3 實驗和結(jié)果
        3.3.1 實驗配置
        3.3.2 實驗分析和結(jié)論
    3.4 本章總結(jié)
第四章 基于深層神經(jīng)網(wǎng)絡(luò)的語音增強中的自適應(yīng)問題
    4.1 引言
    4.2 基于DNN的語音增強的自適應(yīng)方案
        4.2.1 特征自適應(yīng)
        4.2.2 噪聲自適應(yīng)
        4.2.3 語言自適應(yīng)
    4.3 實驗和結(jié)果
        4.3.1 實驗配置
        4.3.2 實驗分析和結(jié)論
    4.4 本章總結(jié)
第五章 多目標(biāo)準(zhǔn)則學(xué)習(xí)
    5.1 引言
    5.2 多目標(biāo)準(zhǔn)則學(xué)習(xí)
        5.2.1 與MFCC的聯(lián)合優(yōu)化
        5.2.2 與IBM的聯(lián)合優(yōu)化和后處理
        5.2.3 與噪聲編碼的聯(lián)合優(yōu)化
    5.3 實驗和結(jié)果
        5.3.1 實驗配置
        5.3.2 實驗分析和結(jié)論
    5.4 本章總結(jié)
第六章 總結(jié)
    6.1 本文的主要貢獻與創(chuàng)新點
    6.2 后續(xù)的研究工作
參考文獻
個人簡歷及在讀期間發(fā)表的學(xué)術(shù)論文
致謝

 

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 相征;朗朗;王靜;;基于基音頻能值的端點檢測算法[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2008年03期

2 呂軍;馬曉娜;;漢語孤立詞聲韻分割算法的研究[J];安徽師范大學(xué)學(xué)報(自然科學(xué)版);2008年03期

3 王暉;顏靖華;李傳珍;蔡娟娟;;音頻貝葉斯諧波模型中參數(shù)的提取[J];中國傳媒大學(xué)學(xué)報(自然科學(xué)版);2007年04期

4 周長鋒;韓力群;;概率神經(jīng)網(wǎng)絡(luò)在文本無關(guān)說話人識別中的應(yīng)用[J];北京工商大學(xué)學(xué)報(自然科學(xué)版);2007年01期

5 魏麗英;;簡析語音編碼[J];才智;2010年31期

6 由守杰;柏森;曹巍巍;;魯棒的DCT域音頻盲水印算法[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2008年02期

7 肖菲;陳賀新;許萬里;趙巖;;模式匹配和過零率檢測的音頻差錯掩蓋[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2011年01期

8 李雨昕;;基于余弦過完備原子庫的語音信號MP稀疏分解[J];成都電子機械高等專科學(xué)校學(xué)報;2011年02期

9 劉瀟營;鄭郁正;李國良;;多類支持向量機在語音識別中的應(yīng)用[J];成都信息工程學(xué)院學(xué)報;2010年01期

10 王昌喜;楊先軍;徐強;馬祖長;孫怡寧;;基于三維加速度傳感器的上肢動作識別系統(tǒng)[J];傳感技術(shù)學(xué)報;2010年06期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 黃麗霞;非特定人魯棒性語音識別中前端濾波器的研究[D];太原理工大學(xué);2011年

2 謝春輝;音頻隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2011年

3 包桂蘭;基于EPG的蒙古語標(biāo)準(zhǔn)音協(xié)同發(fā)音研究[D];內(nèi)蒙古大學(xué);2011年

4 呂釗;噪聲環(huán)境下的語音識別算法研究[D];安徽大學(xué);2011年

5 姜濤;網(wǎng)絡(luò)環(huán)境下說話人識別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年

6 肖文斌;基于耦合隱馬爾可夫模型的滾動軸承故障診斷與性能退化評估研究[D];上海交通大學(xué);2011年

7 韓志艷;語音信號魯棒特征提取及可視化技術(shù)研究[D];東北大學(xué);2009年

8 高林;育苗生產(chǎn)線氣吸式播種系統(tǒng)智能控制的研究[D];北京林業(yè)大學(xué);2008年

9 汪云路;語音隱藏分析方法研究[D];中國科學(xué)技術(shù)大學(xué);2008年

10 錢博;基于漢語元音映射的說話人識別技術(shù)研究[D];南京理工大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉繼芳;基于計算聽覺場景分析的混合語音分離研究[D];哈爾濱工程大學(xué);2009年

2 王文姝;基于模糊理論的關(guān)鍵詞識別算法研究[D];哈爾濱工程大學(xué);2010年

3 劉維巍;語音信號基音周期檢測算法研究[D];哈爾濱工程大學(xué);2010年

4 樓佳;基于網(wǎng)絡(luò)QoS的AMR語音編碼算法研究[D];哈爾濱工程大學(xué);2010年

5 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學(xué);2010年

6 朱妹麗;三種篡改情況下的音頻鑒定方法研究[D];大連理工大學(xué);2010年

7 周翠梅;說話人識別技術(shù)的研究與實現(xiàn)[D];大連理工大學(xué);2010年

8 甄會;欠定盲分離混合矩陣估計方法的研究[D];大連理工大學(xué);2010年

9 張宇;基于倒譜特征的說話人識別方法研究[D];大連海事大學(xué);2010年

10 劉亞玉;限定性文本的語料庫自動構(gòu)建[D];中國海洋大學(xué);2010年



本文編號:228334

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/228334.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶07cd1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com