基于生成對抗網(wǎng)絡的端到端多語音分離技術(shù)研究
發(fā)布時間:2023-06-28 01:38
隨著人工智能時代的到來,越來越多的智能設備走進人們生活,語音作為人機交互的重要接口,為生活帶來了巨大便利,因此眾多學者將語音處理的相關(guān)技術(shù)引入各個領域。但是目前的語音識別等技術(shù)都是建立在實驗環(huán)境下,而在嘈雜的實際應用場景往往得不到好的效果。因此能夠去除背景噪聲或其他無關(guān)人說話干擾的語音分離技術(shù)有很大的應用空間。生成對抗網(wǎng)絡作為一個新興的深度學習網(wǎng)絡,在原有的單一深度學習模型的基礎上,增加了判別模型,提高模型的學習能力。目前在圖像生成領域,生成對抗網(wǎng)絡有著非常突出的成績,但是在語音分離問題上尚未有所開發(fā),本文首次將生成對抗網(wǎng)絡應用于語音分離問題。同時目前語音分離技術(shù)一般都是基于預先提取的音頻特征作為網(wǎng)絡輸入,忽略了在提取特征的過程中造成語音高頻部分以及相關(guān)性信息的損失,以及在變換過程中可能會引入虛假信息從而對語音分離的性能造成影響。所以本文采用生成對抗網(wǎng)絡,以原始語音信號的波形作為輸入,實現(xiàn)端到端的語音分離模型,并在原有網(wǎng)絡的基礎上從以下幾個方面對網(wǎng)絡性能進行提升。1、針對傳統(tǒng)聲學特征提取方法需要經(jīng)過傅里葉變換、離散余弦變換等操作,提取復雜特征作為輸入的過程中會造成能量損失的問題,本文選...
【文章頁數(shù)】:84 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題的背景及研究意義
1.2 課題發(fā)展歷史及國內(nèi)外研究現(xiàn)狀
1.2.1 語音分離問題概述
1.2.2 語音分離技術(shù)發(fā)展歷史
1.2.3 深度學習在語音分離方面的研究現(xiàn)狀
1.2.4 生成對抗網(wǎng)絡的研究現(xiàn)狀
1.3 本文主要內(nèi)容及章節(jié)安排
第2章 語音分離相關(guān)方法及聲學特征提取
2.1 語音分離方法概述
2.1.1 傳統(tǒng)語音分離方法
2.1.2 基于深度學習的語音分離方法
2.2 傳統(tǒng)音頻特征及提取相關(guān)方法
2.2.1 頻譜圖
2.2.2 梅爾頻率倒譜系數(shù)
2.2.3 本文擬采用的音頻特征
2.3 本章小結(jié)
第3章 基于生成對抗網(wǎng)絡實現(xiàn)多語音分離模型
3.1 生成對抗網(wǎng)絡的基本原理
3.1.1 生成對抗網(wǎng)絡的模型動機
3.1.2 模型原理的數(shù)學物理描述
3.2 選擇生對對抗網(wǎng)絡的理論依據(jù)及改進
3.3 基于生成對抗網(wǎng)絡的端到端多語音分離模型結(jié)構(gòu)
3.4 實現(xiàn)語音分離關(guān)鍵問題的解決方案
3.4.1 語音信號預處理
3.4.2 多語音分離目標掩碼設置
3.4.3 數(shù)據(jù)擴張
3.4.4 語音分離系統(tǒng)的生成模型(Generator)
3.4.5 語音分離系統(tǒng)的判別模型(Discriminator)
3.5 本章總結(jié)
第4章 實驗結(jié)果與分析
4.1 實驗環(huán)境準備
4.2 實驗數(shù)據(jù)集建立
4.3 基于生成對抗網(wǎng)絡的端到端多語音分離模型實驗結(jié)果
4.4 對比實驗分析
4.4.1 不同輸入幀長對語音分離效果影響
4.4.2 不同輸入特征對語音分離效果的影響
4.4.3 不同生成模型語音分離效果對比
4.4.4 不同判別模型中損失函數(shù)的效果對比
4.4.5 不同深度學習網(wǎng)絡模型的語音分離效果對比
4.5 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間發(fā)表的論文和取得的科研成果
致謝
本文編號:3835724
【文章頁數(shù)】:84 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題的背景及研究意義
1.2 課題發(fā)展歷史及國內(nèi)外研究現(xiàn)狀
1.2.1 語音分離問題概述
1.2.2 語音分離技術(shù)發(fā)展歷史
1.2.3 深度學習在語音分離方面的研究現(xiàn)狀
1.2.4 生成對抗網(wǎng)絡的研究現(xiàn)狀
1.3 本文主要內(nèi)容及章節(jié)安排
第2章 語音分離相關(guān)方法及聲學特征提取
2.1 語音分離方法概述
2.1.1 傳統(tǒng)語音分離方法
2.1.2 基于深度學習的語音分離方法
2.2 傳統(tǒng)音頻特征及提取相關(guān)方法
2.2.1 頻譜圖
2.2.2 梅爾頻率倒譜系數(shù)
2.2.3 本文擬采用的音頻特征
2.3 本章小結(jié)
第3章 基于生成對抗網(wǎng)絡實現(xiàn)多語音分離模型
3.1 生成對抗網(wǎng)絡的基本原理
3.1.1 生成對抗網(wǎng)絡的模型動機
3.1.2 模型原理的數(shù)學物理描述
3.2 選擇生對對抗網(wǎng)絡的理論依據(jù)及改進
3.3 基于生成對抗網(wǎng)絡的端到端多語音分離模型結(jié)構(gòu)
3.4 實現(xiàn)語音分離關(guān)鍵問題的解決方案
3.4.1 語音信號預處理
3.4.2 多語音分離目標掩碼設置
3.4.3 數(shù)據(jù)擴張
3.4.4 語音分離系統(tǒng)的生成模型(Generator)
3.4.5 語音分離系統(tǒng)的判別模型(Discriminator)
3.5 本章總結(jié)
第4章 實驗結(jié)果與分析
4.1 實驗環(huán)境準備
4.2 實驗數(shù)據(jù)集建立
4.3 基于生成對抗網(wǎng)絡的端到端多語音分離模型實驗結(jié)果
4.4 對比實驗分析
4.4.1 不同輸入幀長對語音分離效果影響
4.4.2 不同輸入特征對語音分離效果的影響
4.4.3 不同生成模型語音分離效果對比
4.4.4 不同判別模型中損失函數(shù)的效果對比
4.4.5 不同深度學習網(wǎng)絡模型的語音分離效果對比
4.5 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間發(fā)表的論文和取得的科研成果
致謝
本文編號:3835724
本文鏈接:http://sikaile.net/kejilunwen/wltx/3835724.html
最近更新
教材專著