基于生成對(duì)抗網(wǎng)絡(luò)的端到端多語(yǔ)音分離技術(shù)研究
發(fā)布時(shí)間:2023-06-28 01:38
隨著人工智能時(shí)代的到來(lái),越來(lái)越多的智能設(shè)備走進(jìn)人們生活,語(yǔ)音作為人機(jī)交互的重要接口,為生活帶來(lái)了巨大便利,因此眾多學(xué)者將語(yǔ)音處理的相關(guān)技術(shù)引入各個(gè)領(lǐng)域。但是目前的語(yǔ)音識(shí)別等技術(shù)都是建立在實(shí)驗(yàn)環(huán)境下,而在嘈雜的實(shí)際應(yīng)用場(chǎng)景往往得不到好的效果。因此能夠去除背景噪聲或其他無(wú)關(guān)人說(shuō)話干擾的語(yǔ)音分離技術(shù)有很大的應(yīng)用空間。生成對(duì)抗網(wǎng)絡(luò)作為一個(gè)新興的深度學(xué)習(xí)網(wǎng)絡(luò),在原有的單一深度學(xué)習(xí)模型的基礎(chǔ)上,增加了判別模型,提高模型的學(xué)習(xí)能力。目前在圖像生成領(lǐng)域,生成對(duì)抗網(wǎng)絡(luò)有著非常突出的成績(jī),但是在語(yǔ)音分離問(wèn)題上尚未有所開(kāi)發(fā),本文首次將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于語(yǔ)音分離問(wèn)題。同時(shí)目前語(yǔ)音分離技術(shù)一般都是基于預(yù)先提取的音頻特征作為網(wǎng)絡(luò)輸入,忽略了在提取特征的過(guò)程中造成語(yǔ)音高頻部分以及相關(guān)性信息的損失,以及在變換過(guò)程中可能會(huì)引入虛假信息從而對(duì)語(yǔ)音分離的性能造成影響。所以本文采用生成對(duì)抗網(wǎng)絡(luò),以原始語(yǔ)音信號(hào)的波形作為輸入,實(shí)現(xiàn)端到端的語(yǔ)音分離模型,并在原有網(wǎng)絡(luò)的基礎(chǔ)上從以下幾個(gè)方面對(duì)網(wǎng)絡(luò)性能進(jìn)行提升。1、針對(duì)傳統(tǒng)聲學(xué)特征提取方法需要經(jīng)過(guò)傅里葉變換、離散余弦變換等操作,提取復(fù)雜特征作為輸入的過(guò)程中會(huì)造成能量損失的問(wèn)題,本文選...
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題的背景及研究意義
1.2 課題發(fā)展歷史及國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 語(yǔ)音分離問(wèn)題概述
1.2.2 語(yǔ)音分離技術(shù)發(fā)展歷史
1.2.3 深度學(xué)習(xí)在語(yǔ)音分離方面的研究現(xiàn)狀
1.2.4 生成對(duì)抗網(wǎng)絡(luò)的研究現(xiàn)狀
1.3 本文主要內(nèi)容及章節(jié)安排
第2章 語(yǔ)音分離相關(guān)方法及聲學(xué)特征提取
2.1 語(yǔ)音分離方法概述
2.1.1 傳統(tǒng)語(yǔ)音分離方法
2.1.2 基于深度學(xué)習(xí)的語(yǔ)音分離方法
2.2 傳統(tǒng)音頻特征及提取相關(guān)方法
2.2.1 頻譜圖
2.2.2 梅爾頻率倒譜系數(shù)
2.2.3 本文擬采用的音頻特征
2.3 本章小結(jié)
第3章 基于生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)多語(yǔ)音分離模型
3.1 生成對(duì)抗網(wǎng)絡(luò)的基本原理
3.1.1 生成對(duì)抗網(wǎng)絡(luò)的模型動(dòng)機(jī)
3.1.2 模型原理的數(shù)學(xué)物理描述
3.2 選擇生對(duì)對(duì)抗網(wǎng)絡(luò)的理論依據(jù)及改進(jìn)
3.3 基于生成對(duì)抗網(wǎng)絡(luò)的端到端多語(yǔ)音分離模型結(jié)構(gòu)
3.4 實(shí)現(xiàn)語(yǔ)音分離關(guān)鍵問(wèn)題的解決方案
3.4.1 語(yǔ)音信號(hào)預(yù)處理
3.4.2 多語(yǔ)音分離目標(biāo)掩碼設(shè)置
3.4.3 數(shù)據(jù)擴(kuò)張
3.4.4 語(yǔ)音分離系統(tǒng)的生成模型(Generator)
3.4.5 語(yǔ)音分離系統(tǒng)的判別模型(Discriminator)
3.5 本章總結(jié)
第4章 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)環(huán)境準(zhǔn)備
4.2 實(shí)驗(yàn)數(shù)據(jù)集建立
4.3 基于生成對(duì)抗網(wǎng)絡(luò)的端到端多語(yǔ)音分離模型實(shí)驗(yàn)結(jié)果
4.4 對(duì)比實(shí)驗(yàn)分析
4.4.1 不同輸入幀長(zhǎng)對(duì)語(yǔ)音分離效果影響
4.4.2 不同輸入特征對(duì)語(yǔ)音分離效果的影響
4.4.3 不同生成模型語(yǔ)音分離效果對(duì)比
4.4.4 不同判別模型中損失函數(shù)的效果對(duì)比
4.4.5 不同深度學(xué)習(xí)網(wǎng)絡(luò)模型的語(yǔ)音分離效果對(duì)比
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果
致謝
本文編號(hào):3835724
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 課題的背景及研究意義
1.2 課題發(fā)展歷史及國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 語(yǔ)音分離問(wèn)題概述
1.2.2 語(yǔ)音分離技術(shù)發(fā)展歷史
1.2.3 深度學(xué)習(xí)在語(yǔ)音分離方面的研究現(xiàn)狀
1.2.4 生成對(duì)抗網(wǎng)絡(luò)的研究現(xiàn)狀
1.3 本文主要內(nèi)容及章節(jié)安排
第2章 語(yǔ)音分離相關(guān)方法及聲學(xué)特征提取
2.1 語(yǔ)音分離方法概述
2.1.1 傳統(tǒng)語(yǔ)音分離方法
2.1.2 基于深度學(xué)習(xí)的語(yǔ)音分離方法
2.2 傳統(tǒng)音頻特征及提取相關(guān)方法
2.2.1 頻譜圖
2.2.2 梅爾頻率倒譜系數(shù)
2.2.3 本文擬采用的音頻特征
2.3 本章小結(jié)
第3章 基于生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)多語(yǔ)音分離模型
3.1 生成對(duì)抗網(wǎng)絡(luò)的基本原理
3.1.1 生成對(duì)抗網(wǎng)絡(luò)的模型動(dòng)機(jī)
3.1.2 模型原理的數(shù)學(xué)物理描述
3.2 選擇生對(duì)對(duì)抗網(wǎng)絡(luò)的理論依據(jù)及改進(jìn)
3.3 基于生成對(duì)抗網(wǎng)絡(luò)的端到端多語(yǔ)音分離模型結(jié)構(gòu)
3.4 實(shí)現(xiàn)語(yǔ)音分離關(guān)鍵問(wèn)題的解決方案
3.4.1 語(yǔ)音信號(hào)預(yù)處理
3.4.2 多語(yǔ)音分離目標(biāo)掩碼設(shè)置
3.4.3 數(shù)據(jù)擴(kuò)張
3.4.4 語(yǔ)音分離系統(tǒng)的生成模型(Generator)
3.4.5 語(yǔ)音分離系統(tǒng)的判別模型(Discriminator)
3.5 本章總結(jié)
第4章 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)環(huán)境準(zhǔn)備
4.2 實(shí)驗(yàn)數(shù)據(jù)集建立
4.3 基于生成對(duì)抗網(wǎng)絡(luò)的端到端多語(yǔ)音分離模型實(shí)驗(yàn)結(jié)果
4.4 對(duì)比實(shí)驗(yàn)分析
4.4.1 不同輸入幀長(zhǎng)對(duì)語(yǔ)音分離效果影響
4.4.2 不同輸入特征對(duì)語(yǔ)音分離效果的影響
4.4.3 不同生成模型語(yǔ)音分離效果對(duì)比
4.4.4 不同判別模型中損失函數(shù)的效果對(duì)比
4.4.5 不同深度學(xué)習(xí)網(wǎng)絡(luò)模型的語(yǔ)音分離效果對(duì)比
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文和取得的科研成果
致謝
本文編號(hào):3835724
本文鏈接:http://sikaile.net/kejilunwen/wltx/3835724.html
最近更新
教材專著