基于深度學習的藏語語音轉換的研究
發(fā)布時間:2021-05-11 18:23
語音轉換(Voice Conversion,VC)是一種用于修改源說話人的語音信息以匹配目標說話人的語音信息的技術,使得轉換后的語音聽起來像是目標說話人所說,同時保持語義信息不變。當前,主流的VC技術大多數(shù)都是在平行語料條件下實現(xiàn)的,但實際中,對低資源的藏語來說,平行語料的獲取代價很大,聲學特征的對齊也容易出現(xiàn)問題。因此,本文以研究藏語語音轉換為目的,重點分別研究了平行、非平行語料條件下的藏語VC,其主要工作如下:1.梳理語音轉換的基本流程,使用WORLD聲碼器進行語音聲學參數(shù)的提取及語音合成工作。2.研究了面向VC的藏語衛(wèi)藏方言語料庫的設計問題,建立了藏語VC的基礎。文本語料需覆蓋藏語衛(wèi)藏方言音素的各種組合情況,力求使不同音素的出現(xiàn)頻次盡可能均衡,以避免數(shù)據稀疏問題。得到文本語料后,在錄音棚錄制對應的音頻語料,并進行切分標注。3.在使用平行語料條件下將深度神經網絡(Deep Neural Network,DNN)、生成對抗網絡(Generative Adversarial Networks,GAN)引入到藏語語音頻譜參數(shù)的轉換中,通過大量實驗,結果表明DNN、GAN網絡都能實現(xiàn)藏語V...
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 語音轉換的基本概念
1.2 研究背景
1.3 研究現(xiàn)狀
1.3.1 語音轉換技術的研究現(xiàn)狀
1.3.2 方言語音轉換技術研究現(xiàn)狀
1.4 研究意義
1.5 論文結構
第2章 語音轉換基本內容
2.1 語音信號產生的機制和模型
2.1.1 發(fā)聲器官
2.1.2 語音信號生成的數(shù)學模型
2.2 語音信號的特征選取和特征提取
2.2.1 語音信號特征的選取
2.2.2 特征提取
2.3 基于WORLD的語音信號分析與合成
2.4 語音轉換系統(tǒng)框架
2.4.1 基音頻率的轉換
2.4.2 頻譜包絡的轉換
2.5 實驗評估標準
2.5.1 客觀評測
2.5.2 主觀評測
第3章 藏語語料庫的構建
3.1 藏語方言概述
3.2 藏語語料庫的設計
3.2.1 文本語料設計
3.2.2 語音語料的錄制
第4章 基于神經網絡的藏語語音轉換
4.1 平行語料庫條件下的藏語語音轉換
4.1.1 基于DNN的VC
4.1.2 基于GAN的VC
4.2 平行語料條件下的實驗設置及結果分析
4.2.1 實驗語料及預處理
4.2.2 實驗設置
4.2.3 實驗評測
4.3 非平行語料庫條件下的藏語語音轉換
4.3.1 基于CycleGAN的 VC
4.3.2 基于StarGAN的 VC
4.4 非平行語料條件下的實驗設置及結果分析
4.4.1 實驗語料及預處理
4.4.2 實驗設置
4.4.3 實驗評測
第5章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術論文及研究成果
【參考文獻】:
期刊論文
[1]藏語口語語音語料庫的設計與研究[J]. 黃曉輝,李京,馬睿. 計算機工程與應用. 2018(13)
[2]倒譜本征空間結構化高斯混合模型語音轉換方法[J]. 李陽春,俞一彪. 聲學學報. 2015(01)
[3]藏語新詞術語規(guī)范化是“緊迫的、急需解決的一項重大任務”——解讀熱地同志在全國藏語新詞術語標準化工作委員會三屆二次會議上的講話[J]. 楚翹. 中國西藏(中文版). 2014(04)
[4]漢語普通話與沈陽方言轉換的研究[J]. 賈珈,蔡蓮紅,李明,張帥. 清華大學學報(自然科學版). 2009(S1)
[5]與聽力學相關的語音學知識[J]. 王樹峰. 中國聽力語言康復科學雜志. 2006(02)
[6]一種高清晰度、高自然度的漢語文語轉換系統(tǒng)[J]. 初敏,呂士楠. 聲學學報. 1996(S1)
博士論文
[1]基于神經網絡的統(tǒng)計參數(shù)語音合成方法研究[D]. 胡亞軍.中國科學技術大學 2018
[2]語音轉換的關鍵技術研究[D]. 李波.國防科學技術大學 2005
碩士論文
[1]基于CycleGAN網絡實現(xiàn)非平行語料庫條件下的語音轉換[D]. 李濤.大連理工大學 2018
[2]漢藏雙語跨語言語音轉換中韻律控制方法的研究[D]. 賈浩潔.西北師范大學 2016
[3]漢藏雙語跨語言語音轉換方法的研究[D]. 王振文.西北師范大學 2015
[4]基于PAD三維情緒模型的情感語音轉換與識別[D]. 周慧.西北師范大學 2009
本文編號:3181889
【文章來源】:西北師范大學甘肅省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 語音轉換的基本概念
1.2 研究背景
1.3 研究現(xiàn)狀
1.3.1 語音轉換技術的研究現(xiàn)狀
1.3.2 方言語音轉換技術研究現(xiàn)狀
1.4 研究意義
1.5 論文結構
第2章 語音轉換基本內容
2.1 語音信號產生的機制和模型
2.1.1 發(fā)聲器官
2.1.2 語音信號生成的數(shù)學模型
2.2 語音信號的特征選取和特征提取
2.2.1 語音信號特征的選取
2.2.2 特征提取
2.3 基于WORLD的語音信號分析與合成
2.4 語音轉換系統(tǒng)框架
2.4.1 基音頻率的轉換
2.4.2 頻譜包絡的轉換
2.5 實驗評估標準
2.5.1 客觀評測
2.5.2 主觀評測
第3章 藏語語料庫的構建
3.1 藏語方言概述
3.2 藏語語料庫的設計
3.2.1 文本語料設計
3.2.2 語音語料的錄制
第4章 基于神經網絡的藏語語音轉換
4.1 平行語料庫條件下的藏語語音轉換
4.1.1 基于DNN的VC
4.1.2 基于GAN的VC
4.2 平行語料條件下的實驗設置及結果分析
4.2.1 實驗語料及預處理
4.2.2 實驗設置
4.2.3 實驗評測
4.3 非平行語料庫條件下的藏語語音轉換
4.3.1 基于CycleGAN的 VC
4.3.2 基于StarGAN的 VC
4.4 非平行語料條件下的實驗設置及結果分析
4.4.1 實驗語料及預處理
4.4.2 實驗設置
4.4.3 實驗評測
第5章 總結與展望
5.1 總結
5.2 展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術論文及研究成果
【參考文獻】:
期刊論文
[1]藏語口語語音語料庫的設計與研究[J]. 黃曉輝,李京,馬睿. 計算機工程與應用. 2018(13)
[2]倒譜本征空間結構化高斯混合模型語音轉換方法[J]. 李陽春,俞一彪. 聲學學報. 2015(01)
[3]藏語新詞術語規(guī)范化是“緊迫的、急需解決的一項重大任務”——解讀熱地同志在全國藏語新詞術語標準化工作委員會三屆二次會議上的講話[J]. 楚翹. 中國西藏(中文版). 2014(04)
[4]漢語普通話與沈陽方言轉換的研究[J]. 賈珈,蔡蓮紅,李明,張帥. 清華大學學報(自然科學版). 2009(S1)
[5]與聽力學相關的語音學知識[J]. 王樹峰. 中國聽力語言康復科學雜志. 2006(02)
[6]一種高清晰度、高自然度的漢語文語轉換系統(tǒng)[J]. 初敏,呂士楠. 聲學學報. 1996(S1)
博士論文
[1]基于神經網絡的統(tǒng)計參數(shù)語音合成方法研究[D]. 胡亞軍.中國科學技術大學 2018
[2]語音轉換的關鍵技術研究[D]. 李波.國防科學技術大學 2005
碩士論文
[1]基于CycleGAN網絡實現(xiàn)非平行語料庫條件下的語音轉換[D]. 李濤.大連理工大學 2018
[2]漢藏雙語跨語言語音轉換中韻律控制方法的研究[D]. 賈浩潔.西北師范大學 2016
[3]漢藏雙語跨語言語音轉換方法的研究[D]. 王振文.西北師范大學 2015
[4]基于PAD三維情緒模型的情感語音轉換與識別[D]. 周慧.西北師范大學 2009
本文編號:3181889
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3181889.html
最近更新
教材專著