基于DNN的漢語到藏語跨語言語音轉換的研究
發(fā)布時間:2022-12-22 01:58
跨語言語音轉換是人工智能研究中的一個熱點方向。它通過對源說話人的語音進行分析,利用語音轉換技術得到所需要的目標語音并且在音質上具有源說話人特征。藏族是中國人口較多的少數(shù)民族之一,如果能借助深度學習算法研究漢語到藏語語音的轉換技術,能夠很好的促進藏族地區(qū)同胞和漢族群眾之間的交流,對于文化資源豐富的藏族能起到有效的保護。本文以研究漢語普通話到藏語拉薩話語音轉換為目標,釆用語音識別和語音合成結合的方法,實現(xiàn)了基于深度神經網絡(Deep neural network,DNN)的漢語到藏語的跨語言語音轉換系統(tǒng)。并在此基礎上對合成的藏語語音和語音轉換后的音質進行了主、客觀評測。本論文的主要工作與創(chuàng)新如下:1.跨語言語音轉換中基于DNN的語音識別方法研究。通過對漢語語音識別的研究,發(fā)現(xiàn)DNN在模型訓練過程中截取其中部分已經訓練好的網絡進行特征訓練,得到的新特征在語音識別效果上相比于梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)特征更優(yōu)。首先,對DNN的模型預訓練、參數(shù)修改、模型優(yōu)化方面進行了研宄,并在Kaldi平臺上搭建了用于語音聲學特征提取的深度...
【文章頁數(shù)】:49 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景與意義
1.2 語音轉換的研究現(xiàn)狀
1.3 論文的組織與結構
第2章 漢語到藏語語音轉換的基本框架
2.1 方法提出的背景
2.2 方法的基本框架
2.3 本章小結
第3章 基于DNN的語音識別
3.1 深度神經網絡
3.2 DNN模型訓練
3.2.1 網絡節(jié)點函數(shù)
3.2.2 RBM模型
3.2.3 RBM的屬性
3.3 DNN-HMM模型
第4章 藏語語音的合成
4.1 基于HMM的語音合成
4.2 模型預處理
4.2.1 上下文相關標注
4.2.2 問題集設計
4.2.3 決策樹聚類
4.3 HMM訓練
4.4 語音合成
4.5 STRAIGHT算法
4.6 本章小結
第5章 實驗及測評
5.1 基于DNN的漢語語音識別系統(tǒng)實驗
5.1.1 實驗配置
5.1.2 深度特征提取
5.1.3 實驗結果
5.2 合成音質的評測
5.2.1 客觀評測
5.2.2 主觀評測
5.3 合成語音音質的評測
5.3.1 主觀評測
5.3.2 客觀評測
5.4 跨語言語音轉換音質的評測
5.5 本章小結
第6章 總結與展望
6.1 論文工作總結
6.2 工作展望
參考文獻
攻讀碩士期間的研究成果
致謝
【參考文獻】:
期刊論文
[1]采用動態(tài)核特征及貝葉斯最大后驗估計的語音轉換方法[J]. 李娜,曾向陽,喬宇,李志鋒. 聲學學報. 2015(03)
[2]基于自適應粒子群優(yōu)化徑向基函數(shù)神經網絡的語音轉換[J]. 張玲華,姚紹芹,解偉超. 數(shù)據采集與處理. 2015(02)
[3]深度語音信號與信息處理:研究進展與展望[J]. 戴禮榮,張仕良. 數(shù)據采集與處理. 2014(02)
[4]基于兩層神經網絡的基音檢測算法[J]. 王民,孫潔,贠衛(wèi)國,劉利,任雪妮. 計算機工程與應用. 2014(05)
[5]基于說話人自適應訓練的漢藏雙語語音合成[J]. 王海燕,楊鴻武,甘振業(yè),裴東. 清華大學學報(自然科學版). 2013(06)
博士論文
[1]語音轉換的關鍵技術研究[D]. 李波.國防科學技術大學 2005
本文編號:3723212
【文章頁數(shù)】:49 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景與意義
1.2 語音轉換的研究現(xiàn)狀
1.3 論文的組織與結構
第2章 漢語到藏語語音轉換的基本框架
2.1 方法提出的背景
2.2 方法的基本框架
2.3 本章小結
第3章 基于DNN的語音識別
3.1 深度神經網絡
3.2 DNN模型訓練
3.2.1 網絡節(jié)點函數(shù)
3.2.2 RBM模型
3.2.3 RBM的屬性
3.3 DNN-HMM模型
第4章 藏語語音的合成
4.1 基于HMM的語音合成
4.2 模型預處理
4.2.1 上下文相關標注
4.2.2 問題集設計
4.2.3 決策樹聚類
4.3 HMM訓練
4.4 語音合成
4.5 STRAIGHT算法
4.6 本章小結
第5章 實驗及測評
5.1 基于DNN的漢語語音識別系統(tǒng)實驗
5.1.1 實驗配置
5.1.2 深度特征提取
5.1.3 實驗結果
5.2 合成音質的評測
5.2.1 客觀評測
5.2.2 主觀評測
5.3 合成語音音質的評測
5.3.1 主觀評測
5.3.2 客觀評測
5.4 跨語言語音轉換音質的評測
5.5 本章小結
第6章 總結與展望
6.1 論文工作總結
6.2 工作展望
參考文獻
攻讀碩士期間的研究成果
致謝
【參考文獻】:
期刊論文
[1]采用動態(tài)核特征及貝葉斯最大后驗估計的語音轉換方法[J]. 李娜,曾向陽,喬宇,李志鋒. 聲學學報. 2015(03)
[2]基于自適應粒子群優(yōu)化徑向基函數(shù)神經網絡的語音轉換[J]. 張玲華,姚紹芹,解偉超. 數(shù)據采集與處理. 2015(02)
[3]深度語音信號與信息處理:研究進展與展望[J]. 戴禮榮,張仕良. 數(shù)據采集與處理. 2014(02)
[4]基于兩層神經網絡的基音檢測算法[J]. 王民,孫潔,贠衛(wèi)國,劉利,任雪妮. 計算機工程與應用. 2014(05)
[5]基于說話人自適應訓練的漢藏雙語語音合成[J]. 王海燕,楊鴻武,甘振業(yè),裴東. 清華大學學報(自然科學版). 2013(06)
博士論文
[1]語音轉換的關鍵技術研究[D]. 李波.國防科學技術大學 2005
本文編號:3723212
本文鏈接:http://sikaile.net/kejilunwen/wltx/3723212.html
最近更新
教材專著