基于深度學習的語音轉(zhuǎn)換研究
發(fā)布時間:2020-11-19 23:10
語音轉(zhuǎn)換(Voice Conversion,VC)是一種將原始音頻通過音頻處理變成另一種風格的聲音的技術(shù)。語音轉(zhuǎn)換的有很多應(yīng)用場景,最常見的是在語音合成(Text-to-Speech Synthesis,TTS)中用有限的語料數(shù)據(jù)幫助構(gòu)造語料庫。另外,語音轉(zhuǎn)換在語音修復、語音翻譯和語音安全相關(guān)的技術(shù)中都起到了重要的作用。在語音轉(zhuǎn)換中,說話人轉(zhuǎn)換是最重要的任務(wù),也是本文研究的主要對象。語音轉(zhuǎn)換技術(shù)根據(jù)語料的情況可以分為平行語料的語音轉(zhuǎn)換和非平行語料的語音轉(zhuǎn)換。平行語料的語音轉(zhuǎn)換一般指已有原始說話人和目標說話人的語料,且這些語料的文本內(nèi)容一致;非平行語料的語音轉(zhuǎn)換則一般不具備相同文本內(nèi)容的語料。對于平行語料的語音轉(zhuǎn)換技術(shù),本文提出了一種文本信息幫助下的神經(jīng)網(wǎng)絡(luò)算法,通過語音識別技術(shù)對音頻解碼和對齊得到音素序列,用語音活動檢測得到更精準的語音邊界。在音素序列的幫助下,用動態(tài)時間規(guī)整算法得到更精準的幀級別對齊結(jié)果,用長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)對聲學特征和音素序列建模,得到目標的頻譜特征。實驗表明,該系統(tǒng)在主觀測試與客觀指標上相較基線神經(jīng)網(wǎng)絡(luò)系統(tǒng)都有明顯提升。對于非平行語料的語音轉(zhuǎn)換技術(shù),本文提出了一種基于對偶學習的神經(jīng)網(wǎng)絡(luò)模型,用少量平行語料的預訓練得到性能較差的初始化模型,同時訓練原始說話人轉(zhuǎn)目標說話人與目標說話人轉(zhuǎn)原始說話人兩個轉(zhuǎn)換模型,并且用模仿檢測模型作為中間監(jiān)督模型,保證兩個模型的中間產(chǎn)物始終為正常的語音頻譜特征。實驗表明,該系統(tǒng)在客觀指標不偏離正常范圍的情況下,在主觀測試中能勝過初始化轉(zhuǎn)換模型,證明了對偶學習在欺騙檢測模型起到正常監(jiān)督作用的情況下,可以有效地利用非平行數(shù)據(jù)提升轉(zhuǎn)換模型的性能。
【學位單位】:上海交通大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.3;TP18
【部分圖文】:
人類的發(fā)音器官按照功能可以分為三部分:肺部和氣管是發(fā)聲的動力來源;聲帶是最主要的發(fā)音體;口腔、鼻腔、咽腔等聲帶以上的部位則為共鳴腔。語音的產(chǎn)生機制如圖1–1所示,人類說話時,空氣流從肺部通過擠壓產(chǎn)生并被傳輸?shù)綒夤苤小T跉夤苤,空氣流會不斷沖擊聲帶,產(chǎn)生聲源。當大腦想要發(fā)出一個元音時,聲帶被空氣流沖擊,生成固定頻率的振動序列,這個固定頻率決定了聲音的基音頻率,即人類所聽到的聲音的音調(diào)高低,與聲帶在單位時間內(nèi)的開閉次數(shù)有關(guān)。而當大腦想要發(fā)出一個輔音時,聲帶不會產(chǎn)生振動,所以空氣流只會產(chǎn)生無固定頻率的噪聲。聲道是一個諧振腔體,所以在傳遞振動或者噪音時不會改變它們的固定頻率或者噪音特征,但是它們的外形會改變腔體的共鳴頻率,即共振峰。共振峰指的是聲音信號通過傅里葉變換產(chǎn)生的頻譜中,能量比較比較集中的區(qū)域。一般來說
人類的發(fā)音器官按照功能可以分為三部分:肺部和氣管是發(fā)聲的動力來源;聲帶是最主要的發(fā)音體;口腔、鼻腔、咽腔等聲帶以上的部位則為共鳴腔。語音的產(chǎn)生機制如圖1–1所示,人類說話時,空氣流從肺部通過擠壓產(chǎn)生并被傳輸?shù)綒夤苤。在氣管中,空氣流會不斷沖擊聲帶,產(chǎn)生聲源。當大腦想要發(fā)出一個元音時,聲帶被空氣流沖擊,生成固定頻率的振動序列,這個固定頻率決定了聲音的基音頻率,即人類所聽到的聲音的音調(diào)高低,與聲帶在單位時間內(nèi)的開閉次數(shù)有關(guān)。而當大腦想要發(fā)出一個輔音時,聲帶不會產(chǎn)生振動,所以空氣流只會產(chǎn)生無固定頻率的噪聲。聲道是一個諧振腔體,所以在傳遞振動或者噪音時不會改變它們的固定頻率或者噪音特征,但是它們的外形會改變腔體的共鳴頻率,即共振峰。共振峰指的是聲音信號通過傅里葉變換產(chǎn)生的頻譜中,能量比較比較集中的區(qū)域。一般來說
圖 2–1 典型的語音轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)圖Fig 2–1 Architecture of a typical voice conversion system圖2–1是一個典型的語音轉(zhuǎn)換系統(tǒng)的流程圖。在訓練階段,聲碼器從訓練數(shù)據(jù)集的— 8 —
【參考文獻】
本文編號:2890567
【學位單位】:上海交通大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.3;TP18
【部分圖文】:
人類的發(fā)音器官按照功能可以分為三部分:肺部和氣管是發(fā)聲的動力來源;聲帶是最主要的發(fā)音體;口腔、鼻腔、咽腔等聲帶以上的部位則為共鳴腔。語音的產(chǎn)生機制如圖1–1所示,人類說話時,空氣流從肺部通過擠壓產(chǎn)生并被傳輸?shù)綒夤苤小T跉夤苤,空氣流會不斷沖擊聲帶,產(chǎn)生聲源。當大腦想要發(fā)出一個元音時,聲帶被空氣流沖擊,生成固定頻率的振動序列,這個固定頻率決定了聲音的基音頻率,即人類所聽到的聲音的音調(diào)高低,與聲帶在單位時間內(nèi)的開閉次數(shù)有關(guān)。而當大腦想要發(fā)出一個輔音時,聲帶不會產(chǎn)生振動,所以空氣流只會產(chǎn)生無固定頻率的噪聲。聲道是一個諧振腔體,所以在傳遞振動或者噪音時不會改變它們的固定頻率或者噪音特征,但是它們的外形會改變腔體的共鳴頻率,即共振峰。共振峰指的是聲音信號通過傅里葉變換產(chǎn)生的頻譜中,能量比較比較集中的區(qū)域。一般來說
人類的發(fā)音器官按照功能可以分為三部分:肺部和氣管是發(fā)聲的動力來源;聲帶是最主要的發(fā)音體;口腔、鼻腔、咽腔等聲帶以上的部位則為共鳴腔。語音的產(chǎn)生機制如圖1–1所示,人類說話時,空氣流從肺部通過擠壓產(chǎn)生并被傳輸?shù)綒夤苤。在氣管中,空氣流會不斷沖擊聲帶,產(chǎn)生聲源。當大腦想要發(fā)出一個元音時,聲帶被空氣流沖擊,生成固定頻率的振動序列,這個固定頻率決定了聲音的基音頻率,即人類所聽到的聲音的音調(diào)高低,與聲帶在單位時間內(nèi)的開閉次數(shù)有關(guān)。而當大腦想要發(fā)出一個輔音時,聲帶不會產(chǎn)生振動,所以空氣流只會產(chǎn)生無固定頻率的噪聲。聲道是一個諧振腔體,所以在傳遞振動或者噪音時不會改變它們的固定頻率或者噪音特征,但是它們的外形會改變腔體的共鳴頻率,即共振峰。共振峰指的是聲音信號通過傅里葉變換產(chǎn)生的頻譜中,能量比較比較集中的區(qū)域。一般來說
圖 2–1 典型的語音轉(zhuǎn)換系統(tǒng)結(jié)構(gòu)圖Fig 2–1 Architecture of a typical voice conversion system圖2–1是一個典型的語音轉(zhuǎn)換系統(tǒng)的流程圖。在訓練階段,聲碼器從訓練數(shù)據(jù)集的— 8 —
【參考文獻】
相關(guān)期刊論文 前1條
1 劉蕊;;發(fā)聲的生理結(jié)構(gòu)和嗓音的保護[J];民族音樂;2009年06期
本文編號:2890567
本文鏈接:http://sikaile.net/kejilunwen/wltx/2890567.html
最近更新
教材專著