少量語料的語音轉(zhuǎn)換算法
發(fā)布時間:2020-04-10 06:03
【摘要】:語音信號包含了多種信息,例如說話人身份信息、情感狀態(tài)和語義內(nèi)容等。而語音轉(zhuǎn)換就是用目標(biāo)說話人的身份信息來替換源說話人的身份信息,但是保持語義內(nèi)容不變的一種語音處理技術(shù)。語音轉(zhuǎn)換技術(shù)在偽裝/反偽裝、人工智能語音發(fā)聲、恢復(fù)受損語音、語音趣味互動等多方面都有著廣闊的應(yīng)用前景。然而轉(zhuǎn)換前需要大量源和目標(biāo)說話人語料以及轉(zhuǎn)換后的語音質(zhì)量等問題制約了語音轉(zhuǎn)換的應(yīng)用。針對目標(biāo)說話人可能存在語料不足的情況,本文提出了一種應(yīng)用統(tǒng)一張量字典的少量訓(xùn)練語料情況下的語音轉(zhuǎn)換算法。從語料庫中隨機(jī)選取N個說話人作為語音張量字典的基礎(chǔ)說話人,通過多序列動態(tài)時間規(guī)整算法使這N個說話人的平行語音段對齊,從而建立由N個二維基礎(chǔ)字典構(gòu)成的張量字典。在語音轉(zhuǎn)換階段,源、目標(biāo)說話人語音都可以通過張量字典中各基礎(chǔ)字典的線性組合,構(gòu)造出各自的語音字典,實(shí)現(xiàn)了語音轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,當(dāng)基礎(chǔ)說話人個數(shù)達(dá)到14時,只需要極少的目標(biāo)說話人語料,便可獲得與傳統(tǒng)的基于非負(fù)矩陣分解轉(zhuǎn)換算法相當(dāng)?shù)霓D(zhuǎn)換效果,這極大地方便了語音轉(zhuǎn)換系統(tǒng)的應(yīng)用。針對稀疏表示類算法存在的“細(xì)節(jié)丟失”問題造成的語音質(zhì)量不佳的問題,本文提出了一種基于諧波沖激分離的語音轉(zhuǎn)換算法。該算法是在統(tǒng)一張量字典的語音轉(zhuǎn)換算法基礎(chǔ)之上的改進(jìn),在統(tǒng)一張量字典的語音轉(zhuǎn)換算法基礎(chǔ)上增加了一個諧波沖激分離的預(yù)處理過程,將諧波信號和沖激信號分別經(jīng)過各自的轉(zhuǎn)換系統(tǒng)進(jìn)行轉(zhuǎn)換,并在轉(zhuǎn)換之后相加得到最終的轉(zhuǎn)換語音。針對預(yù)處理的分離技術(shù),該算法在訓(xùn)練階段分別訓(xùn)練出諧波字典和沖激字典。由于轉(zhuǎn)換系統(tǒng)采用的特征參數(shù)是語音頻譜,在此基礎(chǔ)上論文提出了兩點(diǎn)改進(jìn)措施:頻譜壓縮和殘差補(bǔ)償。實(shí)驗(yàn)結(jié)果證明該算法可以有效的提高統(tǒng)一張量字典語音轉(zhuǎn)換算法的語音質(zhì)量,實(shí)現(xiàn)少語料情況下的高質(zhì)量語音轉(zhuǎn)換算法。并且本文算法的語音轉(zhuǎn)換質(zhì)量高于非負(fù)矩陣分解算法的語音轉(zhuǎn)換語音質(zhì)量。實(shí)驗(yàn)結(jié)果同時表明,殘差補(bǔ)償可以很好地改善轉(zhuǎn)換系統(tǒng)的客觀評價指標(biāo),而頻譜壓縮在轉(zhuǎn)換性能的主觀評價上改善更明顯。
【圖文】:
圖 1.1 語音轉(zhuǎn)換系統(tǒng)原理圖示般的語音轉(zhuǎn)換系統(tǒng)分為訓(xùn)練階段和語音轉(zhuǎn)換階段。如上圖 1.1 所示,,在訓(xùn)練階段,和目標(biāo)說話人說同樣的話,將這由兩個不同說話人所說的具有相同語音內(nèi)容的語音練系統(tǒng)得到轉(zhuǎn)換函數(shù),當(dāng)然圖中顯示訓(xùn)練階段只有一句話,實(shí)際中需要大量的這樣料,用于訓(xùn)練出轉(zhuǎn)換函數(shù)。在語音轉(zhuǎn)換階段,將源說話人的語音通過訓(xùn)練階段得到數(shù)就可以得到轉(zhuǎn)換后的目標(biāo)說話人語音,實(shí)現(xiàn)語音轉(zhuǎn)換。音轉(zhuǎn)換的意義和應(yīng)用音信號處理涉及到數(shù)字信號處理,語言學(xué),聽覺,心理學(xué)等多個學(xué)科,涉及較廣且復(fù)雜。近現(xiàn)代以來,得益于數(shù)理統(tǒng)計模型的快速發(fā)展,語音信號處理技術(shù)也得到了展。隨著語音識別、說話人識別、語音合成等技術(shù)的飛快發(fā)展并且走向成熟,這些漸走出實(shí)驗(yàn)室,進(jìn)入商業(yè)應(yīng)用領(lǐng)域,并且大多取得成功。作為語音信號處理領(lǐng)域的,語音轉(zhuǎn)換技術(shù)也得到了越來越多的關(guān)注和發(fā)展。近幾年來,隨著深度學(xué)習(xí)、稀疏術(shù)的流行,語音轉(zhuǎn)換技術(shù)正逐漸成為當(dāng)今學(xué)科研究領(lǐng)域的一個前沿課題。語音轉(zhuǎn)換到語音特征提取、語音轉(zhuǎn)換算法、尋找矩陣間映射關(guān)系、模型的建立以及參數(shù)訓(xùn)練
杭州電子科技大學(xué)碩士學(xué)位論文 第 2 章 語音轉(zhuǎn)換系統(tǒng)對本文所研究的少語料下的語音轉(zhuǎn)換研究課題,介紹了所涉及的相關(guān)技術(shù)音信號的數(shù)學(xué)。模型、語音轉(zhuǎn)。換的基。本原理、一些語音轉(zhuǎn)換的主要方法價標(biāo)準(zhǔn)四個方面的知識。號的數(shù)學(xué)模型發(fā)聲過程是由多個器官共同作用的結(jié)果,由下而上包括:肺部、喉部、口如圖 2.1 所示,從肺部產(chǎn)生的氣流,流經(jīng)喉部,經(jīng)過聲帶,當(dāng)聲帶有頻會產(chǎn)生一個周期性的脈沖氣流。其中肺部氣流的大小和喉部聲帶振動頻率高等[37]。發(fā)音器官包括口腔和鼻腔等,聲音通過聲門產(chǎn)生一個有周期的脈鼻腔等組成的聲道,改變了原來的聲音,為原來的聲音提供一個額外的輔
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.3
【圖文】:
圖 1.1 語音轉(zhuǎn)換系統(tǒng)原理圖示般的語音轉(zhuǎn)換系統(tǒng)分為訓(xùn)練階段和語音轉(zhuǎn)換階段。如上圖 1.1 所示,,在訓(xùn)練階段,和目標(biāo)說話人說同樣的話,將這由兩個不同說話人所說的具有相同語音內(nèi)容的語音練系統(tǒng)得到轉(zhuǎn)換函數(shù),當(dāng)然圖中顯示訓(xùn)練階段只有一句話,實(shí)際中需要大量的這樣料,用于訓(xùn)練出轉(zhuǎn)換函數(shù)。在語音轉(zhuǎn)換階段,將源說話人的語音通過訓(xùn)練階段得到數(shù)就可以得到轉(zhuǎn)換后的目標(biāo)說話人語音,實(shí)現(xiàn)語音轉(zhuǎn)換。音轉(zhuǎn)換的意義和應(yīng)用音信號處理涉及到數(shù)字信號處理,語言學(xué),聽覺,心理學(xué)等多個學(xué)科,涉及較廣且復(fù)雜。近現(xiàn)代以來,得益于數(shù)理統(tǒng)計模型的快速發(fā)展,語音信號處理技術(shù)也得到了展。隨著語音識別、說話人識別、語音合成等技術(shù)的飛快發(fā)展并且走向成熟,這些漸走出實(shí)驗(yàn)室,進(jìn)入商業(yè)應(yīng)用領(lǐng)域,并且大多取得成功。作為語音信號處理領(lǐng)域的,語音轉(zhuǎn)換技術(shù)也得到了越來越多的關(guān)注和發(fā)展。近幾年來,隨著深度學(xué)習(xí)、稀疏術(shù)的流行,語音轉(zhuǎn)換技術(shù)正逐漸成為當(dāng)今學(xué)科研究領(lǐng)域的一個前沿課題。語音轉(zhuǎn)換到語音特征提取、語音轉(zhuǎn)換算法、尋找矩陣間映射關(guān)系、模型的建立以及參數(shù)訓(xùn)練
杭州電子科技大學(xué)碩士學(xué)位論文 第 2 章 語音轉(zhuǎn)換系統(tǒng)對本文所研究的少語料下的語音轉(zhuǎn)換研究課題,介紹了所涉及的相關(guān)技術(shù)音信號的數(shù)學(xué)。模型、語音轉(zhuǎn)。換的基。本原理、一些語音轉(zhuǎn)換的主要方法價標(biāo)準(zhǔn)四個方面的知識。號的數(shù)學(xué)模型發(fā)聲過程是由多個器官共同作用的結(jié)果,由下而上包括:肺部、喉部、口如圖 2.1 所示,從肺部產(chǎn)生的氣流,流經(jīng)喉部,經(jīng)過聲帶,當(dāng)聲帶有頻會產(chǎn)生一個周期性的脈沖氣流。其中肺部氣流的大小和喉部聲帶振動頻率高等[37]。發(fā)音器官包括口腔和鼻腔等,聲音通過聲門產(chǎn)生一個有周期的脈鼻腔等組成的聲道,改變了原來的聲音,為原來的聲音提供一個額外的輔
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TN912.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 金保華,陳建華,尚展壘;基于語音段管理的語音芯片體系結(jié)構(gòu)設(shè)計[J];鄭州輕工業(yè)學(xué)院學(xué)報;2003年02期
2 陳日新,孟軍,李思昆;一種基于語音段管理的語音芯片體系結(jié)構(gòu)設(shè)計[J];常德高等?茖W(xué)校學(xué)報(自然科學(xué)版);1999年01期
3 王桂榮;金小峰;;語音段中朝蒙單元音概率分布的對比分析[J];延邊大學(xué)學(xué)報(自然科學(xué)版);2018年03期
4 姚曉菊;;視障大學(xué)生英語音段感知能力探尋性研究[J];海外英語;2019年13期
5 張璐;;現(xiàn)代漢語語音段的教學(xué)法探索[J];中國電力教育;2011年34期
6 雷文輝;宋彥;戴禮榮;;一種基于層次化支持向量機(jī)的語種識別方法[J];小型微型計算機(jī)系統(tǒng);2009年04期
7 谷東;簡志華;;面向少量語料的語音轉(zhuǎn)換算法[J];聲學(xué)學(xué)報;2018年05期
8 李艷雄;吳永;賀前華;;基于特征均值距離的短語音段說話人聚類算法[J];電子與信息學(xué)報;2012年06期
9 張小恒;王力銳;曹W
本文編號:2621852
本文鏈接:http://sikaile.net/kejilunwen/wltx/2621852.html
最近更新
教材專著