當(dāng)前位置：主頁 > 科技論文 > 網(wǎng)絡(luò)通信論文 >

少量語料的語音轉(zhuǎn)換算法

發(fā)布時(shí)間：2020-04-10 06:03

【摘要】：語音信號(hào)包含了多種信息,例如說話人身份信息、情感狀態(tài)和語義內(nèi)容等。而語音轉(zhuǎn)換就是用目標(biāo)說話人的身份信息來替換源說話人的身份信息,但是保持語義內(nèi)容不變的一種語音處理技術(shù)。語音轉(zhuǎn)換技術(shù)在偽裝/反偽裝、人工智能語音發(fā)聲、恢復(fù)受損語音、語音趣味互動(dòng)等多方面都有著廣闊的應(yīng)用前景。然而轉(zhuǎn)換前需要大量源和目標(biāo)說話人語料以及轉(zhuǎn)換后的語音質(zhì)量等問題制約了語音轉(zhuǎn)換的應(yīng)用。針對(duì)目標(biāo)說話人可能存在語料不足的情況,本文提出了一種應(yīng)用統(tǒng)一張量字典的少量訓(xùn)練語料情況下的語音轉(zhuǎn)換算法。從語料庫中隨機(jī)選取N個(gè)說話人作為語音張量字典的基礎(chǔ)說話人,通過多序列動(dòng)態(tài)時(shí)間規(guī)整算法使這N個(gè)說話人的平行語音段對(duì)齊,從而建立由N個(gè)二維基礎(chǔ)字典構(gòu)成的張量字典。在語音轉(zhuǎn)換階段,源、目標(biāo)說話人語音都可以通過張量字典中各基礎(chǔ)字典的線性組合,構(gòu)造出各自的語音字典,實(shí)現(xiàn)了語音轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,當(dāng)基礎(chǔ)說話人個(gè)數(shù)達(dá)到14時(shí),只需要極少的目標(biāo)說話人語料,便可獲得與傳統(tǒng)的基于非負(fù)矩陣分解轉(zhuǎn)換算法相當(dāng)?shù)霓D(zhuǎn)換效果,這極大地方便了語音轉(zhuǎn)換系統(tǒng)的應(yīng)用。針對(duì)稀疏表示類算法存在的“細(xì)節(jié)丟失”問題造成的語音質(zhì)量不佳的問題,本文提出了一種基于諧波沖激分離的語音轉(zhuǎn)換算法。該算法是在統(tǒng)一張量字典的語音轉(zhuǎn)換算法基礎(chǔ)之上的改進(jìn),在統(tǒng)一張量字典的語音轉(zhuǎn)換算法基礎(chǔ)上增加了一個(gè)諧波沖激分離的預(yù)處理過程,將諧波信號(hào)和沖激信號(hào)分別經(jīng)過各自的轉(zhuǎn)換系統(tǒng)進(jìn)行轉(zhuǎn)換,并在轉(zhuǎn)換之后相加得到最終的轉(zhuǎn)換語音。針對(duì)預(yù)處理的分離技術(shù),該算法在訓(xùn)練階段分別訓(xùn)練出諧波字典和沖激字典。由于轉(zhuǎn)換系統(tǒng)采用的特征參數(shù)是語音頻譜,在此基礎(chǔ)上論文提出了兩點(diǎn)改進(jìn)措施:頻譜壓縮和殘差補(bǔ)償。實(shí)驗(yàn)結(jié)果證明該算法可以有效的提高統(tǒng)一張量字典語音轉(zhuǎn)換算法的語音質(zhì)量,實(shí)現(xiàn)少語料情況下的高質(zhì)量語音轉(zhuǎn)換算法。并且本文算法的語音轉(zhuǎn)換質(zhì)量高于非負(fù)矩陣分解算法的語音轉(zhuǎn)換語音質(zhì)量。實(shí)驗(yàn)結(jié)果同時(shí)表明,殘差補(bǔ)償可以很好地改善轉(zhuǎn)換系統(tǒng)的客觀評(píng)價(jià)指標(biāo),而頻譜壓縮在轉(zhuǎn)換性能的主觀評(píng)價(jià)上改善更明顯。
【圖文】：

系統(tǒng)原理圖,語音轉(zhuǎn)換

圖 1.1 語音轉(zhuǎn)換系統(tǒng)原理圖示般的語音轉(zhuǎn)換系統(tǒng)分為訓(xùn)練階段和語音轉(zhuǎn)換階段。如上圖 1.1 所示，，在訓(xùn)練階段，和目標(biāo)說話人說同樣的話，將這由兩個(gè)不同說話人所說的具有相同語音內(nèi)容的語音練系統(tǒng)得到轉(zhuǎn)換函數(shù)，當(dāng)然圖中顯示訓(xùn)練階段只有一句話，實(shí)際中需要大量的這樣料，用于訓(xùn)練出轉(zhuǎn)換函數(shù)。在語音轉(zhuǎn)換階段，將源說話人的語音通過訓(xùn)練階段得到數(shù)就可以得到轉(zhuǎn)換后的目標(biāo)說話人語音，實(shí)現(xiàn)語音轉(zhuǎn)換。音轉(zhuǎn)換的意義和應(yīng)用音信號(hào)處理涉及到數(shù)字信號(hào)處理，語言學(xué)，聽覺，心理學(xué)等多個(gè)學(xué)科，涉及較廣且復(fù)雜。近現(xiàn)代以來，得益于數(shù)理統(tǒng)計(jì)模型的快速發(fā)展，語音信號(hào)處理技術(shù)也得到了展。隨著語音識(shí)別、說話人識(shí)別、語音合成等技術(shù)的飛快發(fā)展并且走向成熟，這些漸走出實(shí)驗(yàn)室，進(jìn)入商業(yè)應(yīng)用領(lǐng)域，并且大多取得成功。作為語音信號(hào)處理領(lǐng)域的，語音轉(zhuǎn)換技術(shù)也得到了越來越多的關(guān)注和發(fā)展。近幾年來，隨著深度學(xué)習(xí)、稀疏術(shù)的流行，語音轉(zhuǎn)換技術(shù)正逐漸成為當(dāng)今學(xué)科研究領(lǐng)域的一個(gè)前沿課題。語音轉(zhuǎn)換到語音特征提取、語音轉(zhuǎn)換算法、尋找矩陣間映射關(guān)系、模型的建立以及參數(shù)訓(xùn)練

示意圖,發(fā)音器官,人體,示意圖

杭州電子科技大學(xué)碩士學(xué)位論文第 2 章語音轉(zhuǎn)換系統(tǒng)對(duì)本文所研究的少語料下的語音轉(zhuǎn)換研究課題，介紹了所涉及的相關(guān)技術(shù)音信號(hào)的數(shù)學(xué)。模型、語音轉(zhuǎn)。換的基。本原理、一些語音轉(zhuǎn)換的主要方法價(jià)標(biāo)準(zhǔn)四個(gè)方面的知識(shí)。號(hào)的數(shù)學(xué)模型發(fā)聲過程是由多個(gè)器官共同作用的結(jié)果，由下而上包括：肺部、喉部、口如圖 2.1 所示，從肺部產(chǎn)生的氣流，流經(jīng)喉部，經(jīng)過聲帶，當(dāng)聲帶有頻會(huì)產(chǎn)生一個(gè)周期性的脈沖氣流。其中肺部氣流的大小和喉部聲帶振動(dòng)頻率高等[37]。發(fā)音器官包括口腔和鼻腔等，聲音通過聲門產(chǎn)生一個(gè)有周期的脈鼻腔等組成的聲道，改變了原來的聲音，為原來的聲音提供一個(gè)額外的輔
【學(xué)位授予單位】：杭州電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 金保華,陳建華,尚展壘;基于語音段管理的語音芯片體系結(jié)構(gòu)設(shè)計(jì)[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2003年02期

2 陳日新,孟軍,李思昆;一種基于語音段管理的語音芯片體系結(jié)構(gòu)設(shè)計(jì)[J];常德高等專科學(xué)校學(xué)報(bào)(自然科學(xué)版);1999年01期

3 王桂榮;金小峰;;語音段中朝蒙單元音概率分布的對(duì)比分析[J];延邊大學(xué)學(xué)報(bào)(自然科學(xué)版);2018年03期

4 姚曉菊;;視障大學(xué)生英語音段感知能力探尋性研究[J];海外英語;2019年13期

5 張璐;;現(xiàn)代漢語語音段的教學(xué)法探索[J];中國電力教育;2011年34期

6 雷文輝;宋彥;戴禮榮;;一種基于層次化支持向量機(jī)的語種識(shí)別方法[J];小型微型計(jì)算機(jī)系統(tǒng);2009年04期

7 谷東;簡(jiǎn)志華;;面向少量語料的語音轉(zhuǎn)換算法[J];聲學(xué)學(xué)報(bào);2018年05期

8 李艷雄;吳永;賀前華;;基于特征均值距離的短語音段說話人聚類算法[J];電子與信息學(xué)報(bào);2012年06期

9 張小恒;王力銳;曹W

本文編號(hào)：2621852

資料下載