【摘要】:語音是說話人發(fā)音時產(chǎn)生的信號,其包含語義信息、個性信息和情緒等多種自然信息,具有采集友好且方便的特點。語音轉(zhuǎn)換技術(shù)就是對源說話人的個性特征參數(shù)進行轉(zhuǎn)變,使其具有目標說話人的個性特征信息,并保持語音的語義信息不變。作為近年來說話人識別和語音合成技術(shù)高度發(fā)展后的延伸和拓展,語音轉(zhuǎn)換技術(shù)受到國內(nèi)外語音研究者的高度關(guān)注。隨著語音轉(zhuǎn)換技術(shù)的發(fā)展,語音研究者不再僅僅關(guān)注轉(zhuǎn)換語音的可懂度和轉(zhuǎn)換后的相似度,而更加強調(diào)轉(zhuǎn)換語音音質(zhì)的流暢性、自然度。對語音轉(zhuǎn)換技術(shù)的研究有助于推動語音信號處理其他領(lǐng)域不斷向前發(fā)展,可以作為醫(yī)療輔助,提高語音的質(zhì)量,也可以豐富大數(shù)據(jù)處理和智能化人機交互,使人機交互更加自然,具有娛樂性和個性化。因此,對語音轉(zhuǎn)換的研究其應用前景深遠、理論研究價值巨大。本文針對語音轉(zhuǎn)換技術(shù)開展了研究,主要研究內(nèi)容如下:從語音產(chǎn)生原理入手,介紹了發(fā)音系統(tǒng)的數(shù)學模型及常用的語音特征參數(shù),并對語音轉(zhuǎn)換模型進行了簡要介紹。本文中用于特征參數(shù)提取與合成的模型是AHOcoder模型,該模型可以同時提取出0log f、MFCC(梅爾倒譜參數(shù))以及濁音最大頻率。詳細描述了GMM-雙線性頻率彎折加幅度壓擴語音轉(zhuǎn)換模型,分析了GMM的訓練、雙線性頻率彎折加幅度壓擴訓練、轉(zhuǎn)換流程及相關(guān)方面的理論知識。通過Matlab實驗,對該模型與傳統(tǒng)GMM模型、GMM-雙線性頻率彎折模型進行了主客觀性能的比較,在這幾種模型中該模型轉(zhuǎn)換語音效果最優(yōu)。重點研究了改進的GMM-頻率彎折的語音轉(zhuǎn)換模型。針對GMM模型中混合數(shù)固定,語音特征參數(shù)分類不合理的問題,在基于高斯混合模型的聚類過程中引入了迭代自組織聚類算法ISODATA,該算法具有較好的聚類特性,以此來得到更符合說話人個性特征參數(shù)的分類,進而改善轉(zhuǎn)換語音的質(zhì)量。迭代自組織聚類算法使用誤差平方和作為聚類準則,設置初始值參數(shù)對“合并”和“分裂”操作進行判斷,并根據(jù)擬合數(shù)據(jù)的分布,自調(diào)節(jié)得到最優(yōu)類別數(shù)。這一聚類比傳統(tǒng)GMM的K-Means聚類具有自組織的優(yōu)勢。經(jīng)過迭代自組織聚類后再進行EM迭代,結(jié)合后續(xù)的雙線性頻率彎折實現(xiàn)語音轉(zhuǎn)換。通過實驗分析,該模型在客觀評價方面,MCD值比GMM-雙線性頻率彎折加幅度壓擴模型的低,在不同語料、不同轉(zhuǎn)換情形下MCD值平均下降了1.49%,反映了該模型頻譜的失真程度更低,轉(zhuǎn)換語音與目標語音的頻譜相似性更好;在主觀評價方面MOS值比GMM-雙線性頻率彎折加幅度壓擴模型的高,MOS值平均提高了5.13%,表明該模型轉(zhuǎn)換語音的音質(zhì)更優(yōu)。理論分析和實驗證明,該模型與GMM-雙線性頻率彎折加幅度壓擴模型相比,轉(zhuǎn)換后的頻譜相似度和MOS值都更高,這表明該模型在個性相似性和合成語音音質(zhì)方面都有一定性能的改進,實現(xiàn)了高質(zhì)量的語音轉(zhuǎn)換。
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.3
【參考文獻】
相關(guān)期刊論文 前9條
1 王民;蘇利博;王稚慧;要趁紅;;采用STRAIGHT模型和深度信念網(wǎng)絡的語音轉(zhuǎn)換方法[J];計算機工程與科學;2016年09期
2 王堅;張媛媛;;基于深度神經(jīng)網(wǎng)絡的漢語語音合成的研究[J];計算機科學;2015年S1期
3 簡志華;王向文;;采用壓縮感知的改進的語音轉(zhuǎn)換算法[J];聲學學報;2014年03期
4 李燕萍;張玲華;丁輝;;基于音素分類的漢語語聲轉(zhuǎn)換算法[J];南京郵電大學學報(自然科學版);2011年01期
5 簡志華;楊震;;基于維特比算法的語聲轉(zhuǎn)換[J];電子學報;2009年07期
6 申毅;簡志華;楊震;;改進的GMM模型語聲轉(zhuǎn)換系統(tǒng)[J];南京郵電大學學報(自然科學版);2007年05期
7 簡志華;楊震;;基于混合線性變換的語聲轉(zhuǎn)換算法[J];電子與信息學報;2007年07期
8 李波,王成友,蔡宣平,唐朝京,張爾揚;語音轉(zhuǎn)換及相關(guān)技術(shù)綜述[J];通信學報;2004年05期
9 吳宗濟;普通話元音和輔音的頻譜分析及共振\锏牟饉鉡J];聲學學報;1964年01期
相關(guān)博士學位論文 前1條
1 李波;語音轉(zhuǎn)換的關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2005年
相關(guān)碩士學位論文 前10條
1 李金中;多參數(shù)驅(qū)動的年齡語音轉(zhuǎn)換系統(tǒng)[D];中國科學技術(shù)大學;2015年
2 劉利娟;聲音轉(zhuǎn)換的神經(jīng)網(wǎng)絡建模方法研究[D];中國科學技術(shù)大學;2015年
3 李健;基于GMM的漢語語音轉(zhuǎn)換系統(tǒng)研究[D];云南大學;2015年
4 李陽春;倒譜本征空間結(jié)構(gòu)化高斯混合模型及語音轉(zhuǎn)換研究[D];蘇州大學;2014年
5 畢興;基于頻率規(guī)整的語音轉(zhuǎn)換技術(shù)研究[D];國防科學技術(shù)大學;2013年
6 朱春雷;優(yōu)化自適應非平行訓練語音轉(zhuǎn)換算法研究[D];蘇州大學;2013年
7 吳麗芳;語音轉(zhuǎn)換系統(tǒng)中特征參數(shù)的研究[D];南京郵電大學;2013年
8 李冰潔;采用譜—韻律雙變換的語音情感轉(zhuǎn)換[D];蘇州大學;2013年
9 楊曼;基于GMM和BP網(wǎng)絡的語音轉(zhuǎn)換系統(tǒng)設計[D];武漢理工大學;2013年
10 趙玲麗;基于高斯混合模型的語音轉(zhuǎn)換技術(shù)研究[D];南京郵電大學;2011年
,
本文編號:
2587165
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2587165.html