天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

結(jié)合發(fā)音特征與深度學(xué)習(xí)的語音生成方法研究

發(fā)布時(shí)間:2021-09-13 19:59
  發(fā)音特征指的是人類語音產(chǎn)生過程中舌頭、牙齒、嘴唇等發(fā)音器官的位置和運(yùn)動(dòng)特征。發(fā)音特征描述層次化語音產(chǎn)生過程中的生理層信息,與聲學(xué)特征緊密相關(guān),同時(shí)又具有物理意義明確、受環(huán)境噪聲影響小等優(yōu)點(diǎn)。因此,近年來結(jié)合發(fā)音特征的語音信號(hào)處理方法受到了廣泛的研究關(guān)注。本文圍繞結(jié)合發(fā)音特征的語音生成方法開展研究,重點(diǎn)關(guān)注發(fā)音特征到聲學(xué)特征轉(zhuǎn)換與結(jié)合發(fā)音特征的統(tǒng)計(jì)參數(shù)語音合成兩個(gè)任務(wù)。發(fā)音特征到聲學(xué)特征轉(zhuǎn)換旨在建立發(fā)音特征到聲學(xué)特征的映射關(guān)系,實(shí)現(xiàn)在只使用發(fā)音特征的情況下生成自然可懂的語音信號(hào)。該技術(shù)在靜默語音接口、可控語音合成、話者與口音轉(zhuǎn)換等方面有著應(yīng)用價(jià)值,F(xiàn)階段該技術(shù)研究主要集中于發(fā)音特征到反映聲道濾波器特性的頻譜特征的轉(zhuǎn)換,對于發(fā)音特征到聲源激勵(lì)相關(guān)的能量、清濁判決、基頻等聲學(xué)特征轉(zhuǎn)化方法的研究較為缺乏。此外,已有研究工作主要使用混合高斯模型(Gaussian mixture model,GMM)建立發(fā)音特征到聲學(xué)特征的映射關(guān)系,也存在建模精度不足以及生成語音質(zhì)量不高的問題。結(jié)合發(fā)音特征的統(tǒng)計(jì)參數(shù)語音合成旨在將發(fā)音特征融入統(tǒng)計(jì)參數(shù)語音合成的聲學(xué)建模,改善從文本預(yù)測聲學(xué)特征的精度與合成語音的自然... 

【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】:106 頁

【學(xué)位級別】:博士

【部分圖文】:

結(jié)合發(fā)音特征與深度學(xué)習(xí)的語音生成方法研究


圖1.2發(fā)首爺官7F意圖(蔡明綺,2015)

過程圖,超聲波,數(shù)據(jù)采集,過程


第1章緒?論??fwlrir' ̄??^^vPiaaBl??圖1.3?EMA數(shù)據(jù)采集過程(蔡明琦,2015)。??說話人攝像機(jī)??ID????|?口?唇部正面圖像?^??|超纖頭一Ilf酬聲像帶I??圖1.4超聲波及光學(xué)成像數(shù)據(jù)采集過程。???超聲波及光學(xué)成像(ultrasound?and?optical?imaging)?(Hueber?et?al.,2016)。??圖1.4展示了這項(xiàng)技術(shù)采集發(fā)音特征時(shí)的場景。這里使用了光學(xué)攝像頭用于??拍攝說話人正面嘴唇部分的運(yùn)動(dòng),對于肉眼看不見的口腔、鼻腔以及聲帶??等部位使用超聲波成像技術(shù)來拍攝。這項(xiàng)技術(shù)的優(yōu)點(diǎn)在于無背景噪聲干擾??且對說話人無任何妨礙,缺點(diǎn)在于時(shí)間和空間分辨率相對較低。???核磁共振成像(functional?magnetic?resonance?imaging,?fMRI)?(Narayanan??etal.,2011)。這項(xiàng)技術(shù)利用核磁共振對說話人側(cè)方中剖面進(jìn)行成像,優(yōu)??.?點(diǎn)在于對發(fā)音器官信息記錄較為全面,缺點(diǎn)在于錄制時(shí)背景噪聲較大,時(shí)??域分辨率相對不高等。???肌電描記法(ElectroMyoGraphy,EMG)?(Schultz?etal.,?2010)。這項(xiàng)技術(shù)使??3??

過程圖,數(shù)據(jù)采集,過程,說話人


ID????|?口?唇部正面圖像?^??|超纖頭一Ilf酬聲像帶I??圖1.4超聲波及光學(xué)成像數(shù)據(jù)采集過程。???超聲波及光學(xué)成像(ultrasound?and?optical?imaging)?(Hueber?et?al.,2016)。??圖1.4展示了這項(xiàng)技術(shù)采集發(fā)音特征時(shí)的場景。這里使用了光學(xué)攝像頭用于??拍攝說話人正面嘴唇部分的運(yùn)動(dòng),對于肉眼看不見的口腔、鼻腔以及聲帶??等部位使用超聲波成像技術(shù)來拍攝。這項(xiàng)技術(shù)的優(yōu)點(diǎn)在于無背景噪聲干擾??且對說話人無任何妨礙,缺點(diǎn)在于時(shí)間和空間分辨率相對較低。???核磁共振成像(functional?magnetic?resonance?imaging,?fMRI)?(Narayanan??etal.,2011)。這項(xiàng)技術(shù)利用核磁共振對說話人側(cè)方中剖面進(jìn)行成像,優(yōu)??.?點(diǎn)在于對發(fā)音器官信息記錄較為全面,缺點(diǎn)在于錄制時(shí)背景噪聲較大,時(shí)??域分辨率相對不高等。???肌電描記法(ElectroMyoGraphy,EMG)?(Schultz?etal.,?2010)。這項(xiàng)技術(shù)使??3??

【參考文獻(xiàn)】:
博士論文
[1]融合發(fā)音機(jī)理的統(tǒng)計(jì)參數(shù)語音合成方法研究[D]. 蔡明琦.中國科學(xué)技術(shù)大學(xué) 2015
[2]基于隱馬爾科夫模型的語音合成技術(shù)研究[D]. 吳義堅(jiān).中國科學(xué)技術(shù)大學(xué) 2006



本文編號(hào):3395249

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3395249.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶75afd***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com