天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

語(yǔ)音合成中的神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法研究

發(fā)布時(shí)間:2018-05-27 11:20

  本文選題:語(yǔ)音合成 + 隱馬爾可夫模型; 參考:《中國(guó)科學(xué)技術(shù)大學(xué)》2016年博士論文


【摘要】:近些年來,統(tǒng)計(jì)參數(shù)語(yǔ)音合成(Statistical Parametric Speech Synthesis, SPSS)已經(jīng)發(fā)展成為和單元挑選與波形拼接相并列的一種主流語(yǔ)音合成方法。其中,基于隱馬爾可夫模型(Hidden Markov Model, HMM)的統(tǒng)計(jì)參數(shù)語(yǔ)音合成是其最為常見的實(shí)現(xiàn)方法。該方法借鑒了基于HMM的自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)中的一些成熟算法,并且針對(duì)語(yǔ)音合成任務(wù)的特點(diǎn),衍生出多空間概率分布、最大似然參數(shù)生成等一系列關(guān)鍵技術(shù)。它相對(duì)于單元挑選與波形拼接方法,具有系統(tǒng)構(gòu)建自動(dòng)化程度高、存儲(chǔ)空間小、合成語(yǔ)音平穩(wěn)流暢、拓展能力強(qiáng)等優(yōu)點(diǎn)。但是該方法在合成語(yǔ)音的自然度和音質(zhì)上與單元挑選與波形拼接方法相比仍然有一定的差距;贖MM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成中聲學(xué)建模能力的不足是導(dǎo)致這一問題的主要原因之一。隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在自動(dòng)語(yǔ)音識(shí)別中的成功應(yīng)用,自2013年以來基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)聲學(xué)建模方法也成為了語(yǔ)音合成研究領(lǐng)域的研究熱點(diǎn),并取得了積極進(jìn)展。神經(jīng)網(wǎng)絡(luò)相對(duì)傳統(tǒng)統(tǒng)計(jì)參數(shù)語(yǔ)音合成中使用的HMM模型和基于決策樹聚類的高斯?fàn)顟B(tài)分布,對(duì)于高維聲學(xué)特征的維間相關(guān)性以及輸入文本特征與輸出聲學(xué)特征之間的復(fù)雜映射關(guān)系有著更強(qiáng)的建模能力。因此,本文圍繞統(tǒng)計(jì)參數(shù)語(yǔ)音合成中基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)建模方法開展研究工作。針對(duì)頻譜特征建模中的高維譜包絡(luò)維間相關(guān)性描述問題,提出了基于神經(jīng)自回歸分布估計(jì)模型(Neural Autoregressive Distribution Estimator, NADE)的HMM狀態(tài)分布建模方法和基于深度條件受限玻爾茲曼機(jī)模型(Deep Conditional Restricted Boltzmann Machine, DCRBM)的頻譜特征建模方法,提高了頻譜特征建模精度,改善了合成語(yǔ)音的音質(zhì)和自然度:考慮到基頻產(chǎn)生的疊加特性和基頻感知的長(zhǎng)時(shí)特性,提出了基于DNN的層次化基頻建模方法,降低了基頻特征的預(yù)測(cè)誤差,提高了合成語(yǔ)音的自然度:最后,探索了一種端到端的語(yǔ)音合成聲學(xué)建模方法,利用基于注意力的遞歸序列生成器(Attention-based Recurrent Sequence Generator, ARSG),實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成中對(duì)于特征對(duì)齊和特征預(yù)測(cè)的一體化建模。整篇文章的安排如下:第一章是緒論,簡(jiǎn)要介紹了語(yǔ)音的產(chǎn)生機(jī)理,回顧了語(yǔ)音合成技術(shù)的發(fā)展歷史以及幾種常見的語(yǔ)音合成方法。第二章首先介紹了基于HMM的統(tǒng)計(jì)參數(shù)語(yǔ)音合成方法,包括HMM的基本原理、基于HMM的語(yǔ)音合成系統(tǒng)框架以及四個(gè)關(guān)鍵技術(shù),分析了該方法的優(yōu)缺點(diǎn)。其次回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史以及其在語(yǔ)音合成聲學(xué)建模中的已有應(yīng)用。最后闡述了本文結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音合成聲學(xué)建模研究的動(dòng)機(jī)與出發(fā)點(diǎn)。第三章提出了一種基于神經(jīng)自回歸分布估計(jì)模型(Neural Autoregressive Dis-tribution Estimator, NADE)的頻譜狀態(tài)建模方法。已有的基于受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)的譜包絡(luò)狀態(tài)建模方法,使用RBM模型取代高斯分布用于描述HMM中各狀態(tài)的頻譜特征分布,取得了一定的改進(jìn)效果。但是RBM模型存在輸出概率以及參數(shù)梯度無(wú)法精確估計(jì)的不足,而NADE模型可以將觀察值的輸出概率分解為一系列可簡(jiǎn)單計(jì)算的條件概率乘積的形式。因此,本文提出使用NADE模型進(jìn)行HMM各狀態(tài)譜包絡(luò)特征分布的建模,主客觀實(shí)驗(yàn)結(jié)果表明該方法可以有效提高建模精度以及合成語(yǔ)音音質(zhì)。第四章針對(duì)當(dāng)前基于DNN的統(tǒng)計(jì)參數(shù)語(yǔ)音合成無(wú)法有效建模頻譜特征維間相關(guān)性和分布多模特性的問題,提出了基于深度條件受限玻爾茲曼機(jī)(Deep Conditional Restricted Boltzmann Machine, DCRBM)的頻譜特征建模與預(yù)測(cè)方法,并實(shí)驗(yàn)分析了多種不同的DCRBM預(yù)訓(xùn)練機(jī)制。該方法使用RBM作為DNN的輸出層,將DNN的特征問關(guān)系建模能力與RBM的高維特征表征能力相結(jié)合,不僅能夠體現(xiàn)給定文本特征情況下,聲學(xué)特征條件概率分布的多模特性,也可以對(duì)高維譜包絡(luò)的維間相關(guān)性進(jìn)行有效描述。測(cè)試結(jié)果表明,該方法相對(duì)于傳統(tǒng)的HMM建模方法、以及基于DNN和深度混合密度網(wǎng)絡(luò)(Deep Mixture Density Network, DMDN)的頻譜特征建模方法,均能取得更優(yōu)的合成語(yǔ)音音質(zhì)。第五章將對(duì)基于DNN的基頻特征建模方法進(jìn)行研究。在分析了傳統(tǒng)基頻建模方法的局限性之后,考慮到基頻產(chǎn)生的疊加特性和基頻感知的長(zhǎng)時(shí)特性,本章提出了基于DNN的層次化基頻建模方法,設(shè)計(jì)實(shí)現(xiàn)了層疊式DNN以及并行式DNN兩種模型框架。主客觀測(cè)試結(jié)果表明該方法能夠有效地降低基頻預(yù)測(cè)誤差并提升合成語(yǔ)音的自然度。第六章對(duì)端到端的語(yǔ)音合成方法進(jìn)行了探索性研究。端到端的語(yǔ)音合成旨在將前端文本分析和后端聲學(xué)建模相融合,實(shí)現(xiàn)文本與聲學(xué)這兩種不等長(zhǎng)序列之間的直接轉(zhuǎn)換。本章利用基于注意力的遞歸序列生成器(Attention-based Recurrent Sequence Generator, ARSG),,實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成中對(duì)于特征對(duì)齊和特征預(yù)測(cè)的一體化建模,在不依賴HMM的情況下合成出了具有較高平滑度和可懂度的語(yǔ)音。第七章對(duì)全文進(jìn)行了總結(jié)。
[Abstract]:The speech synthesis of statistical parameters based on Hidden Markov Model ( HMM ) is one of the most common methods in the field of speech synthesis . This paper presents a method of modeling and predicting the spectral characteristics of the speech synthesis based on the neural network , which is based on the theory of HMM , the framework of speech synthesis system based on HMM and four key techniques . ARSG implements the integration modeling of feature alignment and feature prediction in speech synthesis based on neural network , and synthesized speech with high smoothness and intelligibility without relying on HMM . Chapter 7 summarizes the full text .
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.33


本文編號(hào):1941831

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1941831.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5306a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com