基于基音同步疊加方法的漢語語音合成處理研究
【摘要】 語音合成是語音信號(hào)處理的一個(gè)重要分支,經(jīng)過長時(shí)間的發(fā)展,語音合成的方法日漸增多。其中,基音同步疊加算法(Pitch Synchronous OverLap-and-Add)自從被提出來后就在語音合成領(lǐng)域有了比較廣泛的應(yīng)用。與簡單的波形拼接不一樣,這種算法可以進(jìn)行韻律的調(diào)節(jié),比如基頻、時(shí)長等。這樣合成的語音在自然度上有所提高。目前,基音同步疊加算法使用的語音庫都是一些自然語音。在語音合成中可以讓合成的結(jié)果保留原發(fā)音的一些特征,使合成的語音不再生硬,帶有個(gè)人音質(zhì)特征。不過,這種語音庫包含了大量的自然語音,語音庫的容量很大。同時(shí),語音合成中基音周期估算的準(zhǔn)確性非常重要,影響著合成的效果。傳統(tǒng)的估算方法主要是自相關(guān)函數(shù)法、平均幅度差函數(shù)法等,它們在基音的判斷上會(huì)出現(xiàn)一定的誤判。本文針對(duì)語音庫容量的這個(gè)問題,提出了聲母韻母合成,這樣就減少了庫容量。在基音周期估算方面,則把自相關(guān)函數(shù)法與平均幅度差函數(shù)法結(jié)合起來,使基音周期的估算結(jié)果更加明顯,減少判斷上的失誤。文中還對(duì)一段語音進(jìn)行了韻律方面的調(diào)節(jié),實(shí)現(xiàn)了基頻、時(shí)長調(diào)節(jié),體現(xiàn)了基音同步疊加算法的韻律處理能力。本文的實(shí)驗(yàn)結(jié)果表明,聲母韻母合成的效果不錯(cuò),人們能夠清楚的聽出合成的音節(jié)。在基音周期估算方面,從波形可以看出兩個(gè)算法結(jié)合后,波峰的表現(xiàn)更加明顯,誤判減少。在一段語音的處理中,從實(shí)驗(yàn)結(jié)果可以看出,該算法在韻律調(diào)節(jié)方面已經(jīng)比較熟練,能取得較好的效果。
第一章緒論
1.1漢語語音合成處理
人們通過語言來交流溝通,語言的表現(xiàn)形式即是語音⑴,語音使人類信息的交流變得有效直接順暢。同時(shí),語音也是人們感情交流的主要方式。伴隨著科學(xué)技術(shù)的日益發(fā)展以及各種智能設(shè)備的廣泛使用,人工智能、語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)字信號(hào)處理等不同學(xué)科被融合一體,形成了語音信號(hào)處理這門技術(shù),而語音識(shí)別和語音合成便是這門學(xué)科中人們重點(diǎn)研究的領(lǐng)域。通過人工技術(shù)合成人類的語音被稱作語音合成[3],實(shí)現(xiàn)語音合成的方式可以是硬件,也可以是軟件。語音合成的最終目的是讓計(jì)算機(jī)或者智能設(shè)備能夠發(fā)出語音,此語音須具備清晰、自然、能理解等特點(diǎn)。作為涉獵語言學(xué)、計(jì)算機(jī)科學(xué)、聲學(xué)等多個(gè)學(xué)科的領(lǐng)先技術(shù),語音合成技術(shù)己經(jīng)擁有兩百多年的研究歷史[4],不過真正具有實(shí)際意義的語音合成技術(shù)是從近代才發(fā)展起來的,主要是伴隨著數(shù)字信號(hào)處理和計(jì)算機(jī)科學(xué)技術(shù)的腳步而前進(jìn)的。語音合成技術(shù)的迅猛發(fā)展得益于現(xiàn)代信息產(chǎn)業(yè)的快速發(fā)展,它逐步適應(yīng)高科技社會(huì)現(xiàn)代人們對(duì)智能設(shè)備的需求[5]。自1930年一個(gè)用鍵盤操作的聲音編碼器在貝爾實(shí)驗(yàn)室誕生到1968年第一個(gè)完整的TTS[6_7]語音合成系統(tǒng)的形成,語音合成技術(shù)在技術(shù)和方法經(jīng)歷了各種各樣的改進(jìn)。在語音合成技術(shù)的發(fā)展進(jìn)程中[8],早期的研究普遍是采用參數(shù)合成方法。隨著計(jì)算機(jī)技術(shù)的發(fā)展,后來又出現(xiàn)了波形拼接的合成方法。我國的漢語語音合成技術(shù)起步比較晚,經(jīng)過不懈努力,我國在八十年代初期取得了和國際語音研究同步發(fā)展的成績,主要經(jīng)歷了參數(shù)合成、規(guī)則合成和波形拼接合成三個(gè)階段[9]。其中最普遍被研究應(yīng)用的是共振峰合成、線性規(guī)則合成和基音同步疊加技術(shù)[15-17]。
…………
1.2論文章節(jié)安排
本文的總體結(jié)構(gòu)安排如下所示:
第一章介紹課題研究歷史背景。
第二章對(duì)語音信號(hào)的基礎(chǔ)知識(shí)進(jìn)行了介紹,主要是對(duì)語音的發(fā)聲原理、語音的韻律聲調(diào)以及語音合成的方法進(jìn)行了討論。通過對(duì)語音的基礎(chǔ)知識(shí)講解,讓人能夠更加清晰了解語音合成。
第三章主要介紹了基音同步疊加算法的原理。在原理的介紹過程中,我們看到基音周期計(jì)算的準(zhǔn)確性影響著整個(gè)合成過程,為下一章基因周期的計(jì)算做了鋪塾。
第四章分為三個(gè)部分,即聲母韻母合成、基音周期的估算及語音段的韻律處理研究。針對(duì)語音庫容量大的情況,本文提出了聲韻合成。該算法在基音同步疊加的算法上有所改進(jìn),主要是針對(duì)獨(dú)音的處理。傳統(tǒng)的基音周期估算方法得到的結(jié)果并不是很明顯,容易出現(xiàn)誤判。因此,本文把兩種常用的算法結(jié)合起來,是估算的結(jié)果更加清晰明了,減少誤判的幾率。而在對(duì)語音段的韻律處理方面,運(yùn)用了短時(shí)平均能量法來區(qū)分清獨(dú)音,并分別對(duì)語音的基頻、時(shí)長進(jìn)行了調(diào)節(jié)。第五章回顧和總結(jié)本文主要內(nèi)容,并對(duì)論文中存在的不足作進(jìn)一步展望。
………..
第二章語音學(xué)基礎(chǔ)概要
2.1漢語的發(fā)音機(jī)理
從人們發(fā)出聲音的生理情況來看,身體的各個(gè)發(fā)音器官互相作用導(dǎo)致聲音的產(chǎn)生。而這一發(fā)聲機(jī)理主要包括三個(gè)系統(tǒng):聲門下系統(tǒng)、喉系統(tǒng)及聲門上系統(tǒng)。呼吸系統(tǒng)指的就是聲門下系統(tǒng),它作為人們語音發(fā)聲的動(dòng)力部門,為前期的發(fā)音提供動(dòng)力,由橫隔膜、肺和氣管等構(gòu)成;喉系統(tǒng)是聲源的產(chǎn)生部門,主要是由喉頭聲帶和聲門等構(gòu)成;聲上門系統(tǒng)又被稱作調(diào)音器官,它是由咽腔、口腔和鼻腔等構(gòu)成,經(jīng)由喉部的氣流通過調(diào)音器官的作用便形成了音素。人們發(fā)出語音的過程:在發(fā)音的初期,經(jīng)過肺部的作用把氣流呼出,同時(shí)借助橫膈膜和胸部的力量把氣流從氣管傳輸?shù)胶聿,通過聲門和聲道致使人的聲帶發(fā)生振動(dòng),從而產(chǎn)生聲音。由于在發(fā)音的過程中,聲道會(huì)產(chǎn)生收縮或者擴(kuò)張等不同的形狀改變,所以人們會(huì)發(fā)出不同的聲音。因此,同樣的一句話不同的人說出來聲音是不同的,這個(gè)就是因?yàn)椴煌娜税l(fā)聲的生理器官不同的原因。根據(jù)激勵(lì)方式的不同,語音又被人們分為三個(gè)類別:池音、清音和爆破音。當(dāng)聲門中有氣流經(jīng)過時(shí),在張力的作用下,聲帶出現(xiàn)了張馳式的振動(dòng)。于是,空氣產(chǎn)生的脈沖就具有了準(zhǔn)周期性。當(dāng)聲道得到這個(gè)空氣脈沖的沖擊就得到了池音。而假如在氣流往外竄的過程中,在聲道的某個(gè)地方發(fā)生收縮,導(dǎo)致空氣以特別快的速度沖過收縮處,這樣就產(chǎn)生了清音。爆破音就是當(dāng)聲道處于完全閉合狀態(tài),閉合后堆積的氣壓突然釋放形成的。這三種聲音的產(chǎn)生都與發(fā)聲的生理機(jī)能有一定的聯(lián)系,,因?yàn)槁暤篮吐曢T控制著人的發(fā)聲狀態(tài),加上人與人之間聲道聲門的差別,所以人們發(fā)出的聲音在很多方面都有不同之處。
………
2. 2漢語語音的基礎(chǔ)組成單元
漢語語音有很多的方言,但是普通話是一種把北京語音作為標(biāo)準(zhǔn)的語言。漢語在發(fā)音上有種獨(dú)特的魅力,有一字多音一字多義等現(xiàn)象。因此,同一字不同發(fā)音可以構(gòu)建無數(shù)個(gè)詞匯,而這些詞匯整合又能形成表達(dá)不同意思的句子。漢語中可以表達(dá)意思的基礎(chǔ)單位是音節(jié),單音節(jié)就是一個(gè)字。輔音與元音合成一個(gè)字,元音是一個(gè)字的主角,而輔音則是不可缺少的配角。其實(shí),元音都是獨(dú)音,輔音則是其他的音。因?yàn)闈h語語音的最基礎(chǔ)單元是音節(jié),音素是語音流的最小單元。因此,漢語的一大特征是音系簡單。由于漢語的兒化音與輕重音比較明顯,因此詞語分開的很清晰,人們很容易感覺到表達(dá)的意境。漢語還有比較多的同音字,卻沒有明顯的音聯(lián)這方面的情況。漢語是如此博大精深,短語、詞語、句子等單元構(gòu)成的因素是有很多小的部分,下面將介紹這些因素。從韻律學(xué)的角度來看,人們在說話或者交談時(shí)所發(fā)出的聲音就是音素;而從音質(zhì)的角度來看,音素是被語音劃分出來的最小的線性單元。組成一個(gè)音節(jié)或者語音段落的最小基元就是音素。其實(shí),音素是一種物理現(xiàn)象,它是真實(shí)存在的。在國際語言學(xué)的研究中,人類語言的音素和國際音標(biāo)也存在相對(duì)應(yīng)的關(guān)系。
………..
第三章基于基音同步疊加算法簡介
3.1基音同步疊加算法的背景........ (18)
3. 2時(shí)域基音同步疊加算法的工作原理........(20)
3. 2.1基音同步分析與標(biāo)記........ (20)
3. 2. 2基音同步修改 ........(21)
3. 2. 3基音同步疊加........ (21)
第四章基于基音同步幀的合成
4.1聲韻合成 ........(23)
4.1.1聲韻合成的基礎(chǔ)單元........ (23)
4.1.2聲韻合成........ (24)
4. 2基首周期估計(jì)和標(biāo)記 ........(26)
4. 3基音同步疊加法對(duì)一段語音的處理........ (34)
4. 3.1清濁音的區(qū)分........ (35)
4. 3. 2基頻調(diào)整........ (37)
4. 3. 3時(shí)長調(diào)整 ........(38)
4. 4本章總結(jié)........ (41)
第五章總結(jié)與展望
第四章基于基音同步幀的合成
4. 1聲韻合成
語音合成的基本單元絕大多數(shù)是音節(jié)、詞匯等等,這樣語音庫就比較大。而在語音合成中,語音基本單元是首要需要解決的問題;倪x擇至關(guān)重要,大的基元音質(zhì)比較好,但是拼接有一定的難度,且音庫比較大;小的基元音庫小,拼接靈活,卻在韻律調(diào)節(jié)方面比較繁雜。本文將進(jìn)行聲母韻母的合成[5G],實(shí)驗(yàn)結(jié)果顯示不僅可以把語音庫控制在較小的范圍,而且合成音節(jié)的音質(zhì)也不錯(cuò)。漢語拼音中有22個(gè)聲母,由于聲母的發(fā)音時(shí)長比較短,所以在語音發(fā)聲中很難被察覺。但是聲母又不能單獨(dú)的發(fā)聲,它的發(fā)聲和韻母有一定的聯(lián)系,同一個(gè)聲母和不同韻母合成,聲母中總是伴有韻母影響。因此,一個(gè)聲母與不同韻母合成時(shí),由于發(fā)音不同,合成語音在時(shí)域的過渡段波形是不一樣的,可見在發(fā)音中聲母與韻母是不可分割的。
………..
結(jié)論
基音同步疊加是語音合成領(lǐng)域比較有創(chuàng)造性的算法。通過多年的發(fā)展壯大,取得了一定的理論和應(yīng)用成果。現(xiàn)已經(jīng)發(fā)展為語音信號(hào)處理方面的一個(gè)大熱點(diǎn)。理論上,人們從不同的角度出發(fā)已經(jīng)對(duì)基音同步疊加算法有了比較深入的研究,也提出了其他的方式與該算法結(jié)合的實(shí)現(xiàn)算法。同時(shí),伴隨著現(xiàn)代科技的發(fā)展,語音合成在實(shí)際的應(yīng)用中也有了比較明顯的成績。基音同步疊加算法作為新秀在語音合成的發(fā)展中的成果也是有目共睹的。本文旨在對(duì)基音同步疊加算法和應(yīng)用做基礎(chǔ)性的研究。首先,介紹語音學(xué)的基礎(chǔ)知識(shí),讓我們對(duì)語言學(xué)有個(gè)基本的了解。然后,對(duì)傳統(tǒng)的基音同步疊加算法的原理進(jìn)行了分析,讓我們看到這種方法存在著基音計(jì)算不準(zhǔn)確的缺點(diǎn)。基于語音庫大小的問題,本文通過實(shí)驗(yàn)對(duì)聲母韻母進(jìn)行了合成,實(shí)驗(yàn)結(jié)果很不錯(cuò)。針對(duì)基音周期計(jì)算精確性不高,我們提出了新的基音周期計(jì)算方法,這種方法有效的提高了語音合成的結(jié)果。同時(shí)在韻律調(diào)節(jié)方面,我們進(jìn)行時(shí)長和基頻的調(diào)節(jié),讓一段語音更有節(jié)奏感。理論分析和計(jì)算機(jī)仿真實(shí)驗(yàn)驗(yàn)證了基音周期計(jì)算的準(zhǔn)確性、聲韻合成的自然度以及語音韻律調(diào)節(jié)的有效性。
…………
參考文獻(xiàn)(略)
本文編號(hào):19364
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/19364.html