基于基音同步疊加方法的漢語(yǔ)語(yǔ)音合成處理研究
【摘要】 語(yǔ)音合成是語(yǔ)音信號(hào)處理的一個(gè)重要分支,經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展,語(yǔ)音合成的方法日漸增多。其中,基音同步疊加算法(Pitch Synchronous OverLap-and-Add)自從被提出來(lái)后就在語(yǔ)音合成領(lǐng)域有了比較廣泛的應(yīng)用。與簡(jiǎn)單的波形拼接不一樣,這種算法可以進(jìn)行韻律的調(diào)節(jié),比如基頻、時(shí)長(zhǎng)等。這樣合成的語(yǔ)音在自然度上有所提高。目前,基音同步疊加算法使用的語(yǔ)音庫(kù)都是一些自然語(yǔ)音。在語(yǔ)音合成中可以讓合成的結(jié)果保留原發(fā)音的一些特征,使合成的語(yǔ)音不再生硬,帶有個(gè)人音質(zhì)特征。不過(guò),這種語(yǔ)音庫(kù)包含了大量的自然語(yǔ)音,語(yǔ)音庫(kù)的容量很大。同時(shí),語(yǔ)音合成中基音周期估算的準(zhǔn)確性非常重要,影響著合成的效果。傳統(tǒng)的估算方法主要是自相關(guān)函數(shù)法、平均幅度差函數(shù)法等,它們?cè)诨舻呐袛嗌蠒?huì)出現(xiàn)一定的誤判。本文針對(duì)語(yǔ)音庫(kù)容量的這個(gè)問(wèn)題,提出了聲母韻母合成,這樣就減少了庫(kù)容量。在基音周期估算方面,則把自相關(guān)函數(shù)法與平均幅度差函數(shù)法結(jié)合起來(lái),使基音周期的估算結(jié)果更加明顯,減少判斷上的失誤。文中還對(duì)一段語(yǔ)音進(jìn)行了韻律方面的調(diào)節(jié),實(shí)現(xiàn)了基頻、時(shí)長(zhǎng)調(diào)節(jié),體現(xiàn)了基音同步疊加算法的韻律處理能力。本文的實(shí)驗(yàn)結(jié)果表明,聲母韻母合成的效果不錯(cuò),人們能夠清楚的聽(tīng)出合成的音節(jié)。在基音周期估算方面,從波形可以看出兩個(gè)算法結(jié)合后,波峰的表現(xiàn)更加明顯,誤判減少。在一段語(yǔ)音的處理中,從實(shí)驗(yàn)結(jié)果可以看出,該算法在韻律調(diào)節(jié)方面已經(jīng)比較熟練,能取得較好的效果。
第一章緒論
1.1漢語(yǔ)語(yǔ)音合成處理
人們通過(guò)語(yǔ)言來(lái)交流溝通,語(yǔ)言的表現(xiàn)形式即是語(yǔ)音⑴,語(yǔ)音使人類信息的交流變得有效直接順暢。同時(shí),語(yǔ)音也是人們感情交流的主要方式。伴隨著科學(xué)技術(shù)的日益發(fā)展以及各種智能設(shè)備的廣泛使用,人工智能、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)字信號(hào)處理等不同學(xué)科被融合一體,形成了語(yǔ)音信號(hào)處理這門技術(shù),而語(yǔ)音識(shí)別和語(yǔ)音合成便是這門學(xué)科中人們重點(diǎn)研究的領(lǐng)域。通過(guò)人工技術(shù)合成人類的語(yǔ)音被稱作語(yǔ)音合成[3],實(shí)現(xiàn)語(yǔ)音合成的方式可以是硬件,也可以是軟件。語(yǔ)音合成的最終目的是讓計(jì)算機(jī)或者智能設(shè)備能夠發(fā)出語(yǔ)音,此語(yǔ)音須具備清晰、自然、能理解等特點(diǎn)。作為涉獵語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、聲學(xué)等多個(gè)學(xué)科的領(lǐng)先技術(shù),語(yǔ)音合成技術(shù)己經(jīng)擁有兩百多年的研究歷史[4],不過(guò)真正具有實(shí)際意義的語(yǔ)音合成技術(shù)是從近代才發(fā)展起來(lái)的,主要是伴隨著數(shù)字信號(hào)處理和計(jì)算機(jī)科學(xué)技術(shù)的腳步而前進(jìn)的。語(yǔ)音合成技術(shù)的迅猛發(fā)展得益于現(xiàn)代信息產(chǎn)業(yè)的快速發(fā)展,它逐步適應(yīng)高科技社會(huì)現(xiàn)代人們對(duì)智能設(shè)備的需求[5]。自1930年一個(gè)用鍵盤操作的聲音編碼器在貝爾實(shí)驗(yàn)室誕生到1968年第一個(gè)完整的TTS[6_7]語(yǔ)音合成系統(tǒng)的形成,語(yǔ)音合成技術(shù)在技術(shù)和方法經(jīng)歷了各種各樣的改進(jìn)。在語(yǔ)音合成技術(shù)的發(fā)展進(jìn)程中[8],早期的研究普遍是采用參數(shù)合成方法。隨著計(jì)算機(jī)技術(shù)的發(fā)展,后來(lái)又出現(xiàn)了波形拼接的合成方法。我國(guó)的漢語(yǔ)語(yǔ)音合成技術(shù)起步比較晚,經(jīng)過(guò)不懈努力,我國(guó)在八十年代初期取得了和國(guó)際語(yǔ)音研究同步發(fā)展的成績(jī),主要經(jīng)歷了參數(shù)合成、規(guī)則合成和波形拼接合成三個(gè)階段[9]。其中最普遍被研究應(yīng)用的是共振峰合成、線性規(guī)則合成和基音同步疊加技術(shù)[15-17]。
…………
1.2論文章節(jié)安排
本文的總體結(jié)構(gòu)安排如下所示:
第一章介紹課題研究歷史背景。
第二章對(duì)語(yǔ)音信號(hào)的基礎(chǔ)知識(shí)進(jìn)行了介紹,主要是對(duì)語(yǔ)音的發(fā)聲原理、語(yǔ)音的韻律聲調(diào)以及語(yǔ)音合成的方法進(jìn)行了討論。通過(guò)對(duì)語(yǔ)音的基礎(chǔ)知識(shí)講解,讓人能夠更加清晰了解語(yǔ)音合成。
第三章主要介紹了基音同步疊加算法的原理。在原理的介紹過(guò)程中,我們看到基音周期計(jì)算的準(zhǔn)確性影響著整個(gè)合成過(guò)程,為下一章基因周期的計(jì)算做了鋪塾。
第四章分為三個(gè)部分,即聲母韻母合成、基音周期的估算及語(yǔ)音段的韻律處理研究。針對(duì)語(yǔ)音庫(kù)容量大的情況,本文提出了聲韻合成。該算法在基音同步疊加的算法上有所改進(jìn),主要是針對(duì)獨(dú)音的處理。傳統(tǒng)的基音周期估算方法得到的結(jié)果并不是很明顯,容易出現(xiàn)誤判。因此,本文把兩種常用的算法結(jié)合起來(lái),是估算的結(jié)果更加清晰明了,減少誤判的幾率。而在對(duì)語(yǔ)音段的韻律處理方面,運(yùn)用了短時(shí)平均能量法來(lái)區(qū)分清獨(dú)音,并分別對(duì)語(yǔ)音的基頻、時(shí)長(zhǎng)進(jìn)行了調(diào)節(jié)。第五章回顧和總結(jié)本文主要內(nèi)容,并對(duì)論文中存在的不足作進(jìn)一步展望。
………..
第二章語(yǔ)音學(xué)基礎(chǔ)概要
2.1漢語(yǔ)的發(fā)音機(jī)理
從人們發(fā)出聲音的生理情況來(lái)看,身體的各個(gè)發(fā)音器官互相作用導(dǎo)致聲音的產(chǎn)生。而這一發(fā)聲機(jī)理主要包括三個(gè)系統(tǒng):聲門下系統(tǒng)、喉系統(tǒng)及聲門上系統(tǒng)。呼吸系統(tǒng)指的就是聲門下系統(tǒng),它作為人們語(yǔ)音發(fā)聲的動(dòng)力部門,為前期的發(fā)音提供動(dòng)力,由橫隔膜、肺和氣管等構(gòu)成;喉系統(tǒng)是聲源的產(chǎn)生部門,主要是由喉頭聲帶和聲門等構(gòu)成;聲上門系統(tǒng)又被稱作調(diào)音器官,它是由咽腔、口腔和鼻腔等構(gòu)成,經(jīng)由喉部的氣流通過(guò)調(diào)音器官的作用便形成了音素。人們發(fā)出語(yǔ)音的過(guò)程:在發(fā)音的初期,經(jīng)過(guò)肺部的作用把氣流呼出,同時(shí)借助橫膈膜和胸部的力量把氣流從氣管傳輸?shù)胶聿,通過(guò)聲門和聲道致使人的聲帶發(fā)生振動(dòng),從而產(chǎn)生聲音。由于在發(fā)音的過(guò)程中,聲道會(huì)產(chǎn)生收縮或者擴(kuò)張等不同的形狀改變,所以人們會(huì)發(fā)出不同的聲音。因此,同樣的一句話不同的人說(shuō)出來(lái)聲音是不同的,這個(gè)就是因?yàn)椴煌娜税l(fā)聲的生理器官不同的原因。根據(jù)激勵(lì)方式的不同,語(yǔ)音又被人們分為三個(gè)類別:池音、清音和爆破音。當(dāng)聲門中有氣流經(jīng)過(guò)時(shí),在張力的作用下,聲帶出現(xiàn)了張馳式的振動(dòng)。于是,空氣產(chǎn)生的脈沖就具有了準(zhǔn)周期性。當(dāng)聲道得到這個(gè)空氣脈沖的沖擊就得到了池音。而假如在氣流往外竄的過(guò)程中,在聲道的某個(gè)地方發(fā)生收縮,導(dǎo)致空氣以特別快的速度沖過(guò)收縮處,這樣就產(chǎn)生了清音。爆破音就是當(dāng)聲道處于完全閉合狀態(tài),閉合后堆積的氣壓突然釋放形成的。這三種聲音的產(chǎn)生都與發(fā)聲的生理機(jī)能有一定的聯(lián)系,,因?yàn)槁暤篮吐曢T控制著人的發(fā)聲狀態(tài),加上人與人之間聲道聲門的差別,所以人們發(fā)出的聲音在很多方面都有不同之處。
………
2. 2漢語(yǔ)語(yǔ)音的基礎(chǔ)組成單元
漢語(yǔ)語(yǔ)音有很多的方言,但是普通話是一種把北京語(yǔ)音作為標(biāo)準(zhǔn)的語(yǔ)言。漢語(yǔ)在發(fā)音上有種獨(dú)特的魅力,有一字多音一字多義等現(xiàn)象。因此,同一字不同發(fā)音可以構(gòu)建無(wú)數(shù)個(gè)詞匯,而這些詞匯整合又能形成表達(dá)不同意思的句子。漢語(yǔ)中可以表達(dá)意思的基礎(chǔ)單位是音節(jié),單音節(jié)就是一個(gè)字。輔音與元音合成一個(gè)字,元音是一個(gè)字的主角,而輔音則是不可缺少的配角。其實(shí),元音都是獨(dú)音,輔音則是其他的音。因?yàn)闈h語(yǔ)語(yǔ)音的最基礎(chǔ)單元是音節(jié),音素是語(yǔ)音流的最小單元。因此,漢語(yǔ)的一大特征是音系簡(jiǎn)單。由于漢語(yǔ)的兒化音與輕重音比較明顯,因此詞語(yǔ)分開(kāi)的很清晰,人們很容易感覺(jué)到表達(dá)的意境。漢語(yǔ)還有比較多的同音字,卻沒(méi)有明顯的音聯(lián)這方面的情況。漢語(yǔ)是如此博大精深,短語(yǔ)、詞語(yǔ)、句子等單元構(gòu)成的因素是有很多小的部分,下面將介紹這些因素。從韻律學(xué)的角度來(lái)看,人們?cè)谡f(shuō)話或者交談時(shí)所發(fā)出的聲音就是音素;而從音質(zhì)的角度來(lái)看,音素是被語(yǔ)音劃分出來(lái)的最小的線性單元。組成一個(gè)音節(jié)或者語(yǔ)音段落的最小基元就是音素。其實(shí),音素是一種物理現(xiàn)象,它是真實(shí)存在的。在國(guó)際語(yǔ)言學(xué)的研究中,人類語(yǔ)言的音素和國(guó)際音標(biāo)也存在相對(duì)應(yīng)的關(guān)系。
………..
第三章基于基音同步疊加算法簡(jiǎn)介
3.1基音同步疊加算法的背景........ (18)
3. 2時(shí)域基音同步疊加算法的工作原理........(20)
3. 2.1基音同步分析與標(biāo)記........ (20)
3. 2. 2基音同步修改 ........(21)
3. 2. 3基音同步疊加........ (21)
第四章基于基音同步幀的合成
4.1聲韻合成 ........(23)
4.1.1聲韻合成的基礎(chǔ)單元........ (23)
4.1.2聲韻合成........ (24)
4. 2基首周期估計(jì)和標(biāo)記 ........(26)
4. 3基音同步疊加法對(duì)一段語(yǔ)音的處理........ (34)
4. 3.1清濁音的區(qū)分........ (35)
4. 3. 2基頻調(diào)整........ (37)
4. 3. 3時(shí)長(zhǎng)調(diào)整 ........(38)
4. 4本章總結(jié)........ (41)
第五章總結(jié)與展望
第四章基于基音同步幀的合成
4. 1聲韻合成
語(yǔ)音合成的基本單元絕大多數(shù)是音節(jié)、詞匯等等,這樣語(yǔ)音庫(kù)就比較大。而在語(yǔ)音合成中,語(yǔ)音基本單元是首要需要解決的問(wèn)題;倪x擇至關(guān)重要,大的基元音質(zhì)比較好,但是拼接有一定的難度,且音庫(kù)比較大;小的基元音庫(kù)小,拼接靈活,卻在韻律調(diào)節(jié)方面比較繁雜。本文將進(jìn)行聲母韻母的合成[5G],實(shí)驗(yàn)結(jié)果顯示不僅可以把語(yǔ)音庫(kù)控制在較小的范圍,而且合成音節(jié)的音質(zhì)也不錯(cuò)。漢語(yǔ)拼音中有22個(gè)聲母,由于聲母的發(fā)音時(shí)長(zhǎng)比較短,所以在語(yǔ)音發(fā)聲中很難被察覺(jué)。但是聲母又不能單獨(dú)的發(fā)聲,它的發(fā)聲和韻母有一定的聯(lián)系,同一個(gè)聲母和不同韻母合成,聲母中總是伴有韻母影響。因此,一個(gè)聲母與不同韻母合成時(shí),由于發(fā)音不同,合成語(yǔ)音在時(shí)域的過(guò)渡段波形是不一樣的,可見(jiàn)在發(fā)音中聲母與韻母是不可分割的。
………..
結(jié)論
基音同步疊加是語(yǔ)音合成領(lǐng)域比較有創(chuàng)造性的算法。通過(guò)多年的發(fā)展壯大,取得了一定的理論和應(yīng)用成果,F(xiàn)已經(jīng)發(fā)展為語(yǔ)音信號(hào)處理方面的一個(gè)大熱點(diǎn)。理論上,人們從不同的角度出發(fā)已經(jīng)對(duì)基音同步疊加算法有了比較深入的研究,也提出了其他的方式與該算法結(jié)合的實(shí)現(xiàn)算法。同時(shí),伴隨著現(xiàn)代科技的發(fā)展,語(yǔ)音合成在實(shí)際的應(yīng)用中也有了比較明顯的成績(jī)。基音同步疊加算法作為新秀在語(yǔ)音合成的發(fā)展中的成果也是有目共睹的。本文旨在對(duì)基音同步疊加算法和應(yīng)用做基礎(chǔ)性的研究。首先,介紹語(yǔ)音學(xué)的基礎(chǔ)知識(shí),讓我們對(duì)語(yǔ)言學(xué)有個(gè)基本的了解。然后,對(duì)傳統(tǒng)的基音同步疊加算法的原理進(jìn)行了分析,讓我們看到這種方法存在著基音計(jì)算不準(zhǔn)確的缺點(diǎn)。基于語(yǔ)音庫(kù)大小的問(wèn)題,本文通過(guò)實(shí)驗(yàn)對(duì)聲母韻母進(jìn)行了合成,實(shí)驗(yàn)結(jié)果很不錯(cuò)。針對(duì)基音周期計(jì)算精確性不高,我們提出了新的基音周期計(jì)算方法,這種方法有效的提高了語(yǔ)音合成的結(jié)果。同時(shí)在韻律調(diào)節(jié)方面,我們進(jìn)行時(shí)長(zhǎng)和基頻的調(diào)節(jié),讓一段語(yǔ)音更有節(jié)奏感。理論分析和計(jì)算機(jī)仿真實(shí)驗(yàn)驗(yàn)證了基音周期計(jì)算的準(zhǔn)確性、聲韻合成的自然度以及語(yǔ)音韻律調(diào)節(jié)的有效性。
…………
參考文獻(xiàn)(略)
本文編號(hào):19364
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/19364.html