發(fā)音的3D可視化研究
第一章緒論
本研究的目的是構(gòu)建一個可以產(chǎn)生同步語音動畫的發(fā)音可視化三維虛擬發(fā)音人系統(tǒng)。所謂發(fā)音可視化即指可將發(fā)音過程中更多發(fā)音器官的運動展示在聽者面前。這種可視化發(fā)音人系統(tǒng)不僅能產(chǎn)生發(fā)音過程中同步的面部表觀變化,而且可以將發(fā)音過程中口腔內(nèi)發(fā)聲器官的運動同步展現(xiàn)出來,三維發(fā)音可視化合成在很多方面有著重要的應(yīng)用價值。例如,由于在人機交互與影視娛樂領(lǐng)域里,口腔內(nèi)部發(fā)音器官在說話時的運動通常不可見,且用于合成其運動的數(shù)量難以通過攝像頭的拍攝采集到,因此虛擬人的口腔內(nèi)部發(fā)音器官運動合成在許多可視娛樂中被忽略,或是以似是而非的發(fā)音器官形狀及運動代替?但是忽略口腔內(nèi)發(fā)音器官的運動模擬會大大降低虛擬人的真實度。在聲學(xué)與語音學(xué)研究領(lǐng)域,完整且遇真的發(fā)音器官模型及運動將有助于語音學(xué)研究者了解聲道中每個發(fā)音器官如何產(chǎn)生與聲音同步的形變和運動?在聽覺輔助與發(fā)音教學(xué)領(lǐng)域,視覺信息可以提高后天患上聽覺障礙的人對語音的判斷和識別的能力。因此可視化發(fā)音模擬能夠為他們提供進行語音識別訓(xùn)練的視覺輔助。用于發(fā)聲教學(xué)的可視化發(fā)音系統(tǒng)同時也可為第二語言學(xué)習(xí)者提供了語言學(xué)習(xí)輔助。
......
第二章發(fā)音可視化研究綜述
2.1發(fā)音器官與發(fā)音可視化
在X光掃描中,組織結(jié)構(gòu)間的密度和厚度的差異造成了成像過程中被吸收的X射線不同,同時造成了X光射線存在量的差異。如骨頭或是其他密度大的組織會吸收大SX光射線,因此這些結(jié)構(gòu)在圖像中呈白色;而X光射線會輕松穿過密度較小的軟組織,因此在圖像中這些組織區(qū)域呈深色或黑色。由于一些組織在X光中的成像效果不好,所根據(jù)觀察的區(qū)域特征的需要,可以有選擇的讓實驗者在對應(yīng)部位涂上領(lǐng)液。X光掃描的最大缺點在于長時間暴露于X光射線下會對被測者的健忘造成傷害,這個缺點造成X光實驗在使用非常謹(jǐn)慎,一非檢査病情概要,大多數(shù)實驗中不建議使用X光作為數(shù)據(jù)采集手段。較之X光掃描,超聲波技術(shù)更為安全。超聲波采策實驗時,需在對應(yīng)皮膚表面涂上超聲耦合劑,通過超聲波探頭產(chǎn)生超聲波進入人體內(nèi),由傳感器檢測追蹤來自于不同區(qū)域返回的超聲波中進行成像。由于超聲波實驗不會像X光掃描一樣對人體有害的輻射,因此對于實驗者而言較為安全?同時超聲波成像技術(shù)可以用于實時采集發(fā)音器官的運動過程?其塊點在于超聲波成A會受到骨質(zhì)部分,例如在采集舌頭運動時,超聲波探頭下并產(chǎn)生超聲波進入口腔,此時舌尖運動由于受到下額骨的阻擋而無法在圖像中顯示出來,,從而超聲波實驗數(shù)據(jù)通常會減少舌尖部分的運動信息?
2.2發(fā)音器官建模與運動模擬
語音的產(chǎn)生是發(fā)音器官運動的結(jié)果,發(fā)音器官的運動可以改變聲帶音經(jīng)過的五個共振腔(喉腔、咽腔、日腔、唇腔和?腔)的形狀和大小,從而最終影響發(fā)音。實際上發(fā)音器官的運動是由許多復(fù)雜的肌肉控制實現(xiàn)的。通過對相應(yīng)肌肉施加一定的力使之拉伸或收縮。對于微小的肌肉形變而言.通常肌肉運動發(fā)生的長度變化與力呈線性關(guān)系。然而對于整個發(fā)音器官的運動而言,其與肌肉運動之間是一種復(fù)雜的非線性映射關(guān)系,除此之外發(fā)音系統(tǒng)的模擬會涉及大量的狀態(tài)變量,如何確定這些狀態(tài)變量及定義并實現(xiàn)發(fā)音器官的運動是發(fā)音器官運動模擬所關(guān)注的。前為止研究人員所使用的方法主要為:通過統(tǒng)計分析對發(fā)音數(shù)據(jù)進行分析獲得與一些基本動作相關(guān)的變里,這些基本動作相關(guān)變量通常被稱為自由度。整個系統(tǒng)最終的運動實際上是由這些自由度控制得到,具體來說每個自由度控制了相應(yīng)的基本動作,這些基本動作的線性組合近似實現(xiàn)了整個發(fā)音器官的相應(yīng)運動。發(fā)音器官的具體建模及運動模擬方法可以分為以下三種:基于參數(shù)模型的運動模擬方法、基于統(tǒng)計模型的運動模擬方法以及基于生理模型的運動模擬方法。
第三章口腔內(nèi)發(fā)音器官建模與運動模擬方法....33
3.1引言...333.2發(fā)音器官數(shù)據(jù)的獲取與處理...34
3.3舌頭的建模與運動模擬...37
第四章發(fā)音器官運動合成準(zhǔn)確性評估方法...53
4.1引言...53
4.2基于輪廓比較的發(fā)音器官運動準(zhǔn)確性評估...54
4.3實驗數(shù)據(jù)采集與整理...57
第五章頭部的表觀建模與發(fā)音可視化...67
5.1引言...67
5.2三維頭部建模...69
5.3唇部建模與運動...70
第六章可視化發(fā)音系統(tǒng)設(shè)計與實驗
6.1引言
同時視覺信息同樣對語音的表達(dá)起到重要作用。2007年,Liu等人通過研充視覺信息對于101位母語為英語的人進行英語學(xué)習(xí)過程中所化的貢獻進行觀察證明了通過在蘭維虛擬發(fā)音人發(fā)音過程中加入可見的發(fā)音器官運動對于發(fā)音人的語意表達(dá)有著積極作用。該實驗分三種情況對發(fā)音教學(xué)效果進行分析:只有音頻的情況,真人的視聽語音教學(xué)以及包括了可視的發(fā)音器官運動的虛擬發(fā)音人教學(xué)。最終結(jié)果表明,三種方法對于學(xué)生的語言學(xué)習(xí)都有促進作用。然而,視聽語音教學(xué)和教學(xué)的效果明顯優(yōu)于只有音頻的發(fā)音教學(xué)。由此可以證明將發(fā)音運動信息加入到三維虛擬發(fā)音人中可以促進該虛擬發(fā)音人的語音表達(dá)能為。6.2NDIwave設(shè)備與數(shù)據(jù)采集
除上述結(jié)果之外,圖6.9給出了三種發(fā)音過程中口腔內(nèi)的碰掛結(jié)果?為了更好的觀察碰掛,結(jié)果中將上額的右半部分忽略,并顯示出舌頭右半部分與被忽略的上預(yù)間的碰掛結(jié)果。其中被綠色點覆蓋的區(qū)域即為碰掛發(fā)生的區(qū)域。由于在EMA采集實驗中采用相應(yīng)音節(jié)與元音/a/組成的發(fā)音片段作為語料進行發(fā)音錄制,例如/bi-a-bi-bi-b/,/la-a-la-la-1/,/位-a-fa-位-C。因此在圖6.9的結(jié)果中會出現(xiàn)舌向后收縮伴隨/a/音的運動,如圖6.9(a)的第三張。結(jié)果中綠色點的數(shù)量會隨著舌頭與上額或下額的接觸面積増加而増加。例如圖6.9(b)中第二、三兩圖的結(jié)果所示,為了準(zhǔn)確發(fā)出音,舌頭前部會貼住上額,此時綠點集中在舌頭的前半部分。而當(dāng)舌頭伴隨下額向下運動且自身后移時,舌頭前部的碰掛消失并且在舌背靠后處出現(xiàn)碰撞,如圖6.9(C)中第三、四兩圖所示。....
第七章總結(jié)與展望
可視化發(fā)音合成研究作為可視化語音處理的一部分逐漸成為人機交互領(lǐng)域的研究熱點。其目的育在為有發(fā)音陣礙的人提供發(fā)音學(xué)習(xí)輔助,同時發(fā)音器官可視化模型可幫助醫(yī)療人員進行可視化的發(fā)音障礙診斷和術(shù)后效果預(yù)測等。本文研究目的是建立一個可以產(chǎn)生準(zhǔn)確聲音以及同步動畫的二維可視化虛擬發(fā)音人。本文主要工作及貢獻總結(jié)如下;在發(fā)音器官建模方面,本文根據(jù)發(fā)音器官是否可形變的特征采用了非可形變發(fā)音器官建模和可形變發(fā)音器官建模兩種方法。非可形變發(fā)音器官包括牙齒、下額、硬膀等,這些發(fā)音器官在發(fā)音過程中幾乎不產(chǎn)生局部形變。根據(jù)核磁共振數(shù)據(jù)分別構(gòu)建出這堅非可形成發(fā)音器官的二維表面網(wǎng)格摸型。不同于非可形變發(fā)音器官建模方法,可形變發(fā)音器官的建模陳了通過研究共振數(shù)據(jù)構(gòu)建出表面網(wǎng)格形狀之外,還包括對該表面網(wǎng)格進行四面體化以及網(wǎng)建模操作。該網(wǎng)膜型根據(jù)質(zhì)點、彈力及外為的特性及相互間的物理關(guān)系完成形狀變化。
...
參考文獻(略)
本文編號:198711
本文鏈接:http://sikaile.net/wenshubaike/caipu/198711.html