發(fā)音的3D可視化研究
第一章緒論
本研究的目的是構(gòu)建一個(gè)可以產(chǎn)生同步語(yǔ)音動(dòng)畫的發(fā)音可視化三維虛擬發(fā)音人系統(tǒng)。所謂發(fā)音可視化即指可將發(fā)音過程中更多發(fā)音器官的運(yùn)動(dòng)展示在聽者面前。這種可視化發(fā)音人系統(tǒng)不僅能產(chǎn)生發(fā)音過程中同步的面部表觀變化,而且可以將發(fā)音過程中口腔內(nèi)發(fā)聲器官的運(yùn)動(dòng)同步展現(xiàn)出來(lái),三維發(fā)音可視化合成在很多方面有著重要的應(yīng)用價(jià)值。例如,由于在人機(jī)交互與影視娛樂領(lǐng)域里,口腔內(nèi)部發(fā)音器官在說話時(shí)的運(yùn)動(dòng)通常不可見,且用于合成其運(yùn)動(dòng)的數(shù)量難以通過攝像頭的拍攝采集到,因此虛擬人的口腔內(nèi)部發(fā)音器官運(yùn)動(dòng)合成在許多可視娛樂中被忽略,或是以似是而非的發(fā)音器官形狀及運(yùn)動(dòng)代替?但是忽略口腔內(nèi)發(fā)音器官的運(yùn)動(dòng)模擬會(huì)大大降低虛擬人的真實(shí)度。在聲學(xué)與語(yǔ)音學(xué)研究領(lǐng)域,完整且遇真的發(fā)音器官模型及運(yùn)動(dòng)將有助于語(yǔ)音學(xué)研究者了解聲道中每個(gè)發(fā)音器官如何產(chǎn)生與聲音同步的形變和運(yùn)動(dòng)?在聽覺輔助與發(fā)音教學(xué)領(lǐng)域,視覺信息可以提高后天患上聽覺障礙的人對(duì)語(yǔ)音的判斷和識(shí)別的能力。因此可視化發(fā)音模擬能夠?yàn)樗麄兲峁┻M(jìn)行語(yǔ)音識(shí)別訓(xùn)練的視覺輔助。用于發(fā)聲教學(xué)的可視化發(fā)音系統(tǒng)同時(shí)也可為第二語(yǔ)言學(xué)習(xí)者提供了語(yǔ)言學(xué)習(xí)輔助。
......
第二章發(fā)音可視化研究綜述
2.1發(fā)音器官與發(fā)音可視化
在X光掃描中,組織結(jié)構(gòu)間的密度和厚度的差異造成了成像過程中被吸收的X射線不同,同時(shí)造成了X光射線存在量的差異。如骨頭或是其他密度大的組織會(huì)吸收大SX光射線,因此這些結(jié)構(gòu)在圖像中呈白色;而X光射線會(huì)輕松穿過密度較小的軟組織,因此在圖像中這些組織區(qū)域呈深色或黑色。由于一些組織在X光中的成像效果不好,所根據(jù)觀察的區(qū)域特征的需要,可以有選擇的讓實(shí)驗(yàn)者在對(duì)應(yīng)部位涂上領(lǐng)液。X光掃描的最大缺點(diǎn)在于長(zhǎng)時(shí)間暴露于X光射線下會(huì)對(duì)被測(cè)者的健忘造成傷害,這個(gè)缺點(diǎn)造成X光實(shí)驗(yàn)在使用非常謹(jǐn)慎,一非檢査病情概要,大多數(shù)實(shí)驗(yàn)中不建議使用X光作為數(shù)據(jù)采集手段。較之X光掃描,超聲波技術(shù)更為安全。超聲波采策實(shí)驗(yàn)時(shí),需在對(duì)應(yīng)皮膚表面涂上超聲耦合劑,通過超聲波探頭產(chǎn)生超聲波進(jìn)入人體內(nèi),由傳感器檢測(cè)追蹤來(lái)自于不同區(qū)域返回的超聲波中進(jìn)行成像。由于超聲波實(shí)驗(yàn)不會(huì)像X光掃描一樣對(duì)人體有害的輻射,因此對(duì)于實(shí)驗(yàn)者而言較為安全?同時(shí)超聲波成像技術(shù)可以用于實(shí)時(shí)采集發(fā)音器官的運(yùn)動(dòng)過程?其塊點(diǎn)在于超聲波成A會(huì)受到骨質(zhì)部分,例如在采集舌頭運(yùn)動(dòng)時(shí),超聲波探頭下并產(chǎn)生超聲波進(jìn)入口腔,此時(shí)舌尖運(yùn)動(dòng)由于受到下額骨的阻擋而無(wú)法在圖像中顯示出來(lái),,從而超聲波實(shí)驗(yàn)數(shù)據(jù)通常會(huì)減少舌尖部分的運(yùn)動(dòng)信息?
2.2發(fā)音器官建模與運(yùn)動(dòng)模擬
語(yǔ)音的產(chǎn)生是發(fā)音器官運(yùn)動(dòng)的結(jié)果,發(fā)音器官的運(yùn)動(dòng)可以改變聲帶音經(jīng)過的五個(gè)共振腔(喉腔、咽腔、日腔、唇腔和?腔)的形狀和大小,從而最終影響發(fā)音。實(shí)際上發(fā)音器官的運(yùn)動(dòng)是由許多復(fù)雜的肌肉控制實(shí)現(xiàn)的。通過對(duì)相應(yīng)肌肉施加一定的力使之拉伸或收縮。對(duì)于微小的肌肉形變而言.通常肌肉運(yùn)動(dòng)發(fā)生的長(zhǎng)度變化與力呈線性關(guān)系。然而對(duì)于整個(gè)發(fā)音器官的運(yùn)動(dòng)而言,其與肌肉運(yùn)動(dòng)之間是一種復(fù)雜的非線性映射關(guān)系,除此之外發(fā)音系統(tǒng)的模擬會(huì)涉及大量的狀態(tài)變量,如何確定這些狀態(tài)變量及定義并實(shí)現(xiàn)發(fā)音器官的運(yùn)動(dòng)是發(fā)音器官運(yùn)動(dòng)模擬所關(guān)注的。前為止研究人員所使用的方法主要為:通過統(tǒng)計(jì)分析對(duì)發(fā)音數(shù)據(jù)進(jìn)行分析獲得與一些基本動(dòng)作相關(guān)的變里,這些基本動(dòng)作相關(guān)變量通常被稱為自由度。整個(gè)系統(tǒng)最終的運(yùn)動(dòng)實(shí)際上是由這些自由度控制得到,具體來(lái)說每個(gè)自由度控制了相應(yīng)的基本動(dòng)作,這些基本動(dòng)作的線性組合近似實(shí)現(xiàn)了整個(gè)發(fā)音器官的相應(yīng)運(yùn)動(dòng)。發(fā)音器官的具體建模及運(yùn)動(dòng)模擬方法可以分為以下三種:基于參數(shù)模型的運(yùn)動(dòng)模擬方法、基于統(tǒng)計(jì)模型的運(yùn)動(dòng)模擬方法以及基于生理模型的運(yùn)動(dòng)模擬方法。
第三章口腔內(nèi)發(fā)音器官建模與運(yùn)動(dòng)模擬方法....33
3.1引言...333.2發(fā)音器官數(shù)據(jù)的獲取與處理...34
3.3舌頭的建模與運(yùn)動(dòng)模擬...37
第四章發(fā)音器官運(yùn)動(dòng)合成準(zhǔn)確性評(píng)估方法...53
4.1引言...53
4.2基于輪廓比較的發(fā)音器官運(yùn)動(dòng)準(zhǔn)確性評(píng)估...54
4.3實(shí)驗(yàn)數(shù)據(jù)采集與整理...57
第五章頭部的表觀建模與發(fā)音可視化...67
5.1引言...67
5.2三維頭部建模...69
5.3唇部建模與運(yùn)動(dòng)...70
第六章可視化發(fā)音系統(tǒng)設(shè)計(jì)與實(shí)驗(yàn)
6.1引言
同時(shí)視覺信息同樣對(duì)語(yǔ)音的表達(dá)起到重要作用。2007年,Liu等人通過研充視覺信息對(duì)于101位母語(yǔ)為英語(yǔ)的人進(jìn)行英語(yǔ)學(xué)習(xí)過程中所化的貢獻(xiàn)進(jìn)行觀察證明了通過在蘭維虛擬發(fā)音人發(fā)音過程中加入可見的發(fā)音器官運(yùn)動(dòng)對(duì)于發(fā)音人的語(yǔ)意表達(dá)有著積極作用。該實(shí)驗(yàn)分三種情況對(duì)發(fā)音教學(xué)效果進(jìn)行分析:只有音頻的情況,真人的視聽語(yǔ)音教學(xué)以及包括了可視的發(fā)音器官運(yùn)動(dòng)的虛擬發(fā)音人教學(xué)。最終結(jié)果表明,三種方法對(duì)于學(xué)生的語(yǔ)言學(xué)習(xí)都有促進(jìn)作用。然而,視聽語(yǔ)音教學(xué)和教學(xué)的效果明顯優(yōu)于只有音頻的發(fā)音教學(xué)。由此可以證明將發(fā)音運(yùn)動(dòng)信息加入到三維虛擬發(fā)音人中可以促進(jìn)該虛擬發(fā)音人的語(yǔ)音表達(dá)能為。6.2NDIwave設(shè)備與數(shù)據(jù)采集
除上述結(jié)果之外,圖6.9給出了三種發(fā)音過程中口腔內(nèi)的碰掛結(jié)果?為了更好的觀察碰掛,結(jié)果中將上額的右半部分忽略,并顯示出舌頭右半部分與被忽略的上預(yù)間的碰掛結(jié)果。其中被綠色點(diǎn)覆蓋的區(qū)域即為碰掛發(fā)生的區(qū)域。由于在EMA采集實(shí)驗(yàn)中采用相應(yīng)音節(jié)與元音/a/組成的發(fā)音片段作為語(yǔ)料進(jìn)行發(fā)音錄制,例如/bi-a-bi-bi-b/,/la-a-la-la-1/,/位-a-fa-位-C。因此在圖6.9的結(jié)果中會(huì)出現(xiàn)舌向后收縮伴隨/a/音的運(yùn)動(dòng),如圖6.9(a)的第三張。結(jié)果中綠色點(diǎn)的數(shù)量會(huì)隨著舌頭與上額或下額的接觸面積増加而増加。例如圖6.9(b)中第二、三兩圖的結(jié)果所示,為了準(zhǔn)確發(fā)出音,舌頭前部會(huì)貼住上額,此時(shí)綠點(diǎn)集中在舌頭的前半部分。而當(dāng)舌頭伴隨下額向下運(yùn)動(dòng)且自身后移時(shí),舌頭前部的碰掛消失并且在舌背靠后處出現(xiàn)碰撞,如圖6.9(C)中第三、四兩圖所示。....
第七章總結(jié)與展望
可視化發(fā)音合成研究作為可視化語(yǔ)音處理的一部分逐漸成為人機(jī)交互領(lǐng)域的研究熱點(diǎn)。其目的育在為有發(fā)音陣礙的人提供發(fā)音學(xué)習(xí)輔助,同時(shí)發(fā)音器官可視化模型可幫助醫(yī)療人員進(jìn)行可視化的發(fā)音障礙診斷和術(shù)后效果預(yù)測(cè)等。本文研究目的是建立一個(gè)可以產(chǎn)生準(zhǔn)確聲音以及同步動(dòng)畫的二維可視化虛擬發(fā)音人。本文主要工作及貢獻(xiàn)總結(jié)如下;在發(fā)音器官建模方面,本文根據(jù)發(fā)音器官是否可形變的特征采用了非可形變發(fā)音器官建模和可形變發(fā)音器官建模兩種方法。非可形變發(fā)音器官包括牙齒、下額、硬膀等,這些發(fā)音器官在發(fā)音過程中幾乎不產(chǎn)生局部形變。根據(jù)核磁共振數(shù)據(jù)分別構(gòu)建出這堅(jiān)非可形成發(fā)音器官的二維表面網(wǎng)格摸型。不同于非可形變發(fā)音器官建模方法,可形變發(fā)音器官的建模陳了通過研究共振數(shù)據(jù)構(gòu)建出表面網(wǎng)格形狀之外,還包括對(duì)該表面網(wǎng)格進(jìn)行四面體化以及網(wǎng)建模操作。該網(wǎng)膜型根據(jù)質(zhì)點(diǎn)、彈力及外為的特性及相互間的物理關(guān)系完成形狀變化。
...
參考文獻(xiàn)(略)
本文編號(hào):198711
本文鏈接:http://sikaile.net/wenshubaike/caipu/198711.html