真實(shí)感三維人臉唇形動(dòng)畫系統(tǒng)的語音驅(qū)動(dòng)
本文關(guān)鍵詞:真實(shí)感三維人臉唇形動(dòng)畫系統(tǒng)的語音驅(qū)動(dòng)
更多相關(guān)文章: 唇形動(dòng)畫 語音驅(qū)動(dòng) 語音特征參數(shù) Mel頻率倒譜系數(shù) 隱馬爾科夫模型 MPEG-4
【摘要】:人臉動(dòng)畫是一種通過計(jì)算機(jī)合成人臉表情運(yùn)動(dòng)的人機(jī)交互方式,是虛擬現(xiàn)實(shí)領(lǐng)域相當(dāng)活躍的研究方向,目前,在虛擬主持人、可視電話、輔助教學(xué)、醫(yī)療研究、游戲娛樂、電影和動(dòng)漫制作等諸多領(lǐng)域均有廣泛的應(yīng)用。 語音驅(qū)動(dòng)的三維人臉唇形動(dòng)畫技術(shù)屬于人機(jī)多模態(tài)交互領(lǐng)域,簡單來說,,就是利用音頻文件來驅(qū)動(dòng)人臉的唇部,生成與語音同步的口型動(dòng)作。該技術(shù)豐富了人機(jī)接口的內(nèi)容,提高了人機(jī)交互的效率,降低了音視頻資源實(shí)時(shí)共享時(shí)對網(wǎng)絡(luò)帶寬的要求,因此,得到了國內(nèi)外研究人員的廣泛重視。 本文在深入研究了唇形動(dòng)畫技術(shù)、語音驅(qū)動(dòng)動(dòng)畫技術(shù)以及語音的分析與處理等關(guān)鍵技術(shù)以后,設(shè)計(jì)并實(shí)現(xiàn)了基于MPEG-4標(biāo)準(zhǔn)的以語音文件為驅(qū)動(dòng)源的真實(shí)感三維人臉唇形動(dòng)畫系統(tǒng)。該系統(tǒng)操作簡單,通用性強(qiáng),運(yùn)行效率高,滿足實(shí)時(shí)語音驅(qū)動(dòng)唇形動(dòng)畫的需求。本文的主要工作包括: 一、建立通用的人臉網(wǎng)格模型。本文采用建模軟件進(jìn)行建模的方式,利用Direct3D紋理映射技術(shù)將人臉圖片映射到網(wǎng)格模型上,得到逼真的人臉模型。由于通用的三維人臉網(wǎng)格模型的拓?fù)浣Y(jié)構(gòu)相同,因此,對于任意的主體對象都可以使用設(shè)計(jì)好的通用的人臉網(wǎng)格模型驅(qū)動(dòng)方法。 二、設(shè)置唇部特征點(diǎn)。首先,分析了英文發(fā)音時(shí)元音與輔音的相互影響程度,歸納出典型的唇部動(dòng)作。為了更準(zhǔn)確的控制和驅(qū)動(dòng)唇部進(jìn)行動(dòng)作,并且與MPEG-4標(biāo)準(zhǔn)兼容,定義了10個(gè)外唇特征點(diǎn)和8個(gè)內(nèi)唇特征點(diǎn)。然后構(gòu)建了唇部動(dòng)畫定義表來存儲每個(gè)唇部FAP控制的唇部特征點(diǎn)信息。要想控制唇部模型進(jìn)行動(dòng)作,需要在得到了唇部FAP的值后,在唇部動(dòng)畫定義表中查找FAP的影響區(qū)域,并利用MPEG-4中提供的算法,計(jì)算出由該FAP控制的所有網(wǎng)格點(diǎn)的新的三維坐標(biāo)信息。計(jì)算一組FAP中每一個(gè)FAP影響的網(wǎng)格點(diǎn)位移并進(jìn)行疊加,最終得到一個(gè)形象的唇形。 三、提取語音特征參數(shù)。對輸入的語音文件進(jìn)行數(shù)字化、預(yù)加重、分幀加窗和端點(diǎn)檢測的處理,其中,端點(diǎn)檢測采用基于短時(shí)平均能量和短時(shí)平均過零率雙門限的方法。然后,提取出語音特征參數(shù)MFCC,利用雙層隱馬爾科夫模型建立語音特征參數(shù)與唇部動(dòng)畫參數(shù)的映射模型。第一層映射模型中將當(dāng)前語音幀以及它的前一幀和后一幀作為模型的觀察值序列。對同一唇形類別中的語音觀察值進(jìn)行唇形類內(nèi)再聚類,得到第二層映射模型,使得可視語音合成的真實(shí)感提高很多。因此,只要提取出實(shí)時(shí)語音的MFCC后就能利用映射模型得到唇部FAP的信息,從而驅(qū)動(dòng)嘴唇運(yùn)動(dòng)。該方法可以有效地實(shí)現(xiàn)真人發(fā)聲與唇形動(dòng)畫之間的同步,增強(qiáng)了動(dòng)畫的真實(shí)感。 四、分析了語音驅(qū)動(dòng)的真實(shí)感三維人臉唇形動(dòng)畫系統(tǒng)的功能需求和工作流程,采用微軟的Direct3D SDK和VC++6.0開發(fā)工具,編程實(shí)現(xiàn)了能夠接受實(shí)時(shí)的語音輸入并在人臉模型上輸出與之同步的真實(shí)感唇形動(dòng)畫的系統(tǒng)。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.41
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 畢永新;韓慧健;周世文;;基于加權(quán)算法的漢語語音同步三維口型動(dòng)畫研究[J];圖學(xué)學(xué)報(bào);2012年02期
2 周東生;張強(qiáng);魏小鵬;;人臉動(dòng)畫中語音可視化算法研究進(jìn)展[J];計(jì)算機(jī)工程與應(yīng)用;2007年09期
3 陳新;周東生;張強(qiáng);魏小鵬;;語音驅(qū)動(dòng)人臉動(dòng)畫中語音參數(shù)的提取技術(shù)[J];計(jì)算機(jī)工程;2007年06期
4 梅麗,鮑虎軍,彭群生;特定人臉的快速定制和肌肉驅(qū)動(dòng)的表情動(dòng)畫[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2001年12期
5 曾洪鑫;胡東波;胡志剛;;文本與朗讀語音共同驅(qū)動(dòng)的漢語語音與口型匹配方案[J];計(jì)算機(jī)與現(xiàn)代化;2013年10期
6 陳益強(qiáng),高文,王兆其,姜大龍;基于機(jī)器學(xué)習(xí)的語音驅(qū)動(dòng)人臉動(dòng)畫方法[J];軟件學(xué)報(bào);2003年02期
7 魏毅;夏時(shí)洪;王兆其;;基于物理的人體空中運(yùn)動(dòng)仿真[J];軟件學(xué)報(bào);2008年12期
8 姜大龍,王兆其,高文;基于MPEG-4的三維人臉動(dòng)畫實(shí)現(xiàn)方法[J];系統(tǒng)仿真學(xué)報(bào);2001年S2期
9 關(guān)東東;關(guān)華勇;傅穎;;一種3維動(dòng)畫中間幀非線性插值算法[J];中國圖象圖形學(xué)報(bào);2006年12期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李皓;語音驅(qū)動(dòng)的人臉建模與動(dòng)畫技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
本文編號:1275236
本文鏈接:http://sikaile.net/wenyilunwen/dongmansheji/1275236.html