基于語音識(shí)別的動(dòng)畫人物唇同步系統(tǒng)
本文選題:隱馬爾可夫模型 + 語音識(shí)別。 參考:《浙江大學(xué)》2008年碩士論文
【摘要】: 隨著國內(nèi)市場(chǎng)對(duì)動(dòng)漫產(chǎn)品需求的不斷增長,以及國家對(duì)動(dòng)漫產(chǎn)業(yè)的大力扶持,我國的動(dòng)漫產(chǎn)業(yè)進(jìn)入了一個(gè)高速成長期。唇同步是動(dòng)畫制作中不可或缺的一個(gè)環(huán)節(jié),但是傳統(tǒng)的唇同步方法完全由人工來實(shí)現(xiàn),非常繁瑣,效率很低。并且唇同步的質(zhì)量得不到保證,完全依賴于制作人員的經(jīng)驗(yàn)。所以,我們需要一種技術(shù)來幫助動(dòng)畫制作人員擺脫這一繁瑣的工作,同時(shí)提高唇同步的質(zhì)量。 本文應(yīng)用基于隱馬爾可夫模型的語音識(shí)別技術(shù)來解決動(dòng)畫的唇同步問題。通過對(duì)語音識(shí)別技術(shù)的研究,以及對(duì)唇同步問題的分析,我們找到了用語音識(shí)別技術(shù)解決動(dòng)畫人物唇同步問題的切入點(diǎn):用語音識(shí)別技術(shù)來獲取語音中每個(gè)字的時(shí)間信息。 基于這個(gè)想法,我們?cè)O(shè)計(jì)了兩種解決動(dòng)畫人物唇同步問題的方法。第一種方法通過直接應(yīng)用識(shí)別算法來獲取每個(gè)字的時(shí)間信息。第二種方法根據(jù)語音文本構(gòu)建一個(gè)組合模型,然后在組合模型上應(yīng)用Viterbi算法,在計(jì)算過程中獲取每個(gè)字的時(shí)間信息。這兩種方法都可以有效地解決動(dòng)畫的唇同步問題,但是和第一種方法相比,第二種方法有效地減少了計(jì)算量并且不存在識(shí)別錯(cuò)誤的問題,因而在計(jì)算效率和唇同步的效果上都要優(yōu)于第一種方法。 最后,本文基于第二種方法實(shí)現(xiàn)了一個(gè)唇同步系統(tǒng),并探討了實(shí)現(xiàn)中的關(guān)鍵問題:如何根據(jù)系統(tǒng)特點(diǎn)確定模型結(jié)構(gòu),如何選擇合適的識(shí)別單元,如何根據(jù)系統(tǒng)特點(diǎn)修改一般化的算法使其在我們的系統(tǒng)中正常的工作,如何對(duì)語音信號(hào)進(jìn)行參數(shù)化。
[Abstract]:With the increasing demand of animation products in the domestic market and the strong support of the country to animation industry , China ' s animation industry has entered a high - speed long - term . The lip synchronization is an indispensable link in animation production , but the quality of lip synchronization is not guaranteed . It depends entirely on the experience of the producers . Therefore , we need a technique to help animation producers get rid of this complicated job while improving the quality of lip synchronization .
In this paper , the speech recognition technology based on hidden Markov model is applied to solve the lip synchronization problem of animation . Through the research of speech recognition technology and the analysis of lip synchronization problem , we find out the entry point for solving the problem of lip synchronization by using speech recognition technology : the speech recognition technology is used to acquire the time information of each word in the speech .
Based on this idea , we design two methods to solve the lip synchronization problem of cartoon characters . The first method obtains the time information for each word by applying the recognition algorithm directly . The second method can effectively solve the lip synchronization problem of the animation by applying the Viterbi algorithm on the combined model . However , the second method effectively reduces the calculation amount and does not have the problem of identifying errors . Therefore , the second method is superior to the first method in calculating efficiency and labial synchronization .
Finally , based on the second method , a lip synchronization system is realized and the key problem in the realization is discussed : how to determine the model structure according to the characteristics of the system , how to select the proper identification unit , how to modify the generalized algorithm according to the characteristics of the system makes it work normally in our system , and how to parameterization the speech signal .
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2008
【分類號(hào)】:TP391.42
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 羅云貴;張友純;;嵌入式語音門禁系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];安防科技;2010年02期
2 張道信,周愛毓;語音信號(hào)實(shí)時(shí)降噪軟件的設(shè)計(jì)[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年04期
3 孔令志;羅森林;張冰;王耀威;;純音樂與語音-音樂混合片段的高準(zhǔn)確識(shí)別方法[J];北京理工大學(xué)學(xué)報(bào);2009年01期
4 呂偉軍;何為;;一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的語音降噪方法[J];北京工商大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
5 高偉;;基于說話人識(shí)別的門禁系統(tǒng)的設(shè)計(jì)[J];才智;2012年12期
6 張麗麗;杜鵑;賈亮;;改進(jìn)的支持向量機(jī)SMO算法說話人識(shí)別系統(tǒng)研究[J];長春理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期
7 張常年;夏日升;姜巖峰;;一種基于低比特率語音算法的芯片設(shè)計(jì)與分析[J];電訊技術(shù);2007年05期
8 蔣永生;張雄偉;閔剛;劉光云;陳功;;基于改進(jìn)的MFCC戰(zhàn)場(chǎng)被動(dòng)聲目標(biāo)識(shí)別[J];彈箭與制導(dǎo)學(xué)報(bào);2008年06期
9 白順先;馬瑞士;;語音端點(diǎn)檢測(cè)中判決機(jī)制的研究[J];大連民族學(xué)院學(xué)報(bào);2010年03期
10 李薇;胡智奇;尚秋峰;戚銀城;;語音質(zhì)量客觀評(píng)價(jià)方法的研究[J];電力系統(tǒng)通信;2009年04期
相關(guān)會(huì)議論文 前10條
1 閔剛;蔣永生;楊吉斌;張雄偉;;分段聲碼器中的語音分段算法研究[A];第十三屆全國信號(hào)處理學(xué)術(shù)年會(huì)(CCSP-2007)論文集[C];2007年
2 張騫;徐俊佳;;基于SPCE061A的聲控車庫門的設(shè)計(jì)[A];河南省土木建筑學(xué)會(huì)2010年學(xué)術(shù)大會(huì)論文集[C];2010年
3 王浩;宋巍;岳振軍;;語音信號(hào)的傅立葉-貝賽爾展開及其特性初探[A];全國第一屆嵌入式技術(shù)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2006年
4 閆佩君;陳亮;;基于小波高頻分形維數(shù)的語音隱藏方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 王建波;林本浩;田春明;劉睿;;語音增強(qiáng)及其相關(guān)技術(shù)研究[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
6 王建波;蔣新斌;林本浩;田春明;陳倡;;回波抵消中的自適應(yīng)算法研究[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
7 張宇;龐福文;;海上VHF通信中語音壓縮編碼的研究[A];中國航海學(xué)會(huì)通信導(dǎo)航專業(yè)委員會(huì)2006年學(xué)術(shù)年會(huì)論文集[C];2006年
8 王建波;林本浩;蔣新斌;劉睿;崔俊海;;語音通信中的回波抵消技術(shù)研究[A];中國通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
9 劉靜萍;德熙嘉措;;安多藏語輔音識(shí)別的設(shè)計(jì)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
10 于洪志;李永宏;索南楞次;仁青多杰;李毛吉;;安多藏語單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫研究探討[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 劉紀(jì)平;多重演化神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的應(yīng)用[D];武漢大學(xué);2011年
2 劉柏森;基于HHT復(fù)雜環(huán)境下低信噪比語音檢測(cè)及增強(qiáng)方法研究[D];哈爾濱工程大學(xué);2011年
3 韓志艷;語音信號(hào)魯棒特征提取及可視化技術(shù)研究[D];東北大學(xué);2009年
4 丁琦;數(shù)字音頻篡改檢測(cè)與隱寫分析技術(shù)研究[D];解放軍信息工程大學(xué);2011年
5 鄭建明;基于HMM的多特征融合鉆頭磨損監(jiān)測(cè)技術(shù)的研究[D];西安理工大學(xué);2004年
6 李波;語音轉(zhuǎn)換的關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2005年
7 馬躍洲;基于電弧聲信號(hào)的CO_2焊質(zhì)量監(jiān)控方法研究[D];蘭州理工大學(xué);2005年
8 田立斌;語音通信質(zhì)量客觀評(píng)價(jià)、有效接收及錯(cuò)誤恢復(fù)算法研究[D];華南理工大學(xué);2004年
9 馬曉紅;傳聲器陣列語音增強(qiáng)中關(guān)鍵技術(shù)的研究[D];大連理工大學(xué);2006年
10 雷建軍;噪聲魯棒語音識(shí)別中若干問題的研究[D];北京郵電大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 樓侃;基于DSP的語音信號(hào)環(huán)境噪聲降噪處理技術(shù)的研究[D];長春理工大學(xué);2010年
2 靳志強(qiáng);報(bào)告廳環(huán)境下語音增強(qiáng)方法研究[D];鄭州大學(xué);2010年
3 曹唯偉;基于拼音編碼的水下語音通信發(fā)射端的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2010年
4 徐雯;VDR音頻數(shù)據(jù)數(shù)字水印算法研究[D];哈爾濱工程大學(xué);2010年
5 王文姝;基于模糊理論的關(guān)鍵詞識(shí)別算法研究[D];哈爾濱工程大學(xué);2010年
6 劉維巍;語音信號(hào)基音周期檢測(cè)算法研究[D];哈爾濱工程大學(xué);2010年
7 陳晶;基于詞片網(wǎng)格的語音文檔主題分類[D];哈爾濱工程大學(xué);2010年
8 楊文強(qiáng);基于AMBE-2000的OFDM水聲語音通信平臺(tái)研究[D];哈爾濱工程大學(xué);2010年
9 陳偉偉;基于鼾聲檢測(cè)的睡眠呼吸暫停低通氣綜合癥診斷[D];大連理工大學(xué);2010年
10 劉伯權(quán);欠定卷積混合語音信號(hào)盲分離研究[D];湘潭大學(xué);2010年
,本文編號(hào):1752764
本文鏈接:http://sikaile.net/wenyilunwen/dongmansheji/1752764.html