語(yǔ)音唇動(dòng)關(guān)聯(lián)性分析方法研究及其在錄音回放檢測(cè)中的應(yīng)用

發(fā)布時(shí)間：2018-06-06 02:29

本文選題：音視頻信號(hào)處理 + 一致性分析�。� 參考：《華南理工大學(xué)》2016年博士論文

【摘要】：語(yǔ)音唇動(dòng)關(guān)聯(lián)性分析是利用發(fā)音過程中唇動(dòng)與語(yǔ)音之間的因果關(guān)系來判斷兩者的變化是否同步一致,在電影口型匹配,視頻中的說話人分割等多媒體處理領(lǐng)域有著廣泛的應(yīng)用�，F(xiàn)有錄音回放攻擊檢測(cè)手段主要是基于語(yǔ)音單一模態(tài),即使利用音視頻雙模態(tài)信息也只是通過融合兩者的認(rèn)證得分來提高系統(tǒng)的安全性,這樣處理雖起到一定的抗攻擊作用,卻忽視了語(yǔ)音變化和唇部運(yùn)動(dòng)間的強(qiáng)相關(guān)性這一重要的活體檢測(cè)信息。本文針對(duì)語(yǔ)音唇動(dòng)關(guān)聯(lián)性分析及其在錄音回放攻擊中的應(yīng)用展開研究,主要工作和貢獻(xiàn)如下:(1)開發(fā)了基于語(yǔ)音唇動(dòng)一致性分析的錄音回放檢測(cè)平臺(tái)SCUT-AV Playback Detection System,該平臺(tái)可進(jìn)行錄音回放攻擊檢測(cè),語(yǔ)音唇動(dòng)關(guān)聯(lián)性及時(shí)延分析等實(shí)驗(yàn)研究。探討了音視頻結(jié)合的回放檢測(cè)系統(tǒng)可能面對(duì)的各種攻擊,定義了四類語(yǔ)音唇動(dòng)不一致數(shù)據(jù)。為構(gòu)建四類不一致數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,對(duì)國(guó)內(nèi)外的雙模態(tài)數(shù)據(jù)庫(kù)進(jìn)行研究,選用VidTIMIT、CUAVE和中文通用庫(kù)作為主庫(kù),并針對(duì)VidTIMIT庫(kù)存在數(shù)據(jù)不全面的問題,自建了一個(gè)雙模態(tài)數(shù)據(jù)庫(kù)作為補(bǔ)充。同時(shí),為深入探討韻母語(yǔ)音唇動(dòng)關(guān)聯(lián)度的需要,從中文通用庫(kù)中切取不同韻母的音視頻數(shù)據(jù)建立了一個(gè)韻母單元數(shù)據(jù)庫(kù)。(2)傳統(tǒng)語(yǔ)音唇動(dòng)分析模型忽略了發(fā)音過程中語(yǔ)音與唇形變化在時(shí)域上的動(dòng)態(tài)聯(lián)系,本文基于時(shí)空聯(lián)合分析思想,提出基于時(shí)空相關(guān)度融合的語(yǔ)音唇動(dòng)一致性檢測(cè)算法。先通過唇寬、唇高與語(yǔ)音幅度變化之間的聯(lián)系獲得語(yǔ)音唇動(dòng)的時(shí)域相關(guān)度;再由協(xié)慣量分析(CoIA)求得語(yǔ)音與唇部像素空間特征的相關(guān)度。并探討語(yǔ)音唇動(dòng)一致和不一致數(shù)據(jù)在時(shí)延上的差異,針對(duì)典型相關(guān)分析和二次互信息兩種算法(MI)時(shí)延估算結(jié)果易受樣本數(shù)量和參數(shù)影響等不足,提出基于Co IA的時(shí)延估算方法,其估算準(zhǔn)確率達(dá)95.4%,較前兩者分別提高了9.7%和4.9%。利用此算法對(duì)音唇一致和不一致的數(shù)據(jù)進(jìn)行時(shí)延估計(jì),統(tǒng)計(jì)出一致數(shù)據(jù)的合理時(shí)延分布范圍,并結(jié)合兩者在相關(guān)度上的差異提出一種獎(jiǎng)懲機(jī)制對(duì)相關(guān)度得分進(jìn)行修訂,最后通過置信度對(duì)時(shí)空域上的得分進(jìn)行融合來度量一致性。實(shí)驗(yàn)表明,對(duì)于四類不一致數(shù)據(jù),與單獨(dú)基于XY空間唇部特征的分析模型相比,時(shí)空融合方法的等錯(cuò)誤率(EER)平均下降了約8.2%,而且采用新的得分修訂方法后對(duì)四類不一致數(shù)據(jù)的EER也較采用前平均下降了5.4%。(3)目前,統(tǒng)計(jì)類與相關(guān)法類等分析方法忽略了唇動(dòng)幀間時(shí)變信息,且難以反映出包含發(fā)音規(guī)律的時(shí)空結(jié)構(gòu)性信息,本文利用音視頻聯(lián)合原子作為描述不同音節(jié)發(fā)音時(shí)音頻與唇形同步變化關(guān)系的模板,提出基于音視頻移不變(SI)學(xué)習(xí)字典的語(yǔ)音唇動(dòng)一致性判決方法。分別通過時(shí)域、時(shí)空域SI稀疏表示模型描述共同時(shí)軸上的語(yǔ)音和唇動(dòng)信號(hào),由聯(lián)合字典學(xué)習(xí)算法訓(xùn)練音視頻字典,并對(duì)算法稀疏編碼部分的平移集合矩陣維度過大的問題采用新的映射方式進(jìn)行改進(jìn),然后依據(jù)學(xué)習(xí)所得字典提出新的語(yǔ)音唇動(dòng)一致性判決準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,與統(tǒng)計(jì)類方法中的CoIA以及MI法,相關(guān)法中的雙模態(tài)線性預(yù)測(cè)法和歸一化相關(guān)系數(shù)結(jié)合SVM的方法相比,對(duì)于小詞匯量語(yǔ)料,本文方法總體EER分別下降了9.1%,17.6%,13.9%和10.5%;對(duì)于大詞匯量語(yǔ)料,總體EER也分別下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均對(duì)整句話進(jìn)行分析,并無對(duì)唇形變化顯著或語(yǔ)音唇動(dòng)關(guān)聯(lián)性較強(qiáng)的信息加以區(qū)分,存在運(yùn)算量大,分析結(jié)果易受靜音及弱關(guān)聯(lián)片段影響等不足,借鑒假唱鑒別中只以顯著嘴型段為參考的思想,以唇型變化較明顯的韻母為代表性發(fā)音事件,提出基于韻母發(fā)音事件音視頻匹配及位置時(shí)延分析的一致性分析方法。先對(duì)字典學(xué)習(xí)數(shù)據(jù)進(jìn)行韻母段篩選,并提出一種音視頻結(jié)合的韻母切分方法,其切分準(zhǔn)確率達(dá)93.5%;利用(3)中方法獲得韻母字典并進(jìn)行韻母事件匹配分析,同時(shí)加入對(duì)事件發(fā)生位置的時(shí)延分布分析,再由GMM模型融合這兩種分析的得分進(jìn)行判決。實(shí)驗(yàn)表明,該方法訓(xùn)練和分析的運(yùn)算量較(3)下降了35%,總體EER較(2)和(3)下降了2.1%和4.6%。接著對(duì)韻母單元進(jìn)行深入分析,采用動(dòng)態(tài)口型序列特征通過凝聚層次聚類對(duì)韻母進(jìn)行歸類,并利用相關(guān)度分析選出關(guān)聯(lián)度較強(qiáng)的類別共19個(gè)韻母作為“特定發(fā)音單元”,提出基于特定韻母發(fā)音單元的一致性檢測(cè)方法。實(shí)驗(yàn)表明,采用特定韻母單元代替整句進(jìn)行一致性分析是可行和有效的,其中對(duì)一至三類不一致數(shù)據(jù)的EER更分別降低了1.2%,0.9%和0.5%,運(yùn)算量也顯著減少。而且融合韻母位置時(shí)延分布得分后,對(duì)三、四類不一致數(shù)據(jù)的EER較融合前降低了4.9%和10.6%,總體EER降低了4.8%。
[Abstract]:In this paper , based on the analysis of the correlation between the lip width , the height of the lip and the change of the speech amplitude , this paper proposes a new method for detecting the speech lip dynamic consistency based on the combination of two modes of speech and video . ( 3 ) At present , the statistical method and correlation method have ignored the time - varying information of lip motion , and it is difficult to reflect the temporal and temporal structural information including the pronunciation rule . The method is based on the combination of phonetic and video combined atom as a template to describe the relationship between audio and lip synchronization in different syllable pronunciation . The consistency detection method based on the specific vowel phonetic unit is proposed . The experiment shows that it is feasible and effective to use the specific vowel unit instead of the whole sentence to carry out the consistency analysis .
【學(xué)位授予單位】：華南理工大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.41;TN912.3

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 謝貴武;楊繼紅;肖勇;閔剛;;基于語(yǔ)音分段的自適應(yīng)時(shí)長(zhǎng)調(diào)整算法[J];軍事通信技術(shù);2008年02期

2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期

3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語(yǔ)音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期

4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語(yǔ)音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期

5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說話者的語(yǔ)音分割算法[J];軟件學(xué)報(bào);2002年02期

6 章文義,朱杰;幾種無語(yǔ)音檢測(cè)噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期

7 林鑫;陳樺;王開志;王繼成;;語(yǔ)音驅(qū)動(dòng)唇形自動(dòng)合成算法[J];計(jì)算機(jī)工程;2007年17期

8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語(yǔ)音活動(dòng)檢測(cè)[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期

9 章釗;郭武;;話者識(shí)別中結(jié)合模型和能量的語(yǔ)音激活檢測(cè)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期

10 朱淑琴,裘雪紅;一種精確檢測(cè)語(yǔ)音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期

相關(guān)會(huì)議論文前9條

1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語(yǔ)音拒識(shí)[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年

2 徐明;胡瑞敏;黃云森;;基于音素識(shí)別的語(yǔ)音評(píng)價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年

3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語(yǔ)音串識(shí)別系統(tǒng)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議（NCMMSC7）論文集[C];2003年

4 那斯?fàn)柦ね聽栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別研究——語(yǔ)音語(yǔ)料庫(kù)的建立[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

5 簡(jiǎn)志華;王向文;;考慮幀間信息的語(yǔ)音轉(zhuǎn)換算法[A];浙江省信號(hào)處理學(xué)會(huì)2012學(xué)術(shù)年會(huì)論文集[C];2012年

6 魏維;馬海燕;;一種丟失語(yǔ)音信包重建的新算法[A];通信理論與信號(hào)處理新進(jìn)展——2005年通信理論與信號(hào)處理年會(huì)論文集[C];2005年

7 陳凡;羅四維;;一個(gè)實(shí)用語(yǔ)音開發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年

8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語(yǔ)音和端點(diǎn)檢測(cè)[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年

9 林愛華;張文俊;王毅敏;;基于肌肉模型的語(yǔ)音驅(qū)動(dòng)唇形動(dòng)畫[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)重要報(bào)紙文章前5條

1 atvoc;數(shù)碼語(yǔ)音電路產(chǎn)品概述[N];電子資訊時(shí)報(bào);2008年

2 記者李山;德用雙音素改進(jìn)人工語(yǔ)音表達(dá)[N];科技日?qǐng)?bào);2012年

3 中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室于劍邋陶建華;個(gè)性化語(yǔ)音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年

4 江西林慧勇;語(yǔ)音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年

5 ;與“小超人”對(duì)話[N];中國(guó)計(jì)算機(jī)報(bào);2001年

相關(guān)博士學(xué)位論文前10條

1 高偉勛;智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年

2 陳麗萍;說話人確認(rèn)中語(yǔ)音段差異建模相關(guān)問題的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

3 朱錚宇;語(yǔ)音唇動(dòng)關(guān)聯(lián)性分析方法研究及其在錄音回放檢測(cè)中的應(yīng)用[D];華南理工大學(xué);2016年

4 陶冶;文本語(yǔ)音匹配的研究和應(yīng)用[D];山東大學(xué);2009年

5 何俊;聲紋身份識(shí)別中非常態(tài)語(yǔ)音應(yīng)對(duì)方法研究[D];華南理工大學(xué);2012年

6 李冬冬;基于拓展和聚類的情感魯棒說話人識(shí)別研究[D];浙江大學(xué);2008年

7 雙志偉;個(gè)性化語(yǔ)音生成研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

8 古今;語(yǔ)音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年

9 彭波;Internet上語(yǔ)音的魯棒性傳輸研究[D];華南理工大學(xué);2001年

10 黃湘松;基于混淆網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年

相關(guān)碩士學(xué)位論文前10條

1 王明明;基于GMM和碼本映射相結(jié)合的語(yǔ)音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年

2 印雪晨;宋詞朗讀呼吸信號(hào)和韻律時(shí)長(zhǎng)研究[D];西北民族大學(xué);2015年

3 邱一良;噪聲環(huán)境下的語(yǔ)音檢測(cè)方法研究[D];電子科技大學(xué);2015年

4 朱俊梅;基于性別預(yù)分類的年齡自動(dòng)估計(jì)研究[D];江蘇師范大學(xué);2014年

5 張占松;基于DSP的語(yǔ)音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年

6 李鵬;基于系統(tǒng)融合的語(yǔ)音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年

7 趙蓉蓉;基于計(jì)算聽覺場(chǎng)景分析的單通道語(yǔ)音盲分離技術(shù)[D];太原理工大學(xué);2016年

8 崔瑞蓮;語(yǔ)種識(shí)別中的語(yǔ)音段表示方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

9 劉學(xué);基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

10 王振文;漢藏雙語(yǔ)跨語(yǔ)言語(yǔ)音轉(zhuǎn)換方法的研究[D];西北師范大學(xué);2015年

，

本文編號(hào)：1984627

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/1984627.html

上一篇：具有輸入約束的不確定非線性系統(tǒng)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制
下一篇：基于FBG加速度傳感器的內(nèi)燃機(jī)典型故障識(shí)別系統(tǒng)與方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

語(yǔ)音唇動(dòng)關(guān)聯(lián)性分析方法研究及其在錄音回放檢測(cè)中的應(yīng)用