語音唇動關聯(lián)性分析方法研究及其在錄音回放檢測中的應用
本文選題:音視頻信號處理 + 一致性分析 ; 參考:《華南理工大學》2016年博士論文
【摘要】:語音唇動關聯(lián)性分析是利用發(fā)音過程中唇動與語音之間的因果關系來判斷兩者的變化是否同步一致,在電影口型匹配,視頻中的說話人分割等多媒體處理領域有著廣泛的應用,F(xiàn)有錄音回放攻擊檢測手段主要是基于語音單一模態(tài),即使利用音視頻雙模態(tài)信息也只是通過融合兩者的認證得分來提高系統(tǒng)的安全性,這樣處理雖起到一定的抗攻擊作用,卻忽視了語音變化和唇部運動間的強相關性這一重要的活體檢測信息。本文針對語音唇動關聯(lián)性分析及其在錄音回放攻擊中的應用展開研究,主要工作和貢獻如下:(1)開發(fā)了基于語音唇動一致性分析的錄音回放檢測平臺SCUT-AV Playback Detection System,該平臺可進行錄音回放攻擊檢測,語音唇動關聯(lián)性及時延分析等實驗研究。探討了音視頻結合的回放檢測系統(tǒng)可能面對的各種攻擊,定義了四類語音唇動不一致數(shù)據(jù)。為構建四類不一致數(shù)據(jù)進行實驗分析,對國內外的雙模態(tài)數(shù)據(jù)庫進行研究,選用VidTIMIT、CUAVE和中文通用庫作為主庫,并針對VidTIMIT庫存在數(shù)據(jù)不全面的問題,自建了一個雙模態(tài)數(shù)據(jù)庫作為補充。同時,為深入探討韻母語音唇動關聯(lián)度的需要,從中文通用庫中切取不同韻母的音視頻數(shù)據(jù)建立了一個韻母單元數(shù)據(jù)庫。(2)傳統(tǒng)語音唇動分析模型忽略了發(fā)音過程中語音與唇形變化在時域上的動態(tài)聯(lián)系,本文基于時空聯(lián)合分析思想,提出基于時空相關度融合的語音唇動一致性檢測算法。先通過唇寬、唇高與語音幅度變化之間的聯(lián)系獲得語音唇動的時域相關度;再由協(xié)慣量分析(CoIA)求得語音與唇部像素空間特征的相關度。并探討語音唇動一致和不一致數(shù)據(jù)在時延上的差異,針對典型相關分析和二次互信息兩種算法(MI)時延估算結果易受樣本數(shù)量和參數(shù)影響等不足,提出基于Co IA的時延估算方法,其估算準確率達95.4%,較前兩者分別提高了9.7%和4.9%。利用此算法對音唇一致和不一致的數(shù)據(jù)進行時延估計,統(tǒng)計出一致數(shù)據(jù)的合理時延分布范圍,并結合兩者在相關度上的差異提出一種獎懲機制對相關度得分進行修訂,最后通過置信度對時空域上的得分進行融合來度量一致性。實驗表明,對于四類不一致數(shù)據(jù),與單獨基于XY空間唇部特征的分析模型相比,時空融合方法的等錯誤率(EER)平均下降了約8.2%,而且采用新的得分修訂方法后對四類不一致數(shù)據(jù)的EER也較采用前平均下降了5.4%。(3)目前,統(tǒng)計類與相關法類等分析方法忽略了唇動幀間時變信息,且難以反映出包含發(fā)音規(guī)律的時空結構性信息,本文利用音視頻聯(lián)合原子作為描述不同音節(jié)發(fā)音時音頻與唇形同步變化關系的模板,提出基于音視頻移不變(SI)學習字典的語音唇動一致性判決方法。分別通過時域、時空域SI稀疏表示模型描述共同時軸上的語音和唇動信號,由聯(lián)合字典學習算法訓練音視頻字典,并對算法稀疏編碼部分的平移集合矩陣維度過大的問題采用新的映射方式進行改進,然后依據(jù)學習所得字典提出新的語音唇動一致性判決準則。實驗結果表明,與統(tǒng)計類方法中的CoIA以及MI法,相關法中的雙模態(tài)線性預測法和歸一化相關系數(shù)結合SVM的方法相比,對于小詞匯量語料,本文方法總體EER分別下降了9.1%,17.6%,13.9%和10.5%;對于大詞匯量語料,總體EER也分別下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均對整句話進行分析,并無對唇形變化顯著或語音唇動關聯(lián)性較強的信息加以區(qū)分,存在運算量大,分析結果易受靜音及弱關聯(lián)片段影響等不足,借鑒假唱鑒別中只以顯著嘴型段為參考的思想,以唇型變化較明顯的韻母為代表性發(fā)音事件,提出基于韻母發(fā)音事件音視頻匹配及位置時延分析的一致性分析方法。先對字典學習數(shù)據(jù)進行韻母段篩選,并提出一種音視頻結合的韻母切分方法,其切分準確率達93.5%;利用(3)中方法獲得韻母字典并進行韻母事件匹配分析,同時加入對事件發(fā)生位置的時延分布分析,再由GMM模型融合這兩種分析的得分進行判決。實驗表明,該方法訓練和分析的運算量較(3)下降了35%,總體EER較(2)和(3)下降了2.1%和4.6%。接著對韻母單元進行深入分析,采用動態(tài)口型序列特征通過凝聚層次聚類對韻母進行歸類,并利用相關度分析選出關聯(lián)度較強的類別共19個韻母作為“特定發(fā)音單元”,提出基于特定韻母發(fā)音單元的一致性檢測方法。實驗表明,采用特定韻母單元代替整句進行一致性分析是可行和有效的,其中對一至三類不一致數(shù)據(jù)的EER更分別降低了1.2%,0.9%和0.5%,運算量也顯著減少。而且融合韻母位置時延分布得分后,對三、四類不一致數(shù)據(jù)的EER較融合前降低了4.9%和10.6%,總體EER降低了4.8%。
[Abstract]:In this paper , based on the analysis of the correlation between the lip width , the height of the lip and the change of the speech amplitude , this paper proposes a new method for detecting the speech lip dynamic consistency based on the combination of two modes of speech and video . ( 3 ) At present , the statistical method and correlation method have ignored the time - varying information of lip motion , and it is difficult to reflect the temporal and temporal structural information including the pronunciation rule . The method is based on the combination of phonetic and video combined atom as a template to describe the relationship between audio and lip synchronization in different syllable pronunciation . The consistency detection method based on the specific vowel phonetic unit is proposed . The experiment shows that it is feasible and effective to use the specific vowel unit instead of the whole sentence to carry out the consistency analysis .
【學位授予單位】:華南理工大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.41;TN912.3
【相似文獻】
相關期刊論文 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語音分段的自適應時長調整算法[J];軍事通信技術;2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學習機設計[J];現(xiàn)代電子技術;2010年05期
3 溫洪昌;黃應強;傅貴興;;單片機的多段語音組合錄放系統(tǒng)設計[J];單片機與嵌入式系統(tǒng)應用;2011年10期
4 張劍;袁華強;;Rhetorical-State SVM在抽取式語音摘要中的應用[J];科學技術與工程;2013年21期
5 盧堅 ,毛兵 ,孫正興 ,張福炎;一種改進的基于說話者的語音分割算法[J];軟件學報;2002年02期
6 章文義,朱杰;幾種無語音檢測噪音估計方法的比較研究[J];計算機工程與設計;2003年10期
7 林鑫;陳樺;王開志;王繼成;;語音驅動唇形自動合成算法[J];計算機工程;2007年17期
8 蔡鐵;;基于在線單類支持向量機的自適應語音活動檢測[J];深圳信息職業(yè)技術學院學報;2008年02期
9 章釗;郭武;;話者識別中結合模型和能量的語音激活檢測算法[J];小型微型計算機系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測語音端點的方法[J];計算機仿真;2005年03期
相關會議論文 前9條
1 田野;王作英;陸大金;;基于韻律結構信息的非語音拒識[A];第六屆全國人機語音通訊學術會議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識別的語音評價方法[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第15屆中國多媒體學術會議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀慶;李海峰;王承發(fā);;面向嵌入式應用的小詞匯量語音串識別系統(tǒng)[A];第七屆全國人機語音通訊學術會議(NCMMSC7)論文集[C];2003年
4 那斯爾江·吐爾遜;吾守爾·斯拉木;麥麥提艾力;;維吾爾語大詞匯量連續(xù)語音識別研究——語音語料庫的建立[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
5 簡志華;王向文;;考慮幀間信息的語音轉換算法[A];浙江省信號處理學會2012學術年會論文集[C];2012年
6 魏維;馬海燕;;一種丟失語音信包重建的新算法[A];通信理論與信號處理新進展——2005年通信理論與信號處理年會論文集[C];2005年
7 陳凡;羅四維;;一個實用語音開發(fā)應用系統(tǒng)的設計與實現(xiàn)[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強方法的共振峰諧波能量參數(shù)的語音和端點檢測[A];第九屆全國人機語音通訊學術會議論文集[C];2007年
9 林愛華;張文俊;王毅敏;;基于肌肉模型的語音驅動唇形動畫[A];第十三屆全國圖象圖形學學術會議論文集[C];2006年
相關重要報紙文章 前5條
1 atvoc;數(shù)碼語音電路產品概述[N];電子資訊時報;2008年
2 記者 李山;德用雙音素改進人工語音表達[N];科技日報;2012年
3 中國科學院自動化研究所模式識別國家重點實驗室 于劍邋陶建華;個性化語音生成技術面面觀[N];計算機世界;2007年
4 江西 林慧勇;語音合成芯片MSM6295及其應用[N];電子報;2006年
5 ;與“小超人”對話[N];中國計算機報;2001年
相關博士學位論文 前10條
1 高偉勛;智能家居環(huán)境中個性化語音生成關鍵技術研究[D];東華大學;2015年
2 陳麗萍;說話人確認中語音段差異建模相關問題的研究[D];中國科學技術大學;2016年
3 朱錚宇;語音唇動關聯(lián)性分析方法研究及其在錄音回放檢測中的應用[D];華南理工大學;2016年
4 陶冶;文本語音匹配的研究和應用[D];山東大學;2009年
5 何俊;聲紋身份識別中非常態(tài)語音應對方法研究[D];華南理工大學;2012年
6 李冬冬;基于拓展和聚類的情感魯棒說話人識別研究[D];浙江大學;2008年
7 雙志偉;個性化語音生成研究[D];中國科學技術大學;2011年
8 古今;語音感知認證的關鍵技術研究[D];中國科學技術大學;2009年
9 彭波;Internet上語音的魯棒性傳輸研究[D];華南理工大學;2001年
10 黃湘松;基于混淆網絡的漢語語音檢索技術研究[D];哈爾濱工程大學;2010年
相關碩士學位論文 前10條
1 王明明;基于GMM和碼本映射相結合的語音轉換方法研究[D];西安建筑科技大學;2015年
2 印雪晨;宋詞朗讀呼吸信號和韻律時長研究[D];西北民族大學;2015年
3 邱一良;噪聲環(huán)境下的語音檢測方法研究[D];電子科技大學;2015年
4 朱俊梅;基于性別預分類的年齡自動估計研究[D];江蘇師范大學;2014年
5 張占松;基于DSP的語音干擾方法研究與實現(xiàn)[D];北京交通大學;2016年
6 李鵬;基于系統(tǒng)融合的語音查詢項檢索技術研究[D];解放軍信息工程大學;2015年
7 趙蓉蓉;基于計算聽覺場景分析的單通道語音盲分離技術[D];太原理工大學;2016年
8 崔瑞蓮;語種識別中的語音段表示方法研究[D];中國科學技術大學;2016年
9 劉學;基于語音樣例查詢的關鍵詞識別方法研究[D];中國科學技術大學;2016年
10 王振文;漢藏雙語跨語言語音轉換方法的研究[D];西北師范大學;2015年
,本文編號:1984627
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1984627.html