基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究
發(fā)布時間:2020-10-31 15:43
如何防止假冒者的闖入,是聲紋識別研究中的重要課題之一。語音合成、語音轉(zhuǎn)換和錄音回放是闖入聲紋系統(tǒng)的若干手段。隨著語音合成和語音轉(zhuǎn)換技術(shù)的發(fā)展,利用現(xiàn)有的合成技術(shù)可以偽造出具有目標(biāo)說話人聲音特性的語音。另一方面,隨著高質(zhì)量錄音和播放設(shè)備的日益增多,回放錄音的質(zhì)量越來越高,具有較強(qiáng)的攻擊性。為了提高聲紋識別系統(tǒng)的安全性,近年來聲紋欺騙檢測引起了人們的關(guān)注。目前,關(guān)于聲紋欺騙檢測的研究存在兩個局限:一方面,大部分研究人員專注于特征研究,并使用高斯混合模型和前饋全連接網(wǎng)絡(luò)(Deep neural networks,DNN)作為分類器,缺乏對于不同的基于深度神經(jīng)網(wǎng)絡(luò)的分類器的比較。另一方面,部分研究人員使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器,存在計算量較大的問題。針對上述問題,本文對深度神經(jīng)網(wǎng)絡(luò)在聲紋欺騙檢測中的應(yīng)用展開研究,相關(guān)工作總結(jié)如下:1.研究基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)和注意力機(jī)制(ATTENTION)的聲紋欺騙檢測方法。在ASVspoof2015數(shù)據(jù)集上,TDNN-ATTENTION模型的等錯誤率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017數(shù)據(jù)集上,相應(yīng)降低了11%。2.研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測方法。本文研究了長短時記憶單元(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)兩種記憶單元。在ASVspoof2017數(shù)據(jù)集上,LSTM模型取得10.05%的EER;GRU模型的EER為9.60%,取得本文最好的實驗結(jié)果,與DNN相比EER降低了20%。3.研究了基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward Sequential Memory Networks,FSMN)的聲紋欺騙檢測方法。FSMN與TDNN和RNN相比具有明顯的速度提升。在ASVspoof2017數(shù)據(jù)集上,簡化后的FSMN模型的EER為9.95%,與DNN相比EER降低了17%。在模型大小和等錯誤率近似相等的情況下,FSMN的計算耗時比LSTM減少了91%。
【學(xué)位單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP183;TN912.3
【部分圖文】:
聲紋欺騙檢測研究歷史
華南理工大學(xué)碩士學(xué)位論文般是對語音信號進(jìn)行短時傅里葉變換(ShortTimeFourierTransformation,STFT)得度譜,再去除時間和頻率上的周期性,進(jìn)而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進(jìn)行降維,得到常見的梅爾倒譜(Mel Cepstrum)或者線(LineSpectralPairs,LSP)特征。合成時,聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜,再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學(xué)模型是語音合成的核心模塊。聲學(xué)建模是利用統(tǒng)計學(xué)習(xí)的方法,在給定文本時,對語音的聲學(xué)參數(shù)的條件分布進(jìn)行建模,即對條件概率 ( )進(jìn)行建模,其中聲學(xué)特征, 表示文本特征。
語音轉(zhuǎn)換是一種語音—語音的生成方法,是在保留語音語義的情況下,改變源說話人(Source Speaker)的語音個性特征信息,使轉(zhuǎn)換生成的語音具有目標(biāo)說話人(TargetSpeaker)的個性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示,其過程分為訓(xùn)練和轉(zhuǎn)換兩個階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實現(xiàn),所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法,利用聲碼器提取聲學(xué)特征再進(jìn)行分析。訓(xùn)練階段主要是提取并對齊源和目標(biāo)語音的聲學(xué)特征,尋找兩者之間的對齊關(guān)系,通過訓(xùn)練得到源說話人與目標(biāo)說話人聲學(xué)特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學(xué)特征,經(jīng)過映射函數(shù)輸出目標(biāo)語音聲學(xué)特征,再利用語音合成的方法獲取目標(biāo)語音。總得來說,語音轉(zhuǎn)換和語音合成一樣,具有同樣的局限性,即訓(xùn)練的過程中需要先提取低維的頻譜包絡(luò)特征,再進(jìn)行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中,頻譜的一些結(jié)構(gòu)信息會丟失,因此與真實語音的頻譜存在一定的差異性。在實際應(yīng)用中,由于語音轉(zhuǎn)換的音頻自然度較低,因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻(xiàn)】
本文編號:2864149
【學(xué)位單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP183;TN912.3
【部分圖文】:
聲紋欺騙檢測研究歷史
華南理工大學(xué)碩士學(xué)位論文般是對語音信號進(jìn)行短時傅里葉變換(ShortTimeFourierTransformation,STFT)得度譜,再去除時間和頻率上的周期性,進(jìn)而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進(jìn)行降維,得到常見的梅爾倒譜(Mel Cepstrum)或者線(LineSpectralPairs,LSP)特征。合成時,聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜,再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學(xué)模型是語音合成的核心模塊。聲學(xué)建模是利用統(tǒng)計學(xué)習(xí)的方法,在給定文本時,對語音的聲學(xué)參數(shù)的條件分布進(jìn)行建模,即對條件概率 ( )進(jìn)行建模,其中聲學(xué)特征, 表示文本特征。
語音轉(zhuǎn)換是一種語音—語音的生成方法,是在保留語音語義的情況下,改變源說話人(Source Speaker)的語音個性特征信息,使轉(zhuǎn)換生成的語音具有目標(biāo)說話人(TargetSpeaker)的個性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示,其過程分為訓(xùn)練和轉(zhuǎn)換兩個階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實現(xiàn),所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法,利用聲碼器提取聲學(xué)特征再進(jìn)行分析。訓(xùn)練階段主要是提取并對齊源和目標(biāo)語音的聲學(xué)特征,尋找兩者之間的對齊關(guān)系,通過訓(xùn)練得到源說話人與目標(biāo)說話人聲學(xué)特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學(xué)特征,經(jīng)過映射函數(shù)輸出目標(biāo)語音聲學(xué)特征,再利用語音合成的方法獲取目標(biāo)語音。總得來說,語音轉(zhuǎn)換和語音合成一樣,具有同樣的局限性,即訓(xùn)練的過程中需要先提取低維的頻譜包絡(luò)特征,再進(jìn)行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中,頻譜的一些結(jié)構(gòu)信息會丟失,因此與真實語音的頻譜存在一定的差異性。在實際應(yīng)用中,由于語音轉(zhuǎn)換的音頻自然度較低,因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 胡亞軍;基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年
相關(guān)碩士學(xué)位論文 前4條
1 蔣君妍;面向高維數(shù)據(jù)的聚類算法改進(jìn)研究[D];南京郵電大學(xué);2018年
2 王治權(quán);基于注意力機(jī)制和改進(jìn)型RNN的Web文本情感分析研究[D];蘭州大學(xué);2018年
3 崔立梅;基于改進(jìn)的GMM和頻率彎折的高質(zhì)量語音轉(zhuǎn)換算法的研究[D];南京郵電大學(xué);2017年
4 雷文康;基于深度神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究[D];華南理工大學(xué);2017年
本文編號:2864149
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2864149.html
最近更新
教材專著