基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究

發(fā)布時(shí)間：2020-10-31 15:43

　　如何防止假冒者的闖入,是聲紋識別研究中的重要課題之一。語音合成、語音轉(zhuǎn)換和錄音回放是闖入聲紋系統(tǒng)的若干手段。隨著語音合成和語音轉(zhuǎn)換技術(shù)的發(fā)展,利用現(xiàn)有的合成技術(shù)可以偽造出具有目標(biāo)說話人聲音特性的語音。另一方面,隨著高質(zhì)量錄音和播放設(shè)備的日益增多,回放錄音的質(zhì)量越來越高,具有較強(qiáng)的攻擊性。為了提高聲紋識別系統(tǒng)的安全性,近年來聲紋欺騙檢測引起了人們的關(guān)注。目前,關(guān)于聲紋欺騙檢測的研究存在兩個(gè)局限:一方面,大部分研究人員專注于特征研究,并使用高斯混合模型和前饋全連接網(wǎng)絡(luò)(Deep neural networks,DNN)作為分類器,缺乏對于不同的基于深度神經(jīng)網(wǎng)絡(luò)的分類器的比較。另一方面,部分研究人員使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器,存在計(jì)算量較大的問題。針對上述問題,本文對深度神經(jīng)網(wǎng)絡(luò)在聲紋欺騙檢測中的應(yīng)用展開研究,相關(guān)工作總結(jié)如下:1.研究基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)和注意力機(jī)制(ATTENTION)的聲紋欺騙檢測方法。在ASVspoof2015數(shù)據(jù)集上,TDNN-ATTENTION模型的等錯(cuò)誤率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017數(shù)據(jù)集上,相應(yīng)降低了11%。2.研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測方法。本文研究了長短時(shí)記憶單元(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)兩種記憶單元。在ASVspoof2017數(shù)據(jù)集上,LSTM模型取得10.05%的EER;GRU模型的EER為9.60%,取得本文最好的實(shí)驗(yàn)結(jié)果,與DNN相比EER降低了20%。3.研究了基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward Sequential Memory Networks,FSMN)的聲紋欺騙檢測方法。FSMN與TDNN和RNN相比具有明顯的速度提升。在ASVspoof2017數(shù)據(jù)集上,簡化后的FSMN模型的EER為9.95%,與DNN相比EER降低了17%。在模型大小和等錯(cuò)誤率近似相等的情況下,FSMN的計(jì)算耗時(shí)比LSTM減少了91%。
【學(xué)位單位】：華南理工大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2019
【中圖分類】：TP183;TN912.3
【部分圖文】：

聲紋欺騙檢測研究歷史

示意圖,語音合成系統(tǒng),示意圖,頻譜包絡(luò)

華南理工大學(xué)碩士學(xué)位論文般是對語音信號進(jìn)行短時(shí)傅里葉變換（ShortTimeFourierTransformation，STFT）得度譜，再去除時(shí)間和頻率上的周期性，進(jìn)而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進(jìn)行降維，得到常見的梅爾倒譜（Mel Cepstrum）或者線（LineSpectralPairs，LSP）特征。合成時(shí)，聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜，再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學(xué)模型是語音合成的核心模塊。聲學(xué)建模是利用統(tǒng)計(jì)學(xué)習(xí)的方法，在給定文本時(shí)，對語音的聲學(xué)參數(shù)的條件分布進(jìn)行建模，即對條件概率 ( )進(jìn)行建模，其中聲學(xué)特征，表示文本特征。

示意圖,語音轉(zhuǎn)換,示意圖

語音轉(zhuǎn)換是一種語音—語音的生成方法，是在保留語音語義的情況下，改變源說話人（Source Speaker）的語音個(gè)性特征信息，使轉(zhuǎn)換生成的語音具有目標(biāo)說話人（TargetSpeaker）的個(gè)性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示，其過程分為訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實(shí)現(xiàn)，所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法，利用聲碼器提取聲學(xué)特征再進(jìn)行分析。訓(xùn)練階段主要是提取并對齊源和目標(biāo)語音的聲學(xué)特征，尋找兩者之間的對齊關(guān)系，通過訓(xùn)練得到源說話人與目標(biāo)說話人聲學(xué)特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學(xué)特征，經(jīng)過映射函數(shù)輸出目標(biāo)語音聲學(xué)特征，再利用語音合成的方法獲取目標(biāo)語音�？偟脕碚f，語音轉(zhuǎn)換和語音合成一樣，具有同樣的局限性，即訓(xùn)練的過程中需要先提取低維的頻譜包絡(luò)特征，再進(jìn)行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中，頻譜的一些結(jié)構(gòu)信息會丟失，因此與真實(shí)語音的頻譜存在一定的差異性。在實(shí)際應(yīng)用中，由于語音轉(zhuǎn)換的音頻自然度較低，因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文前1條

1 胡亞軍;基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年

相關(guān)碩士學(xué)位論文前4條

1 蔣君妍;面向高維數(shù)據(jù)的聚類算法改進(jìn)研究[D];南京郵電大學(xué);2018年

2 王治權(quán);基于注意力機(jī)制和改進(jìn)型RNN的Web文本情感分析研究[D];蘭州大學(xué);2018年

3 崔立梅;基于改進(jìn)的GMM和頻率彎折的高質(zhì)量語音轉(zhuǎn)換算法的研究[D];南京郵電大學(xué);2017年

4 雷文康;基于深度神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究[D];華南理工大學(xué);2017年

本文編號：2864149

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2864149.html

上一篇：基于情境感知的智能家居節(jié)能系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：一種基于AD9371的SDR硬件平臺

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究