天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 信息工程論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究

發(fā)布時間:2020-10-31 15:43
   如何防止假冒者的闖入,是聲紋識別研究中的重要課題之一。語音合成、語音轉(zhuǎn)換和錄音回放是闖入聲紋系統(tǒng)的若干手段。隨著語音合成和語音轉(zhuǎn)換技術(shù)的發(fā)展,利用現(xiàn)有的合成技術(shù)可以偽造出具有目標(biāo)說話人聲音特性的語音。另一方面,隨著高質(zhì)量錄音和播放設(shè)備的日益增多,回放錄音的質(zhì)量越來越高,具有較強(qiáng)的攻擊性。為了提高聲紋識別系統(tǒng)的安全性,近年來聲紋欺騙檢測引起了人們的關(guān)注。目前,關(guān)于聲紋欺騙檢測的研究存在兩個局限:一方面,大部分研究人員專注于特征研究,并使用高斯混合模型和前饋全連接網(wǎng)絡(luò)(Deep neural networks,DNN)作為分類器,缺乏對于不同的基于深度神經(jīng)網(wǎng)絡(luò)的分類器的比較。另一方面,部分研究人員使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器,存在計算量較大的問題。針對上述問題,本文對深度神經(jīng)網(wǎng)絡(luò)在聲紋欺騙檢測中的應(yīng)用展開研究,相關(guān)工作總結(jié)如下:1.研究基于時延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network,TDNN)和注意力機(jī)制(ATTENTION)的聲紋欺騙檢測方法。在ASVspoof2015數(shù)據(jù)集上,TDNN-ATTENTION模型的等錯誤率(Equal Error Rate,EER)比DNN降低62%。在ASVspoof2017數(shù)據(jù)集上,相應(yīng)降低了11%。2.研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測方法。本文研究了長短時記憶單元(Long Short-Term Memory,LSTM)和門控循環(huán)單元(Gated Recurrent Unit,GRU)兩種記憶單元。在ASVspoof2017數(shù)據(jù)集上,LSTM模型取得10.05%的EER;GRU模型的EER為9.60%,取得本文最好的實驗結(jié)果,與DNN相比EER降低了20%。3.研究了基于前饋序列記憶神經(jīng)網(wǎng)絡(luò)(Feedforward Sequential Memory Networks,FSMN)的聲紋欺騙檢測方法。FSMN與TDNN和RNN相比具有明顯的速度提升。在ASVspoof2017數(shù)據(jù)集上,簡化后的FSMN模型的EER為9.95%,與DNN相比EER降低了17%。在模型大小和等錯誤率近似相等的情況下,FSMN的計算耗時比LSTM減少了91%。
【學(xué)位單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP183;TN912.3
【部分圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的聲紋欺騙檢測研究


聲紋欺騙檢測研究歷史

示意圖,語音合成系統(tǒng),示意圖,頻譜包絡(luò)


華南理工大學(xué)碩士學(xué)位論文般是對語音信號進(jìn)行短時傅里葉變換(ShortTimeFourierTransformation,STFT)得度譜,再去除時間和頻率上的周期性,進(jìn)而得到頻譜包絡(luò)。由于頻譜包絡(luò)的維度較高以通常還需要對頻譜包絡(luò)進(jìn)行降維,得到常見的梅爾倒譜(Mel Cepstrum)或者線(LineSpectralPairs,LSP)特征。合成時,聲碼器則是根據(jù)基頻特征和頻譜包絡(luò)特征構(gòu)出幅度譜,再結(jié)合一定的相位約束條件重構(gòu)出合成音頻。聲學(xué)模型是語音合成的核心模塊。聲學(xué)建模是利用統(tǒng)計學(xué)習(xí)的方法,在給定文本時,對語音的聲學(xué)參數(shù)的條件分布進(jìn)行建模,即對條件概率 ( )進(jìn)行建模,其中聲學(xué)特征, 表示文本特征。

示意圖,語音轉(zhuǎn)換,示意圖


語音轉(zhuǎn)換是一種語音—語音的生成方法,是在保留語音語義的情況下,改變源說話人(Source Speaker)的語音個性特征信息,使轉(zhuǎn)換生成的語音具有目標(biāo)說話人(TargetSpeaker)的個性特征信息。典型的語音轉(zhuǎn)換系統(tǒng)如圖 2-2 所示,其過程分為訓(xùn)練和轉(zhuǎn)換兩個階段。由于語音轉(zhuǎn)換任務(wù)難以直接通過修改原始音頻來實現(xiàn),所以語音轉(zhuǎn)換任務(wù)采用與語音合成類似的方法,利用聲碼器提取聲學(xué)特征再進(jìn)行分析。訓(xùn)練階段主要是提取并對齊源和目標(biāo)語音的聲學(xué)特征,尋找兩者之間的對齊關(guān)系,通過訓(xùn)練得到源說話人與目標(biāo)說話人聲學(xué)特征之間的映射函數(shù)。轉(zhuǎn)換階段則是根據(jù)提供的源語音提取聲學(xué)特征,經(jīng)過映射函數(shù)輸出目標(biāo)語音聲學(xué)特征,再利用語音合成的方法獲取目標(biāo)語音。總得來說,語音轉(zhuǎn)換和語音合成一樣,具有同樣的局限性,即訓(xùn)練的過程中需要先提取低維的頻譜包絡(luò)特征,再進(jìn)行相應(yīng)的轉(zhuǎn)換和合成等操作。在這一過程中,頻譜的一些結(jié)構(gòu)信息會丟失,因此與真實語音的頻譜存在一定的差異性。在實際應(yīng)用中,由于語音轉(zhuǎn)換的音頻自然度較低,因此語音轉(zhuǎn)換的音頻相對于語音合成的音頻更加容易被識別。
【參考文獻(xiàn)】

相關(guān)博士學(xué)位論文 前1條

1 胡亞軍;基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)計參數(shù)語音合成方法研究[D];中國科學(xué)技術(shù)大學(xué);2018年


相關(guān)碩士學(xué)位論文 前4條

1 蔣君妍;面向高維數(shù)據(jù)的聚類算法改進(jìn)研究[D];南京郵電大學(xué);2018年

2 王治權(quán);基于注意力機(jī)制和改進(jìn)型RNN的Web文本情感分析研究[D];蘭州大學(xué);2018年

3 崔立梅;基于改進(jìn)的GMM和頻率彎折的高質(zhì)量語音轉(zhuǎn)換算法的研究[D];南京郵電大學(xué);2017年

4 雷文康;基于深度神經(jīng)網(wǎng)絡(luò)的音樂流派分類研究[D];華南理工大學(xué);2017年



本文編號:2864149

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2864149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a0188***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
热久久这里只有精品视频| 91亚洲精品国产一区| 偷拍偷窥女厕一区二区视频| 国产午夜福利一区二区| 欧美成人一区二区三区在线 | 99久久国产综合精品二区| 日韩中文字幕视频在线高清版| 亚洲最新一区二区三区| 国产精品亚洲二区三区| 好吊日成人免费视频公开| 日韩三极片在线免费播放| 五月婷婷六月丁香在线观看| 久久精品国产亚洲av麻豆| 欧美日韩亚洲综合国产人| 国自产拍偷拍福利精品图片| 亚洲国产一区精品一区二区三区色| 91人人妻人人爽人人狠狠| 国产无摭挡又爽又色又刺激| 国产成人国产精品国产三级| 五月天丁香婷婷狠狠爱| 国产精品视频一区麻豆专区| 成人精品欧美一级乱黄| 日本丁香婷婷欧美激情| 精品一区二区三区人妻视频| 日本人妻熟女一区二区三区| 国产精品久久久久久久久久久痴汉 | 国产一级内射麻豆91| 国产高清三级视频在线观看| 国产福利一区二区三区四区| 久久国内午夜福利直播| 国产精品免费不卡视频| 国产级别精品一区二区视频| 欧美自拍偷自拍亚洲精品| 人妻中文一区二区三区| 亚洲国产精品久久综合网| 亚洲清纯一区二区三区| 精品亚洲香蕉久久综合网| 亚洲国产精品一区二区| 91欧美一区二区三区成人| 99在线视频精品免费播放| 开心五月激情综合婷婷色|