天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的說話人識別算法

發(fā)布時間:2020-12-26 00:56
  說話人識別又稱為聲紋識別,是一門根據(jù)聲紋特征來判斷說話者身份的技術(shù),廣泛的應用于各個領(lǐng)域,具有很實用的研究價值。隨著計算機硬件性能的提升,基于深度學習的聲紋識別技術(shù)成為了主流方法之一,然而在深度學習任務(wù)中,往往是學習單一的說話人分類器模型來預測標簽,又或者采用簡單的相似度判決方法實現(xiàn)模型的匹配,導致最終訓練出的聲紋特征判別力不足,本文為了提取判別能力較強的聲紋特征,通過對傳統(tǒng)的損失函數(shù)進行改進,使得改進的損失函數(shù)監(jiān)督訓練出的網(wǎng)絡(luò)模型能夠有效的提高說話人識別精度。本文的工作內(nèi)容如下:1.首先從稠密型網(wǎng)絡(luò)(DenseNet)的最后一層隱藏層提取出說話人的低維特征,然后采用提出的ICTL,損失函數(shù)作為DenseNet最后一層隱藏層的目標函數(shù),ICTL由三元組損失(Triplet Loss)和改進的三元組損失(ICL)組合而成,它們負責計算出最后一層隱藏層中提取的三元組特征之間的相似度損失,然后使用Softmax Loss計算出DenseNet最后一層分類層對應的三元組樣本的預測身份與真實身份之間的誤差損失。ICTL是Softmax Loss的輔助損失函數(shù),通過ICTL對DenseNet最后一... 

【文章來源】:南昌大學江西省 211工程院校

【文章頁數(shù)】:62 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的說話人識別算法


圖2.5?CNN模型??

函數(shù)曲線圖,激活函數(shù),卷積,卷積核


?第2章說話人識別基本概述???數(shù)、池化層以及全連接層四部分構(gòu)成,如圖2.5所示。??r—?■分類??輸入層?卷積層?泄化層?全連接1??激活函數(shù)??圖2.5?CNN模型??(1)卷積層??卷積層由多個卷積核進行卷積操作,卷積核等同于一個特征提取器,每個卷??積核可以從單一的角度提取特征,其表達式如下:??0-1?/-I?、??(2-26)??y?y=o?/=〇?)??其中,x表示大小為MxiV的二維矩陣,>1;是/\/的卷積核,6表示偏置,/為??激活函數(shù)。??(2)激活函數(shù)??CNN中最常用的激活函數(shù)是ReLU函數(shù)t51],它可以有效地解決網(wǎng)絡(luò)訓練時??產(chǎn)生的梯度消失問題,其學習曲線如圖2.6所示。??“?y??f(x)=x??/(■*)=〇?y/???????0?-V??圖2.6?ReLU函數(shù)曲線圖??(3)池化層??池化層通過池化操作可以縮減特征圖的規(guī)模,從而有效降低網(wǎng)絡(luò)參數(shù)的復??13??

三元組,學習過程,樣本


?第2章說話人識別基本概述???從式(2.33)可以看出,Triplet?Loss?要求丨|/K)-/(xf)g?比||/(<)-/(x;)||;至少??要小于三元組才能產(chǎn)生損失值。??Deep?Speaker中三元組樣本的學習過程可表示成圖2.9的形式。??Negative?Positive??Learning??^??<??Anchor^?AnchoN^??Positive?Negative??圖2.9三元組樣本的的學習過程??值得注意的是,Deep?Speaker識別系統(tǒng)采用在線挖掘的方式生成三元組樣本??對。在每一批輸入樣本中,根據(jù)每個樣本對應的輸出特征,進行三元組樣本對的??選擇,最后根據(jù)損失函數(shù)計算出當前誤差。本文選擇ResNet-34作為實驗中的對??比模型。其中輸入端選擇160巾貞的Fbanks+A+A2作為模型的輸入巾貞大小,對每中貞??提。叮淳S的動靜態(tài)特征信息,并堆疊成64x3的形式,ResNet-34模型最后一層隱??藏層輸出的聲紋特征為512維,批次大小設(shè)置為64。Deep?Speaker系統(tǒng)的訓練??過程如圖2.10所示。??BP算法??ResNet??聲紋特征j?1??1???二兀組???ResNet內(nèi)部丨一?最后一層隱藏層Triplet?Loss??圖2.10?Deep?Speaker的訓練流程??2.5.5?DenseNet??DenseNet的模型結(jié)構(gòu)如圖2.11所示。??17??

【參考文獻】:
期刊論文
[1]基于深度學習的指紋識別方法研究[J]. 陳虹旭,李曉坤,鄭永亮,袁烺,邵娜,楊磊,劉磊.  智能計算機與應用. 2018(03)
[2]基于改進的深度神經(jīng)網(wǎng)絡(luò)的說話人辨認研究[J]. 趙艷,呂亮,趙力.  電子器件. 2017(05)
[3]基于語音信號時變特性的說話人辨認[J]. 徐良軍,費萬春,張偉杰,魯星星.  數(shù)字技術(shù)與應用. 2010(01)
[4]基于MFCC和LPCC的說話人識別[J]. 余建潮,張瑞林.  計算機工程與設(shè)計. 2009(05)
[5]幾種人體生物特征的生物識別技術(shù)比較[J]. 吳作好,曾潔,鄒娟,楊曉東,張堯.  現(xiàn)代電子技術(shù). 2007(14)

碩士論文
[1]基于發(fā)音動作參數(shù)的說話人確認技術(shù)研究[D]. 張艷.上海師范大學 2018



本文編號:2938719

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2938719.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶47d08***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com