天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別研究

發(fā)布時(shí)間:2020-12-11 06:14
  說話人識(shí)別,又稱為聲紋識(shí)別,是一種依據(jù)語音來判別說話人身份的技術(shù)。近些年隨著互聯(lián)網(wǎng)的快速發(fā)展和智能移動(dòng)設(shè)備的普及,人臉識(shí)別、指紋識(shí)別和說話人識(shí)別等身份驗(yàn)證技術(shù)有了廣闊的應(yīng)用市場(chǎng)。說話人識(shí)別的核心是從語音中提取出能表征說話人身份的信息,深度神經(jīng)網(wǎng)絡(luò)因?yàn)榫哂袕?qiáng)大的信息提取與建模能力,已經(jīng)在計(jì)算機(jī)視覺、自然語言處理等領(lǐng)域得到廣泛應(yīng)用,將深度神經(jīng)網(wǎng)絡(luò)引入說話人識(shí)別領(lǐng)域是目前的研究熱點(diǎn)。本文主要工作如下:首先,研究了基于深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別系統(tǒng),以梅爾頻率倒譜系數(shù)作為語音的特征參數(shù),搭建了基于深度長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的說話人識(shí)別系統(tǒng)作為基線系統(tǒng)。其次,研究了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性對(duì)系統(tǒng)性能的影響,由于隱層層數(shù)和節(jié)點(diǎn)數(shù)目的改變會(huì)影響系統(tǒng)的識(shí)別效果,所以對(duì)不同層數(shù)和節(jié)點(diǎn)數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了識(shí)別率對(duì)比,進(jìn)而選定網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化了識(shí)別系統(tǒng)。最后,與傳統(tǒng)的說話人識(shí)別系統(tǒng)GMM-UBM進(jìn)行了兩方面的對(duì)比實(shí)驗(yàn)分析,驗(yàn)證了無論是在語音長(zhǎng)度改變還是在說話者個(gè)數(shù)增加的情況下,基于LSTM模型的說話人識(shí)別系統(tǒng)的識(shí)別效果均優(yōu)于傳統(tǒng)模型。 

【文章來源】:南昌大學(xué)江西省 211工程院校

【文章頁數(shù)】:51 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別研究


圖3.8網(wǎng)絡(luò)模型的訓(xùn)練??3.4實(shí)驗(yàn)設(shè)計(jì)與分析??驗(yàn)的小對(duì)識(shí)果是重,進(jìn)而到性能最優(yōu)??

網(wǎng)絡(luò)結(jié)構(gòu)圖,層數(shù),識(shí)別率,神經(jīng)網(wǎng)絡(luò)


?第3章基于深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別模型???在對(duì)比實(shí)驗(yàn)中,LSTM的層數(shù)設(shè)置為1、2、3、4、5,層節(jié)點(diǎn)設(shè)置為128、256,??得到10組網(wǎng)絡(luò)模型。實(shí)驗(yàn)使用的是mini-batch梯度下降法,將batch?size設(shè)??置為50,梯度裁剪閾值設(shè)為5,采用深度學(xué)習(xí)優(yōu)化器Adam,學(xué)習(xí)率經(jīng)實(shí)驗(yàn)測(cè)試??后設(shè)置為0.?005,最大迭代次數(shù)為100,每組模型經(jīng)過多次訓(xùn)練對(duì)結(jié)果取平均值,??得到系統(tǒng)識(shí)別率。如表3.?2所示:???表3.2不同網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別率???網(wǎng)絡(luò)層數(shù)?1?2?3?4?5??128?78.13%?80.25%?82.76%?84.32%?85.01%??256?79.66%?81.62%?84.25%?85.37%?86.10%??LSTM不同層數(shù)和節(jié)點(diǎn)數(shù)的識(shí)>?別率對(duì)比??90-.???—layer?node?256??layer?node?128??88?-??78?-??76?-??1?2?3?4?5??網(wǎng)絡(luò)層數(shù)??圖3.9不同網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別率對(duì)比??從圖3.9中可以看出,無論每層節(jié)點(diǎn)如何選擇,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,??系統(tǒng)識(shí)別率會(huì)隨之提升。層數(shù)相同時(shí),增加每層的節(jié)點(diǎn)數(shù),同樣使系統(tǒng)識(shí)別率得??以提高。在一定程度上,隱藏層的增加和節(jié)點(diǎn)數(shù)的增多提高了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,??達(dá)到了提高識(shí)別率的效果,符合實(shí)驗(yàn)前的預(yù)期效果。??然而,神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的節(jié)點(diǎn)數(shù)并非越多就會(huì)帶來識(shí)別效果的不斷??提高。系統(tǒng)識(shí)別率隨著層數(shù)增加,識(shí)別率的提升速度逐漸變緩,由于數(shù)據(jù)量一定,??過多增加層數(shù)及節(jié)點(diǎn)數(shù)會(huì)導(dǎo)致系統(tǒng)參數(shù)的大量增加,產(chǎn)生過擬合。??32??

模型圖,錯(cuò)誤率,語音,系統(tǒng)識(shí)別


?第4章實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析???不同語音長(zhǎng)度下系統(tǒng)的識(shí)別效果對(duì)比??20?1???GMM-UBM???、?一?一?LSTM??18-??16??2?4?6?8?10??語音長(zhǎng)度(2s>??圖4.1兩種說話人系統(tǒng)的等錯(cuò)誤率對(duì)比??從圖4.1和表4.1可以看到,不論是傳統(tǒng)的GMM-UBM模型還是LSTM網(wǎng)??絡(luò)模型,系統(tǒng)識(shí)別的等錯(cuò)誤率都隨著語音片段的增加而減校這是由于系統(tǒng)通過??短時(shí)語音片段無法學(xué)習(xí)到長(zhǎng)時(shí)的變化特征,長(zhǎng)時(shí)語音攜帶了說話人更為豐富的??信息,系統(tǒng)使用長(zhǎng)時(shí)語音能使識(shí)別性能得到提高。??LSTM網(wǎng)絡(luò)能夠?qū)r(shí)序數(shù)據(jù)進(jìn)行全局化處理,具備串聯(lián)遠(yuǎn)距離信息加以學(xué)習(xí)??的能力,增加語音的時(shí)序,網(wǎng)絡(luò)的擬合能力會(huì)隨著增強(qiáng)。由于LSTM擁有全局??化處理數(shù)據(jù)的優(yōu)勢(shì),因而相較于GMM-UBM識(shí)別系統(tǒng),在任意長(zhǎng)度測(cè)試語音下??的識(shí)別性能均有明顯優(yōu)勢(shì),其中在8s時(shí)的識(shí)別效果提升的最快。??4.3基于說話人個(gè)數(shù)增加對(duì)識(shí)別率影響的對(duì)比??說話人識(shí)別的一大考驗(yàn)是用戶數(shù)量增加帶來的識(shí)別率下降。隨著說話人個(gè)??數(shù)的增加,每個(gè)說話人個(gè)體語音之間的相對(duì)差異性會(huì)隨之減小,增加了說話人識(shí)??別系統(tǒng)的識(shí)別的復(fù)雜性,使錯(cuò)誤率增加,降低系統(tǒng)的識(shí)別效果。本實(shí)驗(yàn)以39維??MFCC作為特征輸入,探宄傳統(tǒng)的GMM-UBM模型和LSTM網(wǎng)絡(luò)模型在說話人個(gè)數(shù)增??加下識(shí)別效果的表現(xiàn)。兩種系統(tǒng)的實(shí)驗(yàn)結(jié)果分別如圖4.?2和4.?3所示:??36??


本文編號(hào):2910039

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2910039.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶780ec***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com