天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的說話人識別研究

發(fā)布時間:2020-10-11 19:48
   隨著科學(xué)技術(shù)的發(fā)展,說話人識別在深度學(xué)習(xí)背景下不斷有新突破和新進展。目前占主導(dǎo)地位的是以身份認(rèn)證矢量I-vector為基礎(chǔ)的說話人識別系統(tǒng)。本文重點研究了如何改進傳統(tǒng)特征參數(shù),以及如何通過深度學(xué)習(xí)對說話人識別建模這兩個問題。從不同的輸入類型和不同的神經(jīng)網(wǎng)絡(luò)兩個方面出發(fā),探究系統(tǒng)識別性能。研究如何利用深度學(xué)習(xí)消除人類感知語音和計算機處理語音之間的辨識偏差鴻溝,如何拉近計算機所能學(xué)習(xí)到的聽覺特征和人所能感知的特征之間的距離,實現(xiàn)計算機更接近于基于理解的人類識別結(jié)果這一目標(biāo);谝陨涎芯恐攸c,本文內(nèi)容包括以下幾個部分:(1)研究并改進了基于I-vector的說話人識別算法研究傳統(tǒng)特征提取算法,設(shè)計并搭建了基于I-vector的說話人識別系統(tǒng),分析現(xiàn)有的I-vector優(yōu)缺點,在此基礎(chǔ)上改進I-vector身份認(rèn)證矢量的提取過程,為之后作為輸入,和不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)連接搭建說話人識別系統(tǒng)作鋪墊。(2)研究了基于LSTM和DBN的說話人識別方法構(gòu)建時序網(wǎng)絡(luò)長短時記憶網(wǎng)絡(luò)LSTM模型和靜態(tài)的深度置信網(wǎng)絡(luò)DBN的說話人識別模型,最優(yōu)化設(shè)置網(wǎng)絡(luò)參數(shù)值以及每一層網(wǎng)絡(luò)的輸入輸出節(jié)點數(shù),將普通特征參數(shù)和改進后的身份認(rèn)證矢量作為輸入,探討不同層數(shù)的深度置信網(wǎng)絡(luò)和不同特征參數(shù)類型組合后對說話人識別結(jié)果的影響。(3)研究了基于語譜圖和CNN的說話人識別方法將不同語音段的語譜圖通過一定的采樣,統(tǒng)一至相同的大小,消除不同長度音頻時序不同的問題,將之作為CNN的VGG網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)的輸入,最優(yōu)設(shè)置兩個網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)和節(jié)點設(shè)置,進行說話人識別實驗,探討在CNN網(wǎng)絡(luò)下能否使說話人識別系統(tǒng)性能得到提升。并且進行網(wǎng)絡(luò)融合嘗試,增加雙層DNN網(wǎng)絡(luò),驗證性能是否有提升。本文在研究了傳統(tǒng)特征參數(shù)身份認(rèn)證矢量的基礎(chǔ)上,重點探究了深度學(xué)習(xí)的說話人識別建模問題,將傳統(tǒng)特征和深層學(xué)習(xí)架構(gòu)聯(lián)系在一起,對不同特征之間的系統(tǒng)性能橫向和縱向進行了對比,探究對說話人識別系統(tǒng)來說最優(yōu)的特征參數(shù),哪種參數(shù)能最大化保留說話人個性信息,更有身份辨識度,以及哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最適合說話人識別系統(tǒng)。
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TN912.34;TP181
【部分圖文】:

序列,特征提取,預(yù)處理,預(yù)加重


圖2-1?說話人識別系統(tǒng)框架??先通常在進行特征提取之前,都要對原始序列做一系列的預(yù)處理。用換(channel?conversion)、預(yù)加重(pre-emphasis)、重米樣(resample)、)和力口窗(windowing)。??

目標(biāo)用戶,模型訓(xùn)練,研究概述,參數(shù)訓(xùn)練


第二章說話人識別研究概述關(guān)定義上來說,GMM是一種參數(shù)化(Paraodel),具備對實際數(shù)據(jù)極強的表征力,但強,其負(fù)面效應(yīng)也會越明顯:參數(shù)規(guī)模也動GMM的參數(shù)訓(xùn)練才能得到-個更加通或者幾個小時的語音數(shù)據(jù),都遠(yuǎn)遠(yuǎn)無法滿足稀缺又容易讓GMM出現(xiàn)過擬合(Over-fming因此,盡管一開始GMM在小規(guī)模的文本無框架的性能,但它卻遠(yuǎn)遠(yuǎn)無法滿足實際場

用戶模型,訓(xùn)練算法


泛化能力急劇衰退。因此,盡管一開始GMM在小規(guī)模的文本無關(guān)數(shù)據(jù)集合上表??現(xiàn)出了超越傳統(tǒng)技術(shù)框架的性能,但它卻遠(yuǎn)遠(yuǎn)無法滿足實際場景下的需求。??圖2-2最初的目標(biāo)用戶模型訓(xùn)練??2000年,DA?Reynolds1121的團隊提出了一種改進的方案:既然沒法從目標(biāo)??用戶那里收集到足夠的語音,那就可以從其他地方收集大量非目標(biāo)用戶的聲音,??將這些非目標(biāo)用戶數(shù)據(jù)(聲紋識別領(lǐng)域稱為背景數(shù)據(jù))混合起來充分訓(xùn)練出一個??GMM,這個GMM可以看作是對語音的表征,但由于它是從大量身份的混雜數(shù)??據(jù)中訓(xùn)練而成,它又不具備表征具體某位說話人身份的能力。??該混合GMM就是起到了類似的作用,它對語音特征在空間分布的概率模型??給出了一個良好的預(yù)先估計,不必再像過去那樣從頭開始計算GMM的參數(shù)??(GMM的參數(shù)估計是一種稱為EM的迭代式估計算法),只需要基于目標(biāo)用戶的??數(shù)據(jù)在這個混合GMM上進行參數(shù)的微調(diào)即可實現(xiàn)目標(biāo)用戶參數(shù)的估計
【參考文獻】

相關(guān)期刊論文 前8條

1 楊瑞田;周萍;楊青;;TEO能量與Mel倒譜混合參數(shù)應(yīng)用于說話人識別[J];計算機仿真;2017年08期

2 林舒都;邵曦;;基于i-vector和深度學(xué)習(xí)的說話人識別[J];計算機技術(shù)與發(fā)展;2017年06期

3 歐國振;孫林慧;薛海雙;;基于重組超矢量的GMM-SVM說話人辨認(rèn)系統(tǒng)[J];計算機技術(shù)與發(fā)展;2017年07期

4 周雷;龍艷花;魏浩然;;一種新型的與文本相關(guān)的說話人識別方法研究[J];上海師范大學(xué)學(xué)報(自然科學(xué)版);2017年02期

5 楊瑩春;鄧立才;;基于GMM托肯配比相似度校正得分的說話人識別[J];清華大學(xué)學(xué)報(自然科學(xué)版);2017年01期

6 李燕萍;陶定元;林樂;;基于DTW模型補償?shù)膫窝b語音說話人識別研究[J];計算機技術(shù)與發(fā)展;2017年01期

7 ;COMBINATION OF PITCH SYNCHRONOUS ANALYSIS AND FISHER CRITERION FOR SPEAKER IDENTIFICATION[J];Journal of Electronics(China);2007年06期

8 ;A new frequency scale of Chinese whispered speech in the application of speaker identification[J];Progress in Natural Science;2006年10期



本文編號:2837037

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/2837037.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶32ea1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com