基于x-vector的說話人識別研究
發(fā)布時間:2020-06-07 12:33
【摘要】:為了提升說話人識別系統的性能,本文以x-vector系統為基礎,結合卷積神經網絡與注意力機制,著重分析基線系統存在的問題,并探索有效的解決方案。(1)采用卷積神經網絡提取聲學特征。在語音技術領域經常采用MFCC作為輸入特征,而這種經驗性特征存在一定問題。本文采用最原始的聲學參數--語譜作為輸入特征,其中含有更多的說話人原始性信息,同時,利用卷積神經網絡(Convolutional Neural Network,CNN)的局部感知和權重共享的機制,對語譜進行自動優(yōu)化并完成降維,避免了經驗性特征計算所帶來的信息損失。(2)注意力機制應用于統計層的計算。在x-vector統計層,直接計算幀特征的均值和標準差,默認每一幀的重要性相同,這種假設明顯不合理。本文引入注意力機制來解決上述問題,主要采用兩個方案:第一種方案是引入注意力層,即通過注意力層來增強關鍵幀的信息以及語音信號內部的關聯性,并通過多頭注意力來獲取序列之間不同的依賴性;第二種方案是建立基于注意力的統計層,直接修改統計層的計算機制,計算加權均值和標準差,并與多頭注意力相結合。(3)利用Kaldi語音工具平臺在VoxCelebl數據集上進行實驗。主要對比分析了不同聲學特征以及不同的網絡結構對系統性能的影響。實驗結果顯示,相比于x-vector基線系統,語譜結合CNN在EER(等錯誤率,Equal Error Rate)上相對降低6.5%,引入注意力層方案在EER上相對降低了 13.5%,而基于注意力的統計層方案在EER上則相對降低了25.5%。實驗結果證實,本文所提出的:利用CNN從語譜直接提取并優(yōu)化特征,及注意力機制改進x-vector統計層計算,方案合理且效果顯著。
【圖文】:
2.1說話人識別系統框架逡逑說話人識別是一種生物識別技術,需要對發(fā)音人的語音進行分析,從中提取逡逑說話人的信息,然后根據這些信息對說話人的身份進行判斷。如圖2-1所示,一個逡逑完整的說話人識別系統主要由以下三個模塊組成:聲學特征提取、說話人模型建逡逑立和訓練、說話人識別和決策。逡逑說話人識別系統的具體工作流程主要分為三個步驟:逡逑(1)
即具有短時平穩(wěn)性。這樣就可以將其分成若干巾貞來進行分析,一般。0?30ms逡逑為一幀。如果不同幀是連續(xù)的,那么可能會存在幀之間的信息無法處理,因此為逡逑了避免這種情況的發(fā)生,在分巾貞時一般會讓相鄰巾貞之間有一段重疊部分,如圖2_3逡逑所示,這樣可以保持幀的連續(xù)性。逡逑U邐^_J逡逑I邋邐邐I逡逑第k幀丨幀移|逡逑U——^——?!逡逑第k+1幀逡逑圖2-3語音信號分幀逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑語音信號的分幀處理是通過窗函數來實現的,將該窗口在時間軸上進行移動,,逡逑即可完成分幀加窗處理。常用的窗函數有兩種,一種是矩形窗,窗函數如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他邐(2_2)逡逑另一種是漢明窗,窗函數如下所示:逡逑12逡逑
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TN912.34;TP183
本文編號:2701425
【圖文】:
2.1說話人識別系統框架逡逑說話人識別是一種生物識別技術,需要對發(fā)音人的語音進行分析,從中提取逡逑說話人的信息,然后根據這些信息對說話人的身份進行判斷。如圖2-1所示,一個逡逑完整的說話人識別系統主要由以下三個模塊組成:聲學特征提取、說話人模型建逡逑立和訓練、說話人識別和決策。逡逑說話人識別系統的具體工作流程主要分為三個步驟:逡逑(1)
即具有短時平穩(wěn)性。這樣就可以將其分成若干巾貞來進行分析,一般。0?30ms逡逑為一幀。如果不同幀是連續(xù)的,那么可能會存在幀之間的信息無法處理,因此為逡逑了避免這種情況的發(fā)生,在分巾貞時一般會讓相鄰巾貞之間有一段重疊部分,如圖2_3逡逑所示,這樣可以保持幀的連續(xù)性。逡逑U邐^_J逡逑I邋邐邐I逡逑第k幀丨幀移|逡逑U——^——?!逡逑第k+1幀逡逑圖2-3語音信號分幀逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑語音信號的分幀處理是通過窗函數來實現的,將該窗口在時間軸上進行移動,,逡逑即可完成分幀加窗處理。常用的窗函數有兩種,一種是矩形窗,窗函數如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他邐(2_2)逡逑另一種是漢明窗,窗函數如下所示:逡逑12逡逑
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TN912.34;TP183
【參考文獻】
相關期刊論文 前1條
1 李富強 ,萬紅 ,黃俊杰;基于MATLAB的語譜圖顯示與分析[J];微計算機信息;2005年20期
相關會議論文 前1條
1 唐仕喜;李洪波;武光利;于洪志;;藏語語音合成系統韻律建模規(guī)律初步研究[A];第十屆全國少數民族語言文字信息處理學術研討會論文集[C];2005年
相關博士學位論文 前1條
1 徐瓏婷;基于稀疏分解的說話人識別技術研究[D];南京郵電大學;2017年
相關碩士學位論文 前3條
1 汪加林;基于用戶偏好的深度學習推薦系統[D];華中科技大學;2018年
2 靳椺峗;駕駛環(huán)境下的麥克風陣列語音增強算法研究[D];北京交通大學;2018年
3 張德良;深度神經網絡在中文語音識別系統中的實現[D];北京交通大學;2015年
本文編號:2701425
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2701425.html