基于x-vector的說話人識(shí)別研究
發(fā)布時(shí)間:2020-06-07 12:33
【摘要】:為了提升說話人識(shí)別系統(tǒng)的性能,本文以x-vector系統(tǒng)為基礎(chǔ),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制,著重分析基線系統(tǒng)存在的問題,并探索有效的解決方案。(1)采用卷積神經(jīng)網(wǎng)絡(luò)提取聲學(xué)特征。在語音技術(shù)領(lǐng)域經(jīng)常采用MFCC作為輸入特征,而這種經(jīng)驗(yàn)性特征存在一定問題。本文采用最原始的聲學(xué)參數(shù)--語譜作為輸入特征,其中含有更多的說話人原始性信息,同時(shí),利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的局部感知和權(quán)重共享的機(jī)制,對語譜進(jìn)行自動(dòng)優(yōu)化并完成降維,避免了經(jīng)驗(yàn)性特征計(jì)算所帶來的信息損失。(2)注意力機(jī)制應(yīng)用于統(tǒng)計(jì)層的計(jì)算。在x-vector統(tǒng)計(jì)層,直接計(jì)算幀特征的均值和標(biāo)準(zhǔn)差,默認(rèn)每一幀的重要性相同,這種假設(shè)明顯不合理。本文引入注意力機(jī)制來解決上述問題,主要采用兩個(gè)方案:第一種方案是引入注意力層,即通過注意力層來增強(qiáng)關(guān)鍵幀的信息以及語音信號(hào)內(nèi)部的關(guān)聯(lián)性,并通過多頭注意力來獲取序列之間不同的依賴性;第二種方案是建立基于注意力的統(tǒng)計(jì)層,直接修改統(tǒng)計(jì)層的計(jì)算機(jī)制,計(jì)算加權(quán)均值和標(biāo)準(zhǔn)差,并與多頭注意力相結(jié)合。(3)利用Kaldi語音工具平臺(tái)在VoxCelebl數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。主要對比分析了不同聲學(xué)特征以及不同的網(wǎng)絡(luò)結(jié)構(gòu)對系統(tǒng)性能的影響。實(shí)驗(yàn)結(jié)果顯示,相比于x-vector基線系統(tǒng),語譜結(jié)合CNN在EER(等錯(cuò)誤率,Equal Error Rate)上相對降低6.5%,引入注意力層方案在EER上相對降低了 13.5%,而基于注意力的統(tǒng)計(jì)層方案在EER上則相對降低了25.5%。實(shí)驗(yàn)結(jié)果證實(shí),本文所提出的:利用CNN從語譜直接提取并優(yōu)化特征,及注意力機(jī)制改進(jìn)x-vector統(tǒng)計(jì)層計(jì)算,方案合理且效果顯著。
【圖文】:
2.1說話人識(shí)別系統(tǒng)框架逡逑說話人識(shí)別是一種生物識(shí)別技術(shù),需要對發(fā)音人的語音進(jìn)行分析,從中提取逡逑說話人的信息,然后根據(jù)這些信息對說話人的身份進(jìn)行判斷。如圖2-1所示,一個(gè)逡逑完整的說話人識(shí)別系統(tǒng)主要由以下三個(gè)模塊組成:聲學(xué)特征提取、說話人模型建逡逑立和訓(xùn)練、說話人識(shí)別和決策。逡逑說話人識(shí)別系統(tǒng)的具體工作流程主要分為三個(gè)步驟:逡逑(1)
即具有短時(shí)平穩(wěn)性。這樣就可以將其分成若干巾貞來進(jìn)行分析,一般。0?30ms逡逑為一幀。如果不同幀是連續(xù)的,那么可能會(huì)存在幀之間的信息無法處理,因此為逡逑了避免這種情況的發(fā)生,在分巾貞時(shí)一般會(huì)讓相鄰巾貞之間有一段重疊部分,如圖2_3逡逑所示,這樣可以保持幀的連續(xù)性。逡逑U邐^_J逡逑I邋邐邐I逡逑第k幀丨幀移|逡逑U——^——?!逡逑第k+1幀逡逑圖2-3語音信號(hào)分幀逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑語音信號(hào)的分幀處理是通過窗函數(shù)來實(shí)現(xiàn)的,將該窗口在時(shí)間軸上進(jìn)行移動(dòng),,逡逑即可完成分幀加窗處理。常用的窗函數(shù)有兩種,一種是矩形窗,窗函數(shù)如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他邐(2_2)逡逑另一種是漢明窗,窗函數(shù)如下所示:逡逑12逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TN912.34;TP183
本文編號(hào):2701425
【圖文】:
2.1說話人識(shí)別系統(tǒng)框架逡逑說話人識(shí)別是一種生物識(shí)別技術(shù),需要對發(fā)音人的語音進(jìn)行分析,從中提取逡逑說話人的信息,然后根據(jù)這些信息對說話人的身份進(jìn)行判斷。如圖2-1所示,一個(gè)逡逑完整的說話人識(shí)別系統(tǒng)主要由以下三個(gè)模塊組成:聲學(xué)特征提取、說話人模型建逡逑立和訓(xùn)練、說話人識(shí)別和決策。逡逑說話人識(shí)別系統(tǒng)的具體工作流程主要分為三個(gè)步驟:逡逑(1)
即具有短時(shí)平穩(wěn)性。這樣就可以將其分成若干巾貞來進(jìn)行分析,一般。0?30ms逡逑為一幀。如果不同幀是連續(xù)的,那么可能會(huì)存在幀之間的信息無法處理,因此為逡逑了避免這種情況的發(fā)生,在分巾貞時(shí)一般會(huì)讓相鄰巾貞之間有一段重疊部分,如圖2_3逡逑所示,這樣可以保持幀的連續(xù)性。逡逑U邐^_J逡逑I邋邐邐I逡逑第k幀丨幀移|逡逑U——^——?!逡逑第k+1幀逡逑圖2-3語音信號(hào)分幀逡逑Figure2-3邋Framing邋operation邋of邋voice邋signals逡逑語音信號(hào)的分幀處理是通過窗函數(shù)來實(shí)現(xiàn)的,將該窗口在時(shí)間軸上進(jìn)行移動(dòng),,逡逑即可完成分幀加窗處理。常用的窗函數(shù)有兩種,一種是矩形窗,窗函數(shù)如下所示:逡逑,、fl,邋0<邋w<邋A^-l逡逑W(”)=邋k邋其他邐(2_2)逡逑另一種是漢明窗,窗函數(shù)如下所示:逡逑12逡逑
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TN912.34;TP183
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李富強(qiáng) ,萬紅 ,黃俊杰;基于MATLAB的語譜圖顯示與分析[J];微計(jì)算機(jī)信息;2005年20期
相關(guān)會(huì)議論文 前1條
1 唐仕喜;李洪波;武光利;于洪志;;藏語語音合成系統(tǒng)韻律建模規(guī)律初步研究[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會(huì)論文集[C];2005年
相關(guān)博士學(xué)位論文 前1條
1 徐瓏婷;基于稀疏分解的說話人識(shí)別技術(shù)研究[D];南京郵電大學(xué);2017年
相關(guān)碩士學(xué)位論文 前3條
1 汪加林;基于用戶偏好的深度學(xué)習(xí)推薦系統(tǒng)[D];華中科技大學(xué);2018年
2 靳椺峗;駕駛環(huán)境下的麥克風(fēng)陣列語音增強(qiáng)算法研究[D];北京交通大學(xué);2018年
3 張德良;深度神經(jīng)網(wǎng)絡(luò)在中文語音識(shí)別系統(tǒng)中的實(shí)現(xiàn)[D];北京交通大學(xué);2015年
本文編號(hào):2701425
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2701425.html
最近更新
教材專著