基于VGMM算法的語(yǔ)音身份識(shí)別研究
發(fā)布時(shí)間:2020-10-28 03:38
語(yǔ)音身份識(shí)別技術(shù)是對(duì)說(shuō)話人身份的驗(yàn)證,語(yǔ)音身份識(shí)別技術(shù)在多個(gè)領(lǐng)域都有廣泛的應(yīng)用,然而如何科學(xué)有效的提高語(yǔ)音身份識(shí)別技術(shù)的識(shí)別率和識(shí)別速度成為重要難點(diǎn),使語(yǔ)音身份識(shí)別技術(shù)更具魯棒性成為了當(dāng)下極為重要的課題。當(dāng)前大部分語(yǔ)音身份識(shí)別技術(shù)在理想的環(huán)境下識(shí)別率較高,但是在實(shí)際開(kāi)發(fā)應(yīng)用中,較短的說(shuō)話人語(yǔ)音和復(fù)雜的環(huán)境下都會(huì)導(dǎo)致語(yǔ)音身份識(shí)別技術(shù)的識(shí)別率明顯下降。因此本文主要研究在噪聲環(huán)境下和較短說(shuō)話人語(yǔ)音的語(yǔ)音身份識(shí)別技術(shù),論文的主要研究?jī)?nèi)容如下:(1)在語(yǔ)音預(yù)處理方面,分析語(yǔ)音身份識(shí)別技術(shù)的常用語(yǔ)音端點(diǎn)檢測(cè)方法(VAD),有短時(shí)能量、短時(shí)過(guò)零率及兩級(jí)判斷的端點(diǎn)檢測(cè)方法,以上方法的語(yǔ)音端點(diǎn)檢測(cè)效果在噪聲背景下不是十分理想,本文提出一種改進(jìn)的逐級(jí)分段的方法,通過(guò)小波變換(WT)方法檢測(cè)語(yǔ)音幀信號(hào)的狀態(tài),對(duì)比實(shí)驗(yàn)驗(yàn)證改進(jìn)的端點(diǎn)檢測(cè)方法增強(qiáng)效果明顯。(2)在語(yǔ)音特征提取方面,研究語(yǔ)音身份識(shí)別過(guò)程中的幾種常見(jiàn)的特征參數(shù)線性倒譜系數(shù)(LPCC)和梅爾倒譜系數(shù)(MFCC),MFCC參數(shù)在噪聲環(huán)境強(qiáng)的干擾下會(huì)使系統(tǒng)識(shí)別性能下降,因此提出了改進(jìn)的WT-MFCC特征參數(shù)提取,對(duì)比MFCC特征參數(shù),WT-MFCC更好地體現(xiàn)了語(yǔ)音特征參數(shù)的動(dòng)態(tài)特性,從而有利于提高識(shí)別率,對(duì)改進(jìn)的特征參數(shù)與MFCC進(jìn)行實(shí)驗(yàn)驗(yàn)證。(3)在研究語(yǔ)音身份識(shí)別訓(xùn)練模型過(guò)程時(shí)發(fā)現(xiàn)傳統(tǒng)的高斯混合模型(GMM)的聚類方法不太穩(wěn)定,采樣較短的語(yǔ)音識(shí)別率會(huì)下降。為了提高語(yǔ)音身份識(shí)別的識(shí)別性能,改進(jìn)了GMM模型的訓(xùn)練過(guò)程,提出VGMM模型,用改進(jìn)的分裂法(SA)初始碼本,研究采用LBG算法生成碼本,得到碼本序列后經(jīng)過(guò)最大期望算法(EM)對(duì)GMM模型參數(shù)初始化,WT-MFCC參數(shù)和VGMM訓(xùn)練識(shí)別方法結(jié)合進(jìn)行仿真測(cè)試實(shí)驗(yàn),分析了不同參數(shù)對(duì)語(yǔ)音身份識(shí)別系統(tǒng)識(shí)別率的影響。
【學(xué)位單位】:哈爾濱理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
高通濾波頻譜圖
語(yǔ)音信號(hào)的分幀F(xiàn)ig.3-2Framingofspeechsignals
圖 3-9 不同端點(diǎn)檢測(cè)下的語(yǔ)音識(shí)別率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征參數(shù)提取是語(yǔ)音身份識(shí)別系統(tǒng)中的一個(gè)及其關(guān)鍵的部分,特征
【相似文獻(xiàn)】
本文編號(hào):2859525
【學(xué)位單位】:哈爾濱理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TN912.34
【部分圖文】:
高通濾波頻譜圖
語(yǔ)音信號(hào)的分幀F(xiàn)ig.3-2Framingofspeechsignals
圖 3-9 不同端點(diǎn)檢測(cè)下的語(yǔ)音識(shí)別率Fig. 3-9 Speech recognition rate under different endpoint detection特征提取征參數(shù)提取是語(yǔ)音身份識(shí)別系統(tǒng)中的一個(gè)及其關(guān)鍵的部分,特征
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 黨國(guó)斌;基于VGMM算法的語(yǔ)音身份識(shí)別研究[D];哈爾濱理工大學(xué);2019年
本文編號(hào):2859525
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2859525.html
最近更新
教材專著