基于多特征I-Vector的短語音說話人識(shí)別方法研究

發(fā)布時(shí)間：2020-10-13 12:43

　　近年來,說話人識(shí)別作為人機(jī)交互領(lǐng)域的一個(gè)主要研究方向之一,已經(jīng)在現(xiàn)實(shí)生活中得到了廣泛的應(yīng)用。然而在實(shí)際應(yīng)用中,能夠提取到的說話人語音較短,導(dǎo)致系統(tǒng)識(shí)別效果較差。因此,本文研究的主要內(nèi)容為短語音說話人識(shí)別系統(tǒng)。首先,本文概述了說話人識(shí)別系統(tǒng)的總體框架,并分別描述了各模塊的性能以及處理過程,明確地把特征提取和匹配模型部分作為本文的主要研究方向。其次,在說話人特征提取部分,針對(duì)短語音條件下,單一特征的MFCC特征參數(shù)無法充分表征說話人特性的問題,利用不同特征可以從不同的角度對(duì)說話人特征分布進(jìn)行描述的優(yōu)點(diǎn),確定了3種常用特征參數(shù)作為說話人特征,分別是:MFCC、GFCC和LPCC�？紤]到直接拼接的特征無法獲得很好的識(shí)別性能,提出了基于Fisher比的MFCC、GFCC和LPCC的多特征融合算法,并把新特征命名為LP_MGFCC。該種算法有效地利用了不同特征分量在識(shí)別系統(tǒng)中的貢獻(xiàn)率不同的特點(diǎn),通過選取系統(tǒng)貢獻(xiàn)率較高的特征分量,進(jìn)而提升了系統(tǒng)的識(shí)別效果。接著,由于融合的LP_MGFCC特征分量之間存在一定的相關(guān)和冗余信息,為了進(jìn)一步提升短語音說話人識(shí)別性能,提出了基于PCA和LDA的LP_MGFCC特征補(bǔ)償算法,得到了正交且說話人區(qū)分性較強(qiáng)的特征,同時(shí),小了計(jì)算復(fù)雜度。再者,匹配模型的選擇對(duì)短語音說話人識(shí)別系統(tǒng)的性能也會(huì)產(chǎn)生影響。本文對(duì)GMM-UBM模型進(jìn)行深入研究,并通過實(shí)驗(yàn)確定了模型的混合度為1024時(shí),系統(tǒng)的性能最優(yōu)。同時(shí),介紹了目前主流的I-Vector模型,并分析了I-Vector模型相比于GMM-UBM模型的優(yōu)勢(shì),并在本文測(cè)試語音較短的情況下,對(duì)兩種模型進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果表明I-Vector模型相比于GMM-UBM模型具有更好的識(shí)別性能。最后,本文對(duì)基于多特征I-Vector的短語音說話人識(shí)別系統(tǒng)進(jìn)行了仿真實(shí)驗(yàn)。在測(cè)試語音為8s時(shí),驗(yàn)證了不同特征在基線I-Vector說話人識(shí)別系統(tǒng)中的性能,結(jié)果表明本文提出的多特征算法具有更好的識(shí)別性能。同時(shí),在不同的測(cè)試短語音下,驗(yàn)證了本文提出算法的EER相對(duì)于基線系統(tǒng)的EER有約50%的提升,且本文提出算法的minDCF相對(duì)于基線系統(tǒng)的minDCF也有約50%的提升。
【學(xué)位單位】：重慶郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2019
【中圖分類】：TN912.34
【部分圖文】：

框架圖,框架圖,說話人,模塊

說話人識(shí)別系統(tǒng)的總體框架主要包括語音信號(hào)的預(yù)處理模塊、特征提取模塊、型匹配模塊和得分判決模塊。本章將簡(jiǎn)要分析每個(gè)模塊的性能和處理過程，為后章節(jié)的算法改進(jìn)提供了理論依據(jù)。2.1 說話人識(shí)別的系統(tǒng)框架說話人識(shí)別的任務(wù)是根據(jù)話者的語音信息確定話者的身份。實(shí)際上，說話人別是屬于模式識(shí)別的范疇，它的基本原理為：建立每個(gè)說話人的語音模型，使其夠最大程度地描述說話人的個(gè)體生理特征，再將這個(gè)語音模型作為參考模型，與樣得到的語音模型進(jìn)行對(duì)比分析，從而達(dá)到辨認(rèn)或確認(rèn)說話人的目的[25]。說話人別系統(tǒng)主要包括語音信號(hào)的預(yù)處理模塊、特征提取模塊、模型匹配模塊和得分判模塊。圖 2.1 為說話人識(shí)別系統(tǒng)框架。

示意圖,語音信號(hào),分幀,示意圖

[][][1]~x n xn xn 段未處理的語音信號(hào)整體上看是非平穩(wěn)的，這使信號(hào)進(jìn)行分析和建模，通常把說話人語音信號(hào)切分幀，每幀長度在 20~30ms，在這一區(qū)間內(nèi)的語音信號(hào)的短時(shí)平穩(wěn)性，其頻譜特性幾乎不變。而為一幀，可以把整段語音信號(hào)的分析轉(zhuǎn)化成對(duì)每以采用連續(xù)分段的方法，但是普遍采用交疊分段幀移，其長度一般為 0~1/2 倍幀長，圖 2.3 為語音

匹配模型,特征提取,模塊,說話人

圖 2.4 DET 曲線的示例圖本章小結(jié)本章詳細(xì)地描述了說話人識(shí)別系統(tǒng)的整體框架，并分別地介紹了說話人識(shí)的預(yù)處理模塊、特征提取模塊、匹配模型模塊和得分判決模塊。同時(shí)，簡(jiǎn)了說話人識(shí)別系統(tǒng)的性能評(píng)價(jià)指標(biāo)。最后明確地把特征提取和匹配模型作節(jié)的主要研究內(nèi)容。
【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 劉倩;李時(shí);;細(xì)菌趨藥性算法在說話人識(shí)別中的應(yīng)用[J];宿州學(xué)院學(xué)報(bào);2017年11期

2 趙艷;呂亮;趙力;;基于修正Fukunaga-Koontz變換的說話人識(shí)別方法[J];電子器件;2018年04期

3 李為州;楊印根;;說話人識(shí)別中基于深度信念網(wǎng)絡(luò)的超向量降維的研究[J];電腦知識(shí)與技術(shù);2017年22期

4 雷震春;萬艷紅;羅劍;朱明華;;基于Mahalanobis距離的說話人識(shí)別模型研究[J];中國語音學(xué)報(bào);2016年00期

5 王華朋;李寧;許鋒;蔡能斌;;基于元音共振峰特征的法庭說話人識(shí)別[J];中國刑警學(xué)院學(xué)報(bào);2014年02期

6 王華朋;楊軍;許勇;;應(yīng)用似然比框架的法庭說話人識(shí)別[J];數(shù)據(jù)采集與處理;2013年02期

7 檀蕊蓮;劉建平;;說話人識(shí)別技術(shù)的研究進(jìn)展[J];科技資訊;2007年33期

8 寧飛,陳頻;說話人識(shí)別的幾種方法[J];電聲技術(shù);2001年12期

9 曹業(yè)敏,侯風(fēng)雷,王炳錫;說話人識(shí)別技術(shù)現(xiàn)狀與進(jìn)展[J];河南科技;1998年09期

10 王華朋;楊軍;吳鳴;許勇;;基于自適應(yīng)同源方差控制的法庭自動(dòng)說話人識(shí)別[J];應(yīng)用科學(xué)學(xué)報(bào);2014年06期

相關(guān)博士學(xué)位論文前10條

1 徐瓏婷;基于稀疏分解的說話人識(shí)別技術(shù)研究[D];南京郵電大學(xué);2017年

2 陸偉;基于缺失特征的文本無關(guān)說話人識(shí)別魯棒性研究[D];中國科學(xué)技術(shù)大學(xué);2008年

3 俞一彪;基于互信息理論的說話人識(shí)別研究[D];上海大學(xué);2004年

4 付中華;說話人識(shí)別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年

5 侯麗敏;基于非線性理論和信息融合的說話人識(shí)別[D];上海大學(xué);2005年

6 雷震春;支持向量機(jī)在說話人識(shí)別中的應(yīng)用研究[D];浙江大學(xué);2006年

7 姚志強(qiáng);說話人識(shí)別中提高GMM性能方法的研究[D];中國科學(xué)技術(shù)大學(xué);2006年

8 包永強(qiáng);噪聲環(huán)境下說話人識(shí)別的研究[D];東南大學(xué);2006年

9 林琳;基于模糊聚類與遺傳算法的說話人識(shí)別理論研究及應(yīng)用[D];吉林大學(xué);2007年

10 解焱陸;基于特征變換和分類的文本無關(guān)電話語音說話人識(shí)別研究[D];中國科學(xué)技術(shù)大學(xué);2007年

相關(guān)碩士學(xué)位論文前10條

1 姜孝偉;說話人識(shí)別系統(tǒng)的設(shè)計(jì)與研究[D];上海交通大學(xué);2018年

2 陳松;基于VQ的室內(nèi)說話人識(shí)別及FPGA實(shí)現(xiàn)研究[D];安徽理工大學(xué);2019年

3 蔡國都;基于x-vector的說話人識(shí)別研究[D];北京交通大學(xué);2019年

4 孫念;基于多特征I-Vector的短語音說話人識(shí)別方法研究[D];重慶郵電大學(xué);2019年

5 巴莉芳;基于含噪語音的說話人識(shí)別研究[D];重慶郵電大學(xué);2019年

6 劉崇鳴;基于三元組損失與流形降維的文本無關(guān)說話人識(shí)別方法研究[D];哈爾濱工業(yè)大學(xué);2019年

7 林婷;基于ICA和ASR語音特征選取的說話人識(shí)別算法[D];南昌大學(xué);2019年

8 陳園允;變形欺騙性語音的檢測(cè)算法研究及對(duì)其魯棒的說話人識(shí)別系統(tǒng)實(shí)現(xiàn)[D];廣東技術(shù)師范大學(xué);2019年

9 徐鈺婷;跨語言背景下基于單元音的說話人識(shí)別研究[D];深圳大學(xué);2018年

10 陳莉芬;基于英語爆破音和摩擦音的跨語言說話人識(shí)別研究[D];深圳大學(xué);2018年

本文編號(hào)：2839181

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/2839181.html

上一篇：基于深度卷積神經(jīng)網(wǎng)絡(luò)的手機(jī)屏幕缺陷檢測(cè)
下一篇：基于Rotman透鏡的多波束天線研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多特征I-Vector的短語音說話人識(shí)別方法研究