基于混合特征參數(shù)和GMM-UBM的說話人識別系統(tǒng)的研究
本文關(guān)鍵詞:基于混合特征參數(shù)和GMM-UBM的說話人識別系統(tǒng)的研究
更多相關(guān)文章: 說話人識別 端點檢測 Mel倒譜距離 MFCC TEO GMM-UBM
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)和信息技術(shù)的飛速發(fā)展,以語音為載體的說話人識別技術(shù)應(yīng)運而生。由于它的無侵害性和對用戶最自然直觀的方式,使得說話人識別技術(shù)成為最容易被接受的生物認證方式之一,并在社會各個領(lǐng)域得到廣泛應(yīng)用,如司法偵查、電子商務(wù)、金融等。雖然說話人識別技術(shù)在理論上已取得了不錯的成果,但在實際應(yīng)用中還存在一些問題,需要進一步的研究。本文從說話人識別的整體框架入手,在總結(jié)分析現(xiàn)有說話人識別技術(shù)的基礎(chǔ)上,對語音信號的前端處理、特征提取、模型匹配等問題進行研究,具體的工作內(nèi)容和創(chuàng)新如下:(1)由于端點檢測的準(zhǔn)確性影響到整個系統(tǒng)的識別率,本文針對短時TEO能量算法抗噪性差的缺點,提出一種強噪聲下的端點檢測新算法。該算法在短時TEO能量端點檢測的基礎(chǔ)上,增加Mel倒譜距離判斷環(huán)節(jié),采用先粗判后精判的互補性兩級判決機制,然后與傳統(tǒng)雙門限法和譜熵法在不同背景噪聲不同信噪比下進行對比實驗。實驗表明,在信噪比相對較低的環(huán)境下,該改進算法在沒有增加運算復(fù)雜度的同時提高了系統(tǒng)檢測的準(zhǔn)確度。(2)特征參數(shù)的選取影響系統(tǒng)識別的好壞,為了最大可能地提取出能反映說話人個性特征的參數(shù),本文提出將表征說話人語音特性的Mel倒譜系數(shù)和體現(xiàn)語音信號時域特征的短時TEO能量的混合特征參數(shù)應(yīng)用于說話人識別中。目的是通過增加表征說話人語音特征參數(shù)的維數(shù)來改善系統(tǒng)性能;并采用相關(guān)距離Fisher比選取貢獻值大的向量,重新組合得到更能完整描述說話人語音特征的混合參數(shù)。(3)分析基于GMM-UBM說話人識別系統(tǒng)的主要技術(shù),建立基于GMM-UBM的說話人識別系統(tǒng)模型。通過訓(xùn)練全部說話人的語音信號得到UBM,再利用MAP得到待識別的語音的GMM模型。計算出每個說話人的對數(shù)概率得分,通過分析比較區(qū)分不同說話人,確定其身份。通過實驗對比MFCC、MFCC+?MFCC、TEO-MFCC三組特征參數(shù)各自的識別效果,證明本文提出的混合特征參數(shù)在不增加復(fù)雜度的同時能夠得到更高的識別率,魯棒性更好。另外,本文還分析了相關(guān)距離Fisher比加權(quán)降維算法和高斯混合模型階數(shù)以及測試時長對識別結(jié)果的影響,最后將端點檢測和特征提取兩種改進算法組合起來,系統(tǒng)地進行說話人識別實驗。
【關(guān)鍵詞】:說話人識別 端點檢測 Mel倒譜距離 MFCC TEO GMM-UBM
【學(xué)位授予單位】:桂林電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-15
- §1.1 研究背景及意義8-9
- §1.2 發(fā)展歷程和研究現(xiàn)狀9-12
- §1.2.1 國外發(fā)展歷程9-10
- §1.2.2 國內(nèi)發(fā)展歷程10
- §1.2.3 研究現(xiàn)狀10-12
- §1.3 說話人識別技術(shù)難點12-13
- §1.4 論文的研究內(nèi)容與安排13-15
- 第二章 說話人識別系統(tǒng)概述15-22
- §2.1 說話人識別的分類15-16
- §2.2 說話人識別系統(tǒng)組成和原理結(jié)構(gòu)16-18
- §2.3 語音信號特征18-20
- §2.3.1 語音特征參數(shù)的提取18-19
- §2.3.2 特征參數(shù)選擇評估19-20
- §2.4 說話人識別模型20-21
- §2.5 本章小結(jié)21-22
- 第三章 語音信號前端處理的研究22-48
- §3.1 語音信號的預(yù)處理22-27
- §3.1.1 A/D轉(zhuǎn)換22-23
- §3.1.2 預(yù)加重處理23-25
- §3.1.3 加窗分幀25-27
- §3.2 傳統(tǒng)的語音端點檢測技術(shù)27-29
- §3.2.1 基于短時能量和短時過零率的雙門限端點檢測算法27-28
- §3.2.2 基于譜熵的語音端點檢測算法28-29
- §3.3 改進的語音端點檢測技術(shù)29-36
- §3.3.1 短時TEO能量30-33
- §3.3.2 Mel倒譜距離33
- §3.3.3 基于Mel-TEO的帶噪語音端點檢測算法33-36
- §3.4 實驗結(jié)果與分析36-47
- §3.4.1 測試集及評估方法36-37
- §3.4.2 端點檢測仿真實驗37-45
- §3.4.3 實驗結(jié)果分析45-47
- §3.5 本章小結(jié)47-48
- 第四章 特征參數(shù)的提取48-56
- §4.1 Teager能量算子48
- §4.2 Mel頻率倒譜系數(shù)48-51
- §4.3 Mel頻率倒譜系數(shù)的二次特征提取51-53
- §4.3.1 一階差分Mel頻率倒譜系數(shù)51-53
- §4.3.2 特征參數(shù)降維53
- §4.4 MFCC和短時TEO能量的混合特征參數(shù)53-55
- §4.5 本章小結(jié)55-56
- 第五章 基于GMM-UBM混合特征參數(shù)的說話人識別實驗56-71
- §5.1 GMM在說話人識別中的應(yīng)用56-60
- §5.1.1 GMM的訓(xùn)練57
- §5.1.2 GMM的參數(shù)估計57-60
- §5.2 GMM-UBM在說話人識別中的應(yīng)用60-61
- §5.2.1 UBM在說話人識別中的應(yīng)用60
- §5.2.2 GMM-UBM的實現(xiàn)60-61
- §5.3 實驗結(jié)果與分析61-69
- §5.3.1 實驗環(huán)境介紹61-62
- §5.3.2 實驗結(jié)果62-69
- §5.4 本章小結(jié)69-71
- 第六章 總結(jié)與展望71-73
- §6.1 工作總結(jié)71-72
- §6.2 展望72-73
- 參考文獻73-77
- 致謝77-78
- 攻讀碩士期間發(fā)表的論文78
- 參與的科研項目78
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 石艷;王曉曄;;新穎檢測法在說話人識別技術(shù)中的應(yīng)用[J];現(xiàn)代計算機(專業(yè)版);2008年07期
2 劉雪燕;張娜;袁寶玲;;說話人識別綜述[J];電腦知識與技術(shù);2009年01期
3 邱政權(quán);范小春;王俊年;;基于動態(tài)環(huán)境下的說話人識別[J];科學(xué)技術(shù)與工程;2010年02期
4 單進;;說話人識別技術(shù)研究[J];科技資訊;2010年21期
5 申志生;于明;;說話人識別算法的定點DSP實現(xiàn)[J];單片機與嵌入式系統(tǒng)應(yīng)用;2011年03期
6 謝建勛;;淺談?wù)f話人識別技術(shù)[J];電腦知識與技術(shù);2011年11期
7 安茂波;劉建;;一個快速說話人識別系統(tǒng)的設(shè)計和實現(xiàn)[J];網(wǎng)絡(luò)新媒體技術(shù);2012年03期
8 楊迪;戚銀城;劉明軍;張華芳子;武軍娜;;說話人識別綜述[J];電子科技;2012年06期
9 武光利;;說話人識別方法概述[J];硅谷;2012年19期
10 曹業(yè)敏,侯風(fēng)雷,王炳錫;說話人識別技術(shù)現(xiàn)狀與進展[J];河南科技;1998年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鮑福良;方志剛;徐潔;;說話人識別綜述[A];第六屆全國信息獲取與處理學(xué)術(shù)會議論文集(2)[C];2008年
2 孫帆;遲惠生;;循環(huán)網(wǎng)絡(luò)說話人識別[A];第二屆全國人機語音通訊學(xué)術(shù)會議論文集[C];1992年
3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡(luò)組的文本無關(guān)說話人識別[A];第七屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
4 張玲華;鄭寶玉;楊震;;模糊超橢球聚類算法及其在說話人識別中的應(yīng)用研究[A];第八屆全國人機語音通訊學(xué)術(shù)會議論文集[C];2005年
5 王宏;潘金貴;;基于矩陣正態(tài)分布的文本有關(guān)說話人識別[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
6 戴紅霞;趙力;;文本無關(guān)說話人識別系統(tǒng)的研究[A];2007’促進西部發(fā)展聲學(xué)學(xué)術(shù)交流會論文集[C];2007年
7 陳聯(lián)武;郭武;戴禮榮;;說話人識別系統(tǒng)中多樣訓(xùn)練的應(yīng)用[A];第十一屆全國人機語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
8 崔玉紅;胡光銳;;基于神經(jīng)網(wǎng)絡(luò)特征維數(shù)壓縮方法及其在說話人識別中的應(yīng)用[A];第十屆全國信號處理學(xué)術(shù)年會(CCSP-2001)論文集[C];2001年
9 吳麗麗;;基于仿生模式識別的說話人識別學(xué)習(xí)模型研究[A];第二屆中國科學(xué)院博士后學(xué)術(shù)年會暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會議程序冊[C];2010年
10 張晶;董金明;馮文全;;說話人識別系統(tǒng)研究與實現(xiàn)[A];全國第二屆信號處理與應(yīng)用學(xué)術(shù)會議專刊[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 汪永安;科大訊飛說話人識別技術(shù)世界領(lǐng)先[N];安徽日報;2008年
2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 單振宇;情感說話人識別及其解決方法的研究[D];浙江大學(xué);2010年
2 別凡虎;說話人識別中區(qū)分性問題的研究[D];清華大學(xué);2015年
3 謝怡寧;基于稀疏編碼的魯棒說話人識別方法研究[D];哈爾濱理工大學(xué);2016年
4 陸偉;基于缺失特征的文本無關(guān)說話人識別魯棒性研究[D];中國科學(xué)技術(shù)大學(xué);2008年
5 劉鏑;說話人識別中信息融合算法的研究[D];北京交通大學(xué);2011年
6 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學(xué);2004年
7 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應(yīng)用[D];吉林大學(xué);2007年
8 邱政權(quán);在噪聲環(huán)境下的說話人識別[D];華南理工大學(xué);2007年
9 郭武;復(fù)雜信道下的說話人識別[D];中國科學(xué)技術(shù)大學(xué);2007年
10 錢博;基于漢語元音映射的說話人識別技術(shù)研究[D];南京理工大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 叢菡菡;基于支持相量機的穩(wěn)鍵說話人識別[D];電子科技大學(xué);2008年
2 任舒彬;面向手持應(yīng)用的說話人識別算法研究[D];浙江大學(xué);2006年
3 申志生;文本相關(guān)說話人識別嵌入式系統(tǒng)及其關(guān)鍵技術(shù)研究[D];河北工業(yè)大學(xué);2011年
4 汪q,
本文編號:579332
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/579332.html