基于高層信息融合的短語音說話人識別方法研究
本文關鍵詞:基于高層信息融合的短語音說話人識別方法研究
更多相關文章: 篩選高斯分量 韻律特征 二次判決 特征降維 身份矢量
【摘要】:語音信號是人類情感交流和認知分享的重要載體,也是人類最基本和最自然的交流方式。說話人識別是研究如何從語音波紋中提取能表征語者個性化特征的信息,進而利用該個性化信息通過建模方式對語者的身份做出判決的技術。高斯混合模型憑借其出色的性能而被廣泛地應用于說話人識別領域。為了解決測試環(huán)境與訓練環(huán)境失配的問題,主流模型通常會引入一個非目標人模型,非目標說話人模型包括通用背景模型和競爭模型,引入通用背景模型后構成GMM-UBM系統(tǒng)。針對個人GMM與UBM音素空間不匹配的問題,Reynolds提出基于最大后驗概率升級的UBM-MAP-GMM系統(tǒng)。與此同時,隨著基于聲道信息的淺層特征參數(shù)的提取逐漸進入了瓶頸期,學者們將注意力轉向了高層信息融合的新特征,如基于聲門信息的韻律特征。除此之外,針對通道失配等補償技術被不斷地提出,其中JFA和i-vector憑借其夯實的理論基礎而備受青睞,其將低維語音信號映射至高維超矢量空間后進行分析;谏鲜龇治,本論文主要研究以下內(nèi)容:1、針對UBM-MAP-GMM系統(tǒng)中部分高斯分量具有低區(qū)分性甚至拉低系統(tǒng)得分,提出了一種基于篩選高斯分量的確認方法。通常認為GMM中各高斯分量代表空間音素類,而UBM代表普遍的聲學信息類。通過UBM自適應得到的個人GMM中不僅具有語者個性化的信息,也包含了在訓練階段完全不存在的非說話人信息。另外值得考慮的是,用于訓練個人GMM的語音受限于時長和文本內(nèi)容等,導致部分音素類信息不足,進而導致對部分音素類信息的建模出現(xiàn)偏差。體現(xiàn)在自適應后的個人GMM中就是有些高斯分量無法準確地描述語者信息,即具有低區(qū)分性。實驗結果表明,改進后的系統(tǒng)識別性能得到改善。2、針對基于淺層聲道特性的特征參數(shù)對識別性能的提升乏力,提出了一種基于高層信息融合的確認方法,該方法巧妙地將淺層短時特征參數(shù)和高層信息通過二次判決機制融合在了同一框架中。理論上,反映聲道特性的短時特征參數(shù)與反映聲門信息的韻律特征參數(shù)從不同角度刻畫了語者,故具有互補進而提升系統(tǒng)性能的能力。實驗結果表明,結合基頻和共振峰等高層信息的文本依賴的確認系統(tǒng)能有效地降低等錯誤率。3、針對降維后特定主成分中蘊含說話人個性化信息,提出一種基于降維超矢量的說話人確認算法。由最大后驗概率算法得到的個人GMM的高斯超矢量,經(jīng)過特征降維處理后發(fā)現(xiàn)前兩維主成分中蘊含的性別信息明顯,而前特定維主成分中則蘊含的語者個性化信息明顯。基于前者,首先提出一種性別選擇策略和GMM-SUBM架構。基于后者,本文通過實驗確定用于表征測試者身份的最佳維度。實驗結果表明,該方法能通過低復雜度算法提取得到一個身份矢量來表征語者,同時在短語音時系統(tǒng)識別效果得到改善。
【關鍵詞】:篩選高斯分量 韻律特征 二次判決 特征降維 身份矢量
【學位授予單位】:杭州電子科技大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 第1章 緒論11-21
- 1.1 研究背景及意義11
- 1.2 說話人識別概述11-17
- 1.2.1 說話人識別分類12-14
- 1.2.2 說話人確認系統(tǒng)基本原理14-15
- 1.2.3 說話人確認系統(tǒng)評價指標15-17
- 1.3 研究歷程與現(xiàn)狀17-19
- 1.4 本文的主要內(nèi)容及結構安排19-20
- 1.5 本章小結20-21
- 第2章 聲紋識別基礎概述21-38
- 2.1 引言21
- 2.2 聲紋特征概述21-24
- 2.2.1 線性預測倒譜系數(shù)22
- 2.2.2 梅爾頻率倒譜系數(shù)22-24
- 2.2.3 伽馬通濾波倒譜系數(shù)24
- 2.3 規(guī)整算法24-29
- 2.3.1 倒譜均值方差規(guī)整25
- 2.3.2 相關頻譜濾波器25-26
- 2.3.3 特征彎折26-27
- 2.3.4 基于聲門信息剝離的特征規(guī)整27-29
- 2.4 聲紋識別中常用技術介紹29-33
- 2.4.1 最大期望迭代算法29-31
- 2.4.2 聯(lián)合因子算法31
- 2.4.3 主成分分析算法31-32
- 2.4.4 動態(tài)時間規(guī)劃算法32-33
- 2.5 高斯混合模型及其參數(shù)估計33-37
- 2.5.1 高斯混合模型基本概念及其物理意義33-36
- 2.5.2 基于高斯混合模型的確認系統(tǒng)36-37
- 2.6 本章小結37-38
- 第3章 基于篩選高斯分量的說話人確認方法38-52
- 3.1 引言38-39
- 3.2 基于自適應模型的確認算法39-44
- 3.2.1 自適應模型基本原理39-41
- 3.2.2 自適應模型參數(shù)更新41-44
- 3.3 基于篩選高斯分量的確認算法44-48
- 3.3.1 高斯分量區(qū)分性能分析44-45
- 3.3.2 基于挑選機制的確認算法45-47
- 3.3.3 算法流程47-48
- 3.4 仿真實驗與數(shù)據(jù)分析48-51
- 3.4.1 實驗數(shù)據(jù)庫介紹48-49
- 3.4.2 實驗仿真結果與分析49-51
- 3.5 本章小結51-52
- 第4章 基于高層信息融合的短語音確認方法52-63
- 4.1 引言52-53
- 4.2 韻律特征53-55
- 4.2.1 基音頻率53-54
- 4.2.2 共振峰54-55
- 4.3 基于高層信息融合的短語音確認方法55-57
- 4.4 實驗仿真與性能分析57-62
- 4.4.1 實驗數(shù)據(jù)庫介紹57
- 4.4.2 實驗仿真結果與分析57-62
- 4.5 文章小結62-63
- 第5章 基于超矢量降維的說話人確認方法63-73
- 5.1 引言63-64
- 5.2 基于分類與降維的確認算法64-67
- 5.2.1 基于分類的確認方法65-66
- 5.2.2 基于降維的確認方法66-67
- 5.3 仿真實驗與結果分析67-72
- 5.3.1 實驗數(shù)據(jù)庫介紹67-68
- 5.3.2 實驗仿真結果與分析68-72
- 5.4 小結72-73
- 第6章 總結73-74
- 致謝74-75
- 參考文獻75-79
- 附錄79
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 石艷;王曉曄;;新穎檢測法在說話人識別技術中的應用[J];現(xiàn)代計算機(專業(yè)版);2008年07期
2 劉雪燕;張娜;袁寶玲;;說話人識別綜述[J];電腦知識與技術;2009年01期
3 邱政權;范小春;王俊年;;基于動態(tài)環(huán)境下的說話人識別[J];科學技術與工程;2010年02期
4 單進;;說話人識別技術研究[J];科技資訊;2010年21期
5 申志生;于明;;說話人識別算法的定點DSP實現(xiàn)[J];單片機與嵌入式系統(tǒng)應用;2011年03期
6 謝建勛;;淺談說話人識別技術[J];電腦知識與技術;2011年11期
7 安茂波;劉建;;一個快速說話人識別系統(tǒng)的設計和實現(xiàn)[J];網(wǎng)絡新媒體技術;2012年03期
8 楊迪;戚銀城;劉明軍;張華芳子;武軍娜;;說話人識別綜述[J];電子科技;2012年06期
9 武光利;;說話人識別方法概述[J];硅谷;2012年19期
10 曹業(yè)敏,侯風雷,王炳錫;說話人識別技術現(xiàn)狀與進展[J];河南科技;1998年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鮑福良;方志剛;徐潔;;說話人識別綜述[A];第六屆全國信息獲取與處理學術會議論文集(2)[C];2008年
2 孫帆;遲惠生;;循環(huán)網(wǎng)絡說話人識別[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡組的文本無關說話人識別[A];第七屆全國人機語音通訊學術會議(NCMMSC7)論文集[C];2003年
4 張玲華;鄭寶玉;楊震;;模糊超橢球聚類算法及其在說話人識別中的應用研究[A];第八屆全國人機語音通訊學術會議論文集[C];2005年
5 王宏;潘金貴;;基于矩陣正態(tài)分布的文本有關說話人識別[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
6 戴紅霞;趙力;;文本無關說話人識別系統(tǒng)的研究[A];2007’促進西部發(fā)展聲學學術交流會論文集[C];2007年
7 陳聯(lián)武;郭武;戴禮榮;;說話人識別系統(tǒng)中多樣訓練的應用[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年
8 崔玉紅;胡光銳;;基于神經(jīng)網(wǎng)絡特征維數(shù)壓縮方法及其在說話人識別中的應用[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
9 吳麗麗;;基于仿生模式識別的說話人識別學習模型研究[A];第二屆中國科學院博士后學術年會暨高新技術前沿與發(fā)展學術會議程序冊[C];2010年
10 張晶;董金明;馮文全;;說話人識別系統(tǒng)研究與實現(xiàn)[A];全國第二屆信號處理與應用學術會議專刊[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 汪永安;科大訊飛說話人識別技術世界領先[N];安徽日報;2008年
2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 單振宇;情感說話人識別及其解決方法的研究[D];浙江大學;2010年
2 別凡虎;說話人識別中區(qū)分性問題的研究[D];清華大學;2015年
3 謝怡寧;基于稀疏編碼的魯棒說話人識別方法研究[D];哈爾濱理工大學;2016年
4 安冬;噪聲背景下說話人識別的若干關鍵問題研究[D];東北大學;2013年
5 吳迪;低信噪比環(huán)境下說話人識別研究[D];蘇州大學;2016年
6 酆勇;基于深度學習的說話人識別建模研究[D];重慶大學;2016年
7 陸偉;基于缺失特征的文本無關說話人識別魯棒性研究[D];中國科學技術大學;2008年
8 劉鏑;說話人識別中信息融合算法的研究[D];北京交通大學;2011年
9 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學;2004年
10 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應用[D];吉林大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 叢菡菡;基于支持相量機的穩(wěn)鍵說話人識別[D];電子科技大學;2008年
2 任舒彬;面向手持應用的說話人識別算法研究[D];浙江大學;2006年
3 申志生;文本相關說話人識別嵌入式系統(tǒng)及其關鍵技術研究[D];河北工業(yè)大學;2011年
4 汪q,
本文編號:798542
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/798542.html