基于稀疏表示的魯棒性說話人識別技術研究
本文關鍵詞:基于稀疏表示的魯棒性說話人識別技術研究
更多相關文章: 說話人識別 稀疏表示 魯棒性 全局補償 超向量
【摘要】:經(jīng)過了幾十年的研究發(fā)展,說話人識別技術憑借其快速、簡便的優(yōu)勢,在人機接入領域得到了大家廣泛的關注和研究。匹配模型是說話人識別研究中的關鍵技術,模型性能的優(yōu)劣對識別系統(tǒng)識別率的影響重大。信號的稀疏表示技術近幾年被廣泛應用于說話人識別之中,它與高斯混合模型相結合,顯著提高了識別系統(tǒng)的準確率。目前,說話人識別研究的主要方向是進一步提高系統(tǒng)的魯棒性,具體表現(xiàn)為解決信道失配問題和環(huán)境噪聲問題;另一方面,在智能終端廣泛普及情況下,借助智能終端進行快速準確的身份識別,需要進一步解決系統(tǒng)復雜性問題。本文主要對基于稀疏表示的魯棒性說話人識別技術進行了深入研究,在此基礎上,本文主要工作和創(chuàng)新如下:(1)在訓練基于高斯混合模型均值超向量的稀疏表示字典時,需要大量的訓練語音以達到字典冗余的條件,本文提出使用高斯混合模型均值矩陣代替均值超向量進行字典訓練來解決這個問題,同時,每個說話人即可形成一個冗余字典進行說話人識別,識別時的計算量也得到了降低。(2)對比了樣本字典和學習字典這兩種字典在干凈語音環(huán)境與有噪語音環(huán)境下的性能,發(fā)現(xiàn)學習字典的抗噪能力要弱于樣本字典,并且提出在訓練語音中加入噪聲以減小識別環(huán)境和訓練環(huán)境的差異,從而提高識別率。(3)針對識別時的環(huán)境噪聲問題,提出一種適用于稀疏表示說話人識別的全局補償方法。該方法對不同階特征參數(shù)進行逐一分析,目的是為了找出被噪聲影響最嚴重的一階參數(shù)并去除之,以此增強測試語音與訓練語音之間的相關性,提高了識別系統(tǒng)適應不同噪聲環(huán)境的魯棒性。仿真實驗結果表明本文方法明顯加強了說話人識別系統(tǒng)的抗噪能力,在背景噪聲為白噪聲,信噪比為15dB的情況下,識別率可達到96%,與無噪環(huán)境下的識別率相差無幾。
【關鍵詞】:說話人識別 稀疏表示 魯棒性 全局補償 超向量
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34
【目錄】:
- 摘要4-5
- Abstract5-8
- 縮略詞注釋表8-9
- 第一章 緒論9-16
- 1.1 背景及意義9
- 1.2 說話人識別的研究歷史9-11
- 1.3 說話人識別的研究趨勢11-12
- 1.4 說話人識別研究的挑戰(zhàn)和熱點12-13
- 1.5 說話人識別的應用13-14
- 1.6 論文內容和結構安排14-16
- 第二章 說話人識別理論基礎16-31
- 2.1 說話人識別系統(tǒng)流程16-17
- 2.2 語音預處理17
- 2.3 常用的特征參數(shù)17-22
- 2.3.1 線性預測系數(shù)及線性預測倒譜系數(shù)18-19
- 2.3.2 Mel頻率倒譜系數(shù)19-21
- 2.3.3 差分特征(Delta特征)21-22
- 2.4 常用的識別模型22-29
- 2.4.1 高斯混合模型(GMM)22-26
- 2.4.2 隱馬爾可夫模型HMM26-27
- 2.4.3 矢量量化模型(VQ)27-28
- 2.4.4 支持向量機模型(SVM)28-29
- 2.5 系統(tǒng)性能評價29-30
- 2.6 本章小結30-31
- 第三章 基于稀疏表示與GMM均值矩陣的識別模型研究31-44
- 3.1 稀疏表示31-33
- 3.1.1 稀疏表示基礎理論31-32
- 3.1.2 常用稀疏表示算法32-33
- 3.2 基于稀疏表示的說話人識別33-35
- 3.3 基于稀疏表示與GMM均值矩陣的識別模型35-38
- 3.3.1 說話人識別模型建立35-36
- 3.3.2 識別過程36-38
- 3.4 仿真實驗語音庫和參數(shù)設置38-39
- 3.4.1 語音庫38
- 3.4.2 實驗參數(shù)設置38-39
- 3.5 識別仿真39-42
- 3.5.1 實驗一:稀疏度對識別率的影響39-40
- 3.5.2 實驗二:字典大小對識別率的影響40
- 3.5.3 實驗三:高斯混合度對識別率的影響40-42
- 3.5.4 實驗四:測試語音長度對識別率的影響42
- 3.6 本章小結42-44
- 第四章 稀疏表示字典性能研究44-49
- 4.1 字典分類44-45
- 4.1.1 樣本字典44
- 4.1.2 K-SVD學習字典44-45
- 4.2 字典性能對比45-48
- 4.2.1 無噪環(huán)境下性能對比46
- 4.2.2 有噪環(huán)境下性能對比46-47
- 4.2.3 有噪環(huán)境下識別字典的設計47-48
- 4.3 本章小結48-49
- 第五章 噪聲環(huán)境下基于稀疏表示的說話人識別49-61
- 5.1 基于稀疏表示的全局補償方法50-51
- 5.2 全局補償方法51-54
- 5.2.1 字典訓練51-52
- 5.2.2 識別過程52-54
- 5.3 仿真實驗54-59
- 5.3.1 實驗一:噪聲環(huán)境下不同方法的識別率對比55-57
- 5.3.2 實驗二:添加不同噪聲進行字典訓練效果對比57-58
- 5.3.3 實驗三:稀疏度對識別結果的影響58-59
- 5.3.4 實驗四:多階去除59
- 5.4 本章小結59-61
- 第六章 總結與展望61-63
- 6.1 論文總結61-62
- 6.2 工作展望62-63
- 參考文獻63-68
- 附錄1 攻讀碩士學位期間撰寫的論文68-69
- 附錄2 攻讀碩士學位期間參加的科研項目69-70
- 致謝70
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 石艷;王曉曄;;新穎檢測法在說話人識別技術中的應用[J];現(xiàn)代計算機(專業(yè)版);2008年07期
2 劉雪燕;張娜;袁寶玲;;說話人識別綜述[J];電腦知識與技術;2009年01期
3 邱政權;范小春;王俊年;;基于動態(tài)環(huán)境下的說話人識別[J];科學技術與工程;2010年02期
4 單進;;說話人識別技術研究[J];科技資訊;2010年21期
5 申志生;于明;;說話人識別算法的定點DSP實現(xiàn)[J];單片機與嵌入式系統(tǒng)應用;2011年03期
6 謝建勛;;淺談說話人識別技術[J];電腦知識與技術;2011年11期
7 安茂波;劉建;;一個快速說話人識別系統(tǒng)的設計和實現(xiàn)[J];網(wǎng)絡新媒體技術;2012年03期
8 楊迪;戚銀城;劉明軍;張華芳子;武軍娜;;說話人識別綜述[J];電子科技;2012年06期
9 武光利;;說話人識別方法概述[J];硅谷;2012年19期
10 曹業(yè)敏,侯風雷,王炳錫;說話人識別技術現(xiàn)狀與進展[J];河南科技;1998年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 鮑福良;方志剛;徐潔;;說話人識別綜述[A];第六屆全國信息獲取與處理學術會議論文集(2)[C];2008年
2 孫帆;遲惠生;;循環(huán)網(wǎng)絡說話人識別[A];第二屆全國人機語音通訊學術會議論文集[C];1992年
3 肖劍;歐貴文;;多層前饋神經(jīng)網(wǎng)絡組的文本無關說話人識別[A];第七屆全國人機語音通訊學術會議(NCMMSC7)論文集[C];2003年
4 張玲華;鄭寶玉;楊震;;模糊超橢球聚類算法及其在說話人識別中的應用研究[A];第八屆全國人機語音通訊學術會議論文集[C];2005年
5 王宏;潘金貴;;基于矩陣正態(tài)分布的文本有關說話人識別[A];2007通信理論與技術新發(fā)展——第十二屆全國青年通信學術會議論文集(上冊)[C];2007年
6 戴紅霞;趙力;;文本無關說話人識別系統(tǒng)的研究[A];2007’促進西部發(fā)展聲學學術交流會論文集[C];2007年
7 陳聯(lián)武;郭武;戴禮榮;;說話人識別系統(tǒng)中多樣訓練的應用[A];第十一屆全國人機語音通訊學術會議論文集(一)[C];2011年
8 崔玉紅;胡光銳;;基于神經(jīng)網(wǎng)絡特征維數(shù)壓縮方法及其在說話人識別中的應用[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
9 吳麗麗;;基于仿生模式識別的說話人識別學習模型研究[A];第二屆中國科學院博士后學術年會暨高新技術前沿與發(fā)展學術會議程序冊[C];2010年
10 張晶;董金明;馮文全;;說話人識別系統(tǒng)研究與實現(xiàn)[A];全國第二屆信號處理與應用學術會議專刊[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 汪永安;科大訊飛說話人識別技術世界領先[N];安徽日報;2008年
2 吳長鋒;科大訊飛勇奪說話人識別國際大賽第一[N];科技日報;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 單振宇;情感說話人識別及其解決方法的研究[D];浙江大學;2010年
2 陸偉;基于缺失特征的文本無關說話人識別魯棒性研究[D];中國科學技術大學;2008年
3 劉鏑;說話人識別中信息融合算法的研究[D];北京交通大學;2011年
4 付中華;說話人識別系統(tǒng)魯棒性研究[D];西北工業(yè)大學;2004年
5 林琳;基于模糊聚類與遺傳算法的說話人識別理論研究及應用[D];吉林大學;2007年
6 邱政權;在噪聲環(huán)境下的說話人識別[D];華南理工大學;2007年
7 郭武;復雜信道下的說話人識別[D];中國科學技術大學;2007年
8 錢博;基于漢語元音映射的說話人識別技術研究[D];南京理工大學;2007年
9 姜濤;網(wǎng)絡環(huán)境下說話人識別關鍵技術研究[D];哈爾濱工業(yè)大學;2011年
10 俞一彪;基于互信息理論的說話人識別研究[D];上海大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 叢菡菡;基于支持相量機的穩(wěn)鍵說話人識別[D];電子科技大學;2008年
2 任舒彬;面向手持應用的說話人識別算法研究[D];浙江大學;2006年
3 申志生;文本相關說話人識別嵌入式系統(tǒng)及其關鍵技術研究[D];河北工業(yè)大學;2011年
4 汪q,
本文編號:760423
本文鏈接:http://sikaile.net/kejilunwen/wltx/760423.html