基于矢量量化(VQ)的說話人識別的研究
發(fā)布時間:2017-10-16 21:40
本文關鍵詞:基于矢量量化(VQ)的說話人識別的研究
更多相關文章: 說話人識別 語音增強 端點檢測 MFCC 基音周期 矢量量化模型
【摘要】:說話人識別技術是語音識別領域的一項重要研究內(nèi)容,它能夠根據(jù)提取的有效反映人個性特征的參數(shù)進行身份識別。說話人識別的過程為:語音信號的預處理、語音信號的特征提取、說話人模型的建立與模型匹配、判決。本文主要研究了說話人識別過程中的以下幾個方面:(1)在語音增強方面,首先針對噪聲對說話人識別系統(tǒng)性能影響的問題,著重介紹了基于負熵的FastICA方法,本文還將該方法與短時譜幅度的MMSE方法結合起來,用于前端語音增強,實驗結果表明,語音增強效果明顯。(2)在端點檢測方面,首先研究了傳統(tǒng)雙門限端點檢測和基于倒譜距離的端點檢測方法,并在此基礎上研究了一種改進的倒譜距離端點檢測算法,對比實驗表明,其檢測效果更佳。(3)在特征提取方面,本文中將語音信號的倒譜特征和基音周期結合的組合特征參數(shù)作為說話人識別的特征參數(shù)。但是,對這些特征參數(shù)直接進行疊加,會增加系統(tǒng)負擔,從而訓練和識別的時間大大增加,所以本文利用Fisher準則進行特征維數(shù)的選擇,分別計算出這些特征參數(shù)每一維特征對應的Fisher準則比,然后分別選出每個特征參數(shù)Fisher準則比最大的幾組進行特征組合,找出識別效果最好的一組特征參數(shù),用于最終的說話人識別。實驗結果表明:經(jīng)過選擇的組合特征,能夠去除冗余,進一步提高識別效果。(4)在說話人識別模型方面,本文對矢量量化模型進行深入的研究。傳統(tǒng)LBG算法在矢量量化的碼本生成過程中,會出現(xiàn)對野值、脈沖噪聲和椒鹽噪聲比較敏感的問題,且該算法用均值代替整個胞腔,使得胞腔之間界限變得模糊。針對這些問題,本文選擇離質(zhì)心最近的真實點代替整個胞腔,實驗證明,該方法能有效的解決上述問題。
【關鍵詞】:說話人識別 語音增強 端點檢測 MFCC 基音周期 矢量量化模型
【學位授予單位】:南京理工大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TN912.34
【目錄】:
- 摘要3-4
- Abstract4-9
- 1 緒論9-15
- 1.1 說話人識別的研究背景與意義9-10
- 1.2 說話人識別的國內(nèi)外研究現(xiàn)狀10-11
- 1.3 說話人識別的研究難點及熱點11-12
- 1.4 本文的主要工作12-13
- 1.5 本文的組織結構13-15
- 2 說話人識別概述15-23
- 2.1 語音的發(fā)聲機理及產(chǎn)生模型15-17
- 2.1.1 激勵模型15-16
- 2.1.2 聲道模型16-17
- 2.1.3 輻射模型17
- 2.2 說話人識別的概念與分類17-18
- 2.3 說話人識別基本原理及其系統(tǒng)結構18-19
- 2.4 說話人識別模型19-20
- 2.5 說話人識別系統(tǒng)性能的評價指標20-21
- 2.6 語音文件格式21-22
- 2.7 本章總結22-23
- 3 語音信號的預處理23-42
- 3.1 預加重23
- 3.2 語音信號的分幀及加窗23-25
- 3.3 語音信號的去噪25-31
- 3.3.1 噪聲的來源及分類25-26
- 3.3.2 傳統(tǒng)語音增強算法26-31
- 3.4 本文去噪方法31-35
- 3.4.1 ICA基本原理31-32
- 3.4.2 基于負熵的FastICA32-33
- 3.4.3 本文去噪方法及實驗33-35
- 3.5 端點檢測35-41
- 3.5.1 傳統(tǒng)的雙門限端點檢測35-36
- 3.5.2 基于倒譜距離的端點檢測36-37
- 3.5.3 本文的端點檢測方法37-40
- 3.5.4 改進的倒譜距離端點檢測方法與傳統(tǒng)端點檢測算法效果對比40-41
- 3.6 本章小結41-42
- 4 語音信號的特征分析42-58
- 4.1 語音信號的時域分析42-46
- 4.1.1 短時能量分析42-43
- 4.1.2 短時平均過零率分析43-44
- 4.1.3 短時自相關函數(shù)分析44-46
- 4.2 語音信號的倒譜與復倒譜分析46-55
- 4.2.1 線性預測參數(shù)46-51
- 4.2.2 MEL倒譜系數(shù)(MFCC)51-53
- 4.2.3 差分特征參數(shù)53-54
- 4.2.4 聲門信息融合54-55
- 4.3 基于FISHER準則的特征選擇55-57
- 4.3.1 基于Fisher準則的混合特征參數(shù)的提取56-57
- 4.4 本章小結57-58
- 5 矢量量化(VQ)模型58-64
- 5.1 矢量量化(VQ)概述58-59
- 5.2 矢量量化的定義59-60
- 5.3 矢量量化的失真測度60
- 5.4 最佳矢量量化器的設計60-63
- 5.4.1 LBG算法61-62
- 5.4.2 改進LBG算法62
- 5.4.3 初始碼本生成62-63
- 5.5 本章小結63-64
- 6 系統(tǒng)實現(xiàn)及實驗結果64-74
- 6.1 系統(tǒng)框架及實現(xiàn)平臺64-66
- 6.2 語音庫介紹66
- 6.3 基于VQ的說話人識別實驗結果66-73
- 6.3.1 特征矢量維數(shù)對識別結果的影響66-67
- 6.3.2 碼本尺寸對識別結果的影響67-68
- 6.3.3 測試語音長度對識別結果的影響68
- 6.3.4 端點檢測對識別結果的影響68-69
- 6.3.5 特征參數(shù)類型對識別結果的影響69-71
- 6.3.6 語音增強對識別結果的影響71-72
- 6.3.7 改進LBG算法對識別結果的影響72-73
- 6.4 本章小結73-74
- 7 總結及展望74-75
- 致謝75-76
- 參考文獻76-80
- 附錄80
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 丁佩律,張立明;結合主分量分析及Fisher準則的說話人識別方法研究[J];電路與系統(tǒng)學報;2002年01期
2 鄧浩江,杜利民,萬洪杰;似然得分歸一化及其在與文本無關說話人確認中的應用[J];電子與信息學報;2005年07期
3 張蕓;李昕;鄭宇;楊慶濤;;一種基于Fisher準則的說話人識別方法研究[J];蘭州大學學報(自然科學版);2007年02期
4 楊毅;陳國順;鮑長春;;基于聲學融合特征的說話人分類方法研究[J];計算機工程;2013年08期
5 崔兆國;周萍;;基于TEO能量譜減法的語音增強技術的研究[J];計算機應用與軟件;2014年01期
6 尉洪,周浩,楊鑒;基于矢量量化的組合參數(shù)法說話人識別[J];云南大學學報(自然科學版);2002年02期
7 張君昌;胡海濤;崔力;;融合Burg譜估計與信號變化率測度的語音端點檢測[J];西安電子科技大學學報;2014年03期
,本文編號:1045091
本文鏈接:http://sikaile.net/kejilunwen/wltx/1045091.html
最近更新
教材專著