連續(xù)語音識別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究
發(fā)布時間:2017-04-24 19:06
本文關(guān)鍵詞:連續(xù)語音識別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:倒譜特征和最大似然準則是傳統(tǒng)連續(xù)語音識別系統(tǒng)廣泛采用的特征提取和模型訓(xùn)練方法。然而,倒譜及其差分特征所獲取的時間動態(tài)信息有限,且沒有有效地利用模型間的分類混淆信息,使得特征的區(qū)分性不強;基于最大似然準則的模型訓(xùn)練方法沒有考慮模型間的相互影響,通常需要在參數(shù)估計時引入假設(shè)條件,使其較難獲得最佳的聲學(xué)模型。區(qū)分性技術(shù)可以有效地緩解上述問題:區(qū)分性特征提取方法能夠有效利用分類混淆信息進行長時特征的提取,提高特征的區(qū)分性和魯棒性;聲學(xué)模型區(qū)分性訓(xùn)練方法充分地考慮模型間的相互影響,專注于調(diào)整模型之間的決策面,能有效的降低錯誤率。本文主要研究連續(xù)語音識別區(qū)分性特征提取和聲學(xué)模型區(qū)分性訓(xùn)練方法。對于區(qū)分性特征提取,本文從特征空間和模型空間兩方面展開研究,取得了如下三個研究成果:(1)研究了基于特征空間的區(qū)分性特征提取,針對現(xiàn)有方法對分布復(fù)雜的數(shù)據(jù)識別性能不高的問題,提出了一種基于最小分類錯誤準則的線性判別分析方法。首先,采用非參數(shù)核密度估計方法進行數(shù)據(jù)概率分布估計;其次,根據(jù)得到的概率分布,在最小分類錯誤準則下,采用基于梯度下降的線性搜索算法求解判別分析變換矩陣;最后,利用判別分析變換矩陣對相鄰幀梅爾濾波器組輸出拼接的超矢量變換降維,得到時頻特征。實驗結(jié)果表明,新方法提取的時頻特征能有效地提升識別準確率。(2)進一步,針對因數(shù)據(jù)不足而造成較難提取穩(wěn)定長時特征的問題,提出了一種基于群稀疏約束的混合判別分析方法。首先,采用高斯混合模型描述數(shù)據(jù)的分布,在此基礎(chǔ)上利用二次變分的形式進行群稀疏的表示,得到基于群稀疏約束的混合判別分析目標函數(shù);其次,通過定義模糊響應(yīng)矩陣(blurred response matrix),有效地結(jié)合最優(yōu)化得分方法求解判別分析變換矩陣;最后,拼接相鄰幀梅爾濾波器組輸出組成超矢量,采用變換矩陣進行變換降維,提取時頻特征。實驗結(jié)果表明,在數(shù)據(jù)不足和噪聲環(huán)境下,新方法能獲得更高的識別性能。(3)研究了基于模型空間的區(qū)分性特征提取,為了提高基于分幀區(qū)分性特征變換的穩(wěn)定性,將特征變換當成高維信號的稀疏逼近問題,提出了一種基于語音分段和壓縮感知的區(qū)分性特征變換方法。首先,采用狀態(tài)綁定的方法訓(xùn)練得到基于域劃分的線性變換矩陣(Region Dependent Linear Transform, RDLT)和基于最小音素錯誤準則的特征變換矩陣(feature Minimum Phone Error, fMPE),將兩者的特征變換矩陣構(gòu)成過完備的字典,采用強制對齊的方式對語音信號進行分段;然后,以似然度最大化作為目標函數(shù),采用匹配追蹤算法對目標函數(shù)迭代優(yōu)化,自動地確定各語音信號段中的變換矩陣及其系數(shù),并引入相關(guān)度測量,去除相關(guān)的特征基矢量;接著,將得到的變換矩陣作為初值,在似然度目標函數(shù)中加入正則項,利用快速迭代收斂閾值算法進行求解;最后,融合基于幀特征變換后的瓶頸特征(Bottleneck, BN)進行聲學(xué)模型的訓(xùn)練。實驗結(jié)果表明,相比于傳統(tǒng)的RDLT方法,新方法能有效地提升識別率,并且具有更好的抗噪聲性能。對于聲學(xué)模型區(qū)分性訓(xùn)練,本文從訓(xùn)練準則、訓(xùn)練數(shù)據(jù)選取、互補系統(tǒng)構(gòu)造等三個方面展開研究,取得了如下三個研究成果:(4)研究了聲學(xué)模型的區(qū)分性訓(xùn)練準則,提出了一種廣義邊距的區(qū)分性訓(xùn)練準則,將不同的區(qū)分性訓(xùn)練目標函數(shù)統(tǒng)一到一個理論框架下,并設(shè)計了兩種新的區(qū)分性訓(xùn)練目標函數(shù)。通過分析不同區(qū)分性訓(xùn)練目標函數(shù)之間的關(guān)系,以最大互信息(Maximum Mutual Information, MMI)作為分離度量,把不同的區(qū)分性訓(xùn)練目標函數(shù)統(tǒng)一為基于廣義邊距的區(qū)分性訓(xùn)練準則;進一步在該廣義邊距準則下,通過對其權(quán)重函數(shù)進行討論,得到兩種區(qū)分性訓(xùn)練目標函數(shù):利用組合增進因子和候選詞路徑中誤識詞個數(shù),加權(quán)候選路徑,得到軟增進的最大互信息(Soft Boosted MMI, SBMMI)目標函數(shù);利用基于單個候選詞的后驗概率定義每一訓(xùn)練語句的錯誤識別率,采用冪指數(shù)的形式對單個候選詞動態(tài)加權(quán),得到變權(quán)最大互信息(Variable Weighting MMI, VWMMI)目標函數(shù)。實驗結(jié)果表明,SBMMI方法準確率高于軟邊距估計準則和增進的最大互信息方法,VWMMI方法能在SBMMI方法基礎(chǔ)上得到進一步提高。(5)研究了聲學(xué)模型區(qū)分性訓(xùn)練中的數(shù)據(jù)選取方法,為了選取對模型訓(xùn)練有效的數(shù)據(jù),減少語音識別系統(tǒng)的運算量,提出了一種基于動態(tài)加權(quán)的數(shù)據(jù)選取方法。首先,采用后驗概率的beam算法裁剪詞圖,在此基礎(chǔ)上依據(jù)候選詞的后驗概率定義每一候選路徑的錯誤率,基于錯誤率動態(tài)的賦予候選詞不同的權(quán)值;其次,通過統(tǒng)計音素對之間的混淆程度,給易混淆音素對動態(tài)地加以不同的懲罰權(quán)重,計算音素準確率;然后,在估計得到弧段期望準確率分布的基礎(chǔ)上,采用高斯函數(shù)形式對所有競爭弧段的期望音素準確率軟加權(quán);最后,聯(lián)合后驗概率和音素準確率選取數(shù)據(jù)。實驗結(jié)果表明,動態(tài)加權(quán)方法識別準確率優(yōu)于最小音素錯誤準則,同時能減少訓(xùn)練時間。(6)研究了區(qū)分性互補系統(tǒng)的構(gòu)造方法,針對現(xiàn)有互補系統(tǒng)構(gòu)造的理論性不強,互補系統(tǒng)間差異性描述不夠精確的問題,在區(qū)分性訓(xùn)練的框架下,提出了一種基于混淆信息加權(quán)的區(qū)分性互補系統(tǒng)構(gòu)造方法。首先,通過統(tǒng)計音素對的混淆信息,利用混淆信息給音素對加以不同的懲罰權(quán)重,分別以基線系統(tǒng)中的三個最優(yōu)識別結(jié)果作為參考,計算混淆信息加權(quán)后的音素準確率,同時以正確的標注為參考計算標準的音素準確率;其次,通過同時最大化混淆信息加權(quán)后的音素準確率和最小化標準音素準確率,構(gòu)建模型層互補系統(tǒng);最后,通過結(jié)合RDLT特征變換過程構(gòu)造特征層的互補系統(tǒng)。實驗結(jié)果表明,該方法可以增大互補系統(tǒng)間的差異性,與互補最小音素錯誤準則相比,融合模型層互補系統(tǒng)后識別率得到了提高,同時融合特征層和模型層的互補系統(tǒng)識別率能獲得最好的識別性能。
【關(guān)鍵詞】:連續(xù)語音識別 聲學(xué)模型 區(qū)分性訓(xùn)練 線性判別分析 特征變換 正則化方法 域劃分 系統(tǒng)融合
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.3
【目錄】:
- 摘要4-6
- ABSTRACT6-19
- 第一章 緒論19-39
- 1.1 研究背景及意義19-21
- 1.2 語音識別發(fā)展概述21-22
- 1.3 基于統(tǒng)計模型的語音識別系統(tǒng)22-30
- 1.3.1 特征提取23-24
- 1.3.2 聲學(xué)模型24-28
- 1.3.3 語言模型28-29
- 1.3.4 詞格譯碼29-30
- 1.4 區(qū)分性技術(shù)研究現(xiàn)狀分析30-35
- 1.4.1 區(qū)分性特征提取研究現(xiàn)狀分析30-32
- 1.4.2 區(qū)分性模型32
- 1.4.3 聲學(xué)模型區(qū)分性訓(xùn)練研究現(xiàn)狀分析32-35
- 1.5 論文主要工作及組織結(jié)構(gòu)35-39
- 1.5.1 論文主要工作35-36
- 1.5.2 論文組織結(jié)構(gòu)36-39
- 第二章 區(qū)分性技術(shù)基礎(chǔ)39-55
- 2.1 貝葉斯風險39-40
- 2.2 最大似然準則40
- 2.3 傳統(tǒng)的區(qū)分性訓(xùn)練準則40-43
- 2.3.1 最大互信息準則40-41
- 2.3.2 全面風險估計準則41
- 2.3.3 最小音素錯誤準則41-42
- 2.3.4 最小分類錯誤準則42-43
- 2.4 基于邊距的區(qū)分性訓(xùn)練準則43-46
- 2.4.1 最大邊距估計準則43-44
- 2.4.2 軟邊距估計準則44
- 2.4.3 基于強化混淆信息的區(qū)分性訓(xùn)練準則44-45
- 2.4.4 采用微積分形式的區(qū)分性目標函數(shù)統(tǒng)一表示45-46
- 2.5 區(qū)分性特征提取46-52
- 2.5.1 特征空間區(qū)分性特征提取46-50
- 2.5.2 模型空間區(qū)分性特征提取50-52
- 2.6 實驗基線系統(tǒng)及性能評估52-54
- 2.6.1 實驗語料庫簡介52
- 2.6.2 模型單元的選擇與訓(xùn)練52-53
- 2.6.3 基線系統(tǒng)識別性能53-54
- 2.7 本章小結(jié)54-55
- 第三章 基于線性判別分析的特征空間區(qū)分性特征提取55-73
- 3.1 基于線性判別分析區(qū)分性特征提取的原理分析55-56
- 3.2 基于MCE準則的語音識別特征線性判別分析56-61
- 3.2.1 基于MCE準則特征變換的分類損失函數(shù)56-58
- 3.2.2 基于梯度下降法的變換矩陣求解58-60
- 3.2.3 基于MCE準則判別分析的特征參數(shù)提取60-61
- 3.3 基于群稀疏約束的語音識別特征混合判別分析61-65
- 3.3.1 基于二次變分形式的群稀疏線性判別分析61-64
- 3.3.2 群稀疏的混合判別分析64-65
- 3.3.3 基于群稀疏約束判別分析的特征參數(shù)提取65
- 3.4 實驗結(jié)果及分析65-71
- 3.4.1 基于微軟語料庫語音識別結(jié)果65-70
- 3.4.2 基于WSJ語料庫的語音識別結(jié)果70-71
- 3.5 本章小結(jié)71-73
- 第四章 基于語音分段和壓縮感知的模型空間區(qū)分性特征提取73-95
- 4.1 基于語音分段和壓縮感知區(qū)分性特征提取方法的原理分析73-74
- 4.2 基于語音分段區(qū)分性特征變換的一般形式74-76
- 4.2.1 基于變換矩陣字典的特征變換74-75
- 4.2.2 聯(lián)合變換矩陣和偏移矢量的特征變換75-76
- 4.3 不相關(guān)匹配追蹤算法的區(qū)分性特征變換76-80
- 4.3.1 最大似然字典項選取77-78
- 4.3.2 相關(guān)基矢量的去除78-79
- 4.3.3 變換矩陣權(quán)重系數(shù)的更新79
- 4.3.4 不相關(guān)匹配追蹤特征變換的算法流程79-80
- 4.4 基于正則化的區(qū)分性特征變換80-82
- 4.4.1 基于正則化的區(qū)分性特征變換目標函數(shù)80-81
- 4.4.2 則化區(qū)分性特征變換的目標函數(shù)求解81-82
- 4.5 分段區(qū)分性特征變換后的特征融合82-84
- 4.5.1 基于特征提取網(wǎng)絡(luò)的BN特征變換82-83
- 4.5.2 融合區(qū)分性變換后的特征83-84
- 4.6 基于語音分段和壓縮感知的區(qū)分性特征提取方法流程84
- 4.7 實驗結(jié)果及分析84-93
- 4.7.1 基于匹配追蹤特征變換方法的識別性能84-88
- 4.7.2 基于正則化特征變換方法的識別性能88-91
- 4.7.3 基于幀和分段特征變換方法的抗噪聲性能91
- 4.7.4 分段區(qū)分性特征變換與融合的識別性能91-93
- 4.8 本章小結(jié)93-95
- 第五章 廣義邊距區(qū)分性訓(xùn)練準則95-107
- 5.1 廣義邊距區(qū)分性訓(xùn)練準則的原理分析95-96
- 5.2 廣義邊距區(qū)分性訓(xùn)練目標準則96-100
- 5.2.1 基于增進因子和誤識個數(shù)的加權(quán)方法97
- 5.2.2 基于后驗概率的動態(tài)加權(quán)方法97-100
- 5.3 實驗結(jié)果及分析100-105
- 5.3.1 軟邊距ρ和參數(shù)τ值的選取100
- 5.3.2 基于增進因子和誤識個數(shù)加權(quán)方法的識別性能100-101
- 5.3.3 基于后驗概率動態(tài)加權(quán)方法的識別性能101-102
- 5.3.4 廣義邊距區(qū)分性訓(xùn)練準則在TIMIT和WSJ語料庫的識別性能102-104
- 5.3.5 融合動態(tài)加權(quán)前后的識別性能104-105
- 5.4 本章小結(jié)105-107
- 第六章 聲學(xué)模型區(qū)分性訓(xùn)練中的動態(tài)加權(quán)數(shù)據(jù)選取方法107-119
- 6.1 基于動態(tài)加權(quán)的數(shù)據(jù)選取方法原理分析107-108
- 6.2 區(qū)分性訓(xùn)練方法108-109
- 6.2.1 最小音素錯誤準則統(tǒng)計量的計算108
- 6.2.2 增進的最小音素錯誤準則108-109
- 6.3 基于后驗概率的動態(tài)加權(quán)109-110
- 6.3.1 基于語句識別錯誤率的動態(tài)加權(quán)109
- 6.3.2 基于后驗概率的詞圖數(shù)據(jù)選取109-110
- 6.4 基于混淆信息加權(quán)的音素準確率110-112
- 6.5 基于動態(tài)加權(quán)的數(shù)據(jù)選取方法實現(xiàn)流程112-113
- 6.6 實驗結(jié)果及分析113-117
- 6.6.1 基于后驗概率的詞圖選取實驗113-114
- 6.6.2 基于混淆信息加權(quán)的音素準確率計算實驗114-115
- 6.6.3 基于γ_q~(zMPE)動態(tài)加權(quán)的識別實驗115-116
- 6.6.4 聯(lián)合基于后驗概率動態(tài)加權(quán)和混淆信息加權(quán)實驗116-117
- 6.7 本章小結(jié)117-119
- 第七章 基于混淆信息加權(quán)的區(qū)分性互補系統(tǒng)構(gòu)造方法119-131
- 7.1 基于混淆信息加權(quán)的互補系統(tǒng)構(gòu)造方法原理分析119-120
- 7.2 基于混淆信息加權(quán)的互補系統(tǒng)目標函數(shù)120-122
- 7.2.1 互補最小音素錯誤準則120
- 7.2.2 基于混淆信息加權(quán)的互補最小音素錯誤準則120-121
- 7.2.3 互補系統(tǒng)融合的識別率121-122
- 7.3 基于混淆信息加權(quán)的模型層互補系統(tǒng)122-124
- 7.3.1 多最優(yōu)識別結(jié)果權(quán)值的確定122-123
- 7.3.2 互補系統(tǒng)音素準確率計算方法123-124
- 7.4 基于RDLT特征變換的特征層互補系統(tǒng)124-125
- 7.5 基于混淆信息加權(quán)的互補系統(tǒng)構(gòu)造方法流程125
- 7.6 實驗結(jié)果及分析125-129
- 7.6.1 基于微軟語料庫的互補系統(tǒng)識別性能125-129
- 7.6.2 基于WSJ語料庫的互補系統(tǒng)識別性能129
- 7.7 本章小結(jié)129-131
- 第八章 總結(jié)與展望131-135
- 一 論文總結(jié)131-133
- 二 工作展望133-135
- 致謝135-137
- 參考文獻137-155
- 作者簡歷155-156
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 陳斌;張連海;屈丹;李弼程;;一種廣義邊距區(qū)分性訓(xùn)練準則[J];聲學(xué)學(xué)報;2014年01期
2 楊海;張翔;梁春燕;索宏彬;顏永紅;;聯(lián)合因子分析和稀疏表示在穩(wěn)健性說話人確認中的應(yīng)用[J];聲學(xué)學(xué)報;2012年05期
3 顧曉江;趙鶴鳴;呂崗;;模型與特征混合補償法及其在耳語說話人識別中的應(yīng)用[J];聲學(xué)學(xué)報;2012年02期
4 吳婭輝;劉剛;郭軍;;基于模型混淆度的模型組合算法研究[J];自動化學(xué)報;2009年05期
5 鄢志杰;胡郁;王仁華;;一種基于區(qū)分性準則的模型結(jié)構(gòu)優(yōu)化方法[J];中文信息學(xué)報;2008年02期
本文關(guān)鍵詞:連續(xù)語音識別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:324787
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/324787.html
最近更新
教材專著