天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

連續(xù)語(yǔ)音識(shí)別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究

發(fā)布時(shí)間:2017-04-24 19:06

  本文關(guān)鍵詞:連續(xù)語(yǔ)音識(shí)別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究,由筆耕文化傳播整理發(fā)布。


【摘要】:倒譜特征和最大似然準(zhǔn)則是傳統(tǒng)連續(xù)語(yǔ)音識(shí)別系統(tǒng)廣泛采用的特征提取和模型訓(xùn)練方法。然而,倒譜及其差分特征所獲取的時(shí)間動(dòng)態(tài)信息有限,且沒有有效地利用模型間的分類混淆信息,使得特征的區(qū)分性不強(qiáng);基于最大似然準(zhǔn)則的模型訓(xùn)練方法沒有考慮模型間的相互影響,通常需要在參數(shù)估計(jì)時(shí)引入假設(shè)條件,使其較難獲得最佳的聲學(xué)模型。區(qū)分性技術(shù)可以有效地緩解上述問題:區(qū)分性特征提取方法能夠有效利用分類混淆信息進(jìn)行長(zhǎng)時(shí)特征的提取,提高特征的區(qū)分性和魯棒性;聲學(xué)模型區(qū)分性訓(xùn)練方法充分地考慮模型間的相互影響,專注于調(diào)整模型之間的決策面,能有效的降低錯(cuò)誤率。本文主要研究連續(xù)語(yǔ)音識(shí)別區(qū)分性特征提取和聲學(xué)模型區(qū)分性訓(xùn)練方法。對(duì)于區(qū)分性特征提取,本文從特征空間和模型空間兩方面展開研究,取得了如下三個(gè)研究成果:(1)研究了基于特征空間的區(qū)分性特征提取,針對(duì)現(xiàn)有方法對(duì)分布復(fù)雜的數(shù)據(jù)識(shí)別性能不高的問題,提出了一種基于最小分類錯(cuò)誤準(zhǔn)則的線性判別分析方法。首先,采用非參數(shù)核密度估計(jì)方法進(jìn)行數(shù)據(jù)概率分布估計(jì);其次,根據(jù)得到的概率分布,在最小分類錯(cuò)誤準(zhǔn)則下,采用基于梯度下降的線性搜索算法求解判別分析變換矩陣;最后,利用判別分析變換矩陣對(duì)相鄰幀梅爾濾波器組輸出拼接的超矢量變換降維,得到時(shí)頻特征。實(shí)驗(yàn)結(jié)果表明,新方法提取的時(shí)頻特征能有效地提升識(shí)別準(zhǔn)確率。(2)進(jìn)一步,針對(duì)因數(shù)據(jù)不足而造成較難提取穩(wěn)定長(zhǎng)時(shí)特征的問題,提出了一種基于群稀疏約束的混合判別分析方法。首先,采用高斯混合模型描述數(shù)據(jù)的分布,在此基礎(chǔ)上利用二次變分的形式進(jìn)行群稀疏的表示,得到基于群稀疏約束的混合判別分析目標(biāo)函數(shù);其次,通過定義模糊響應(yīng)矩陣(blurred response matrix),有效地結(jié)合最優(yōu)化得分方法求解判別分析變換矩陣;最后,拼接相鄰幀梅爾濾波器組輸出組成超矢量,采用變換矩陣進(jìn)行變換降維,提取時(shí)頻特征。實(shí)驗(yàn)結(jié)果表明,在數(shù)據(jù)不足和噪聲環(huán)境下,新方法能獲得更高的識(shí)別性能。(3)研究了基于模型空間的區(qū)分性特征提取,為了提高基于分幀區(qū)分性特征變換的穩(wěn)定性,將特征變換當(dāng)成高維信號(hào)的稀疏逼近問題,提出了一種基于語(yǔ)音分段和壓縮感知的區(qū)分性特征變換方法。首先,采用狀態(tài)綁定的方法訓(xùn)練得到基于域劃分的線性變換矩陣(Region Dependent Linear Transform, RDLT)和基于最小音素錯(cuò)誤準(zhǔn)則的特征變換矩陣(feature Minimum Phone Error, fMPE),將兩者的特征變換矩陣構(gòu)成過完備的字典,采用強(qiáng)制對(duì)齊的方式對(duì)語(yǔ)音信號(hào)進(jìn)行分段;然后,以似然度最大化作為目標(biāo)函數(shù),采用匹配追蹤算法對(duì)目標(biāo)函數(shù)迭代優(yōu)化,自動(dòng)地確定各語(yǔ)音信號(hào)段中的變換矩陣及其系數(shù),并引入相關(guān)度測(cè)量,去除相關(guān)的特征基矢量;接著,將得到的變換矩陣作為初值,在似然度目標(biāo)函數(shù)中加入正則項(xiàng),利用快速迭代收斂閾值算法進(jìn)行求解;最后,融合基于幀特征變換后的瓶頸特征(Bottleneck, BN)進(jìn)行聲學(xué)模型的訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的RDLT方法,新方法能有效地提升識(shí)別率,并且具有更好的抗噪聲性能。對(duì)于聲學(xué)模型區(qū)分性訓(xùn)練,本文從訓(xùn)練準(zhǔn)則、訓(xùn)練數(shù)據(jù)選取、互補(bǔ)系統(tǒng)構(gòu)造等三個(gè)方面展開研究,取得了如下三個(gè)研究成果:(4)研究了聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則,提出了一種廣義邊距的區(qū)分性訓(xùn)練準(zhǔn)則,將不同的區(qū)分性訓(xùn)練目標(biāo)函數(shù)統(tǒng)一到一個(gè)理論框架下,并設(shè)計(jì)了兩種新的區(qū)分性訓(xùn)練目標(biāo)函數(shù)。通過分析不同區(qū)分性訓(xùn)練目標(biāo)函數(shù)之間的關(guān)系,以最大互信息(Maximum Mutual Information, MMI)作為分離度量,把不同的區(qū)分性訓(xùn)練目標(biāo)函數(shù)統(tǒng)一為基于廣義邊距的區(qū)分性訓(xùn)練準(zhǔn)則;進(jìn)一步在該廣義邊距準(zhǔn)則下,通過對(duì)其權(quán)重函數(shù)進(jìn)行討論,得到兩種區(qū)分性訓(xùn)練目標(biāo)函數(shù):利用組合增進(jìn)因子和候選詞路徑中誤識(shí)詞個(gè)數(shù),加權(quán)候選路徑,得到軟增進(jìn)的最大互信息(Soft Boosted MMI, SBMMI)目標(biāo)函數(shù);利用基于單個(gè)候選詞的后驗(yàn)概率定義每一訓(xùn)練語(yǔ)句的錯(cuò)誤識(shí)別率,采用冪指數(shù)的形式對(duì)單個(gè)候選詞動(dòng)態(tài)加權(quán),得到變權(quán)最大互信息(Variable Weighting MMI, VWMMI)目標(biāo)函數(shù)。實(shí)驗(yàn)結(jié)果表明,SBMMI方法準(zhǔn)確率高于軟邊距估計(jì)準(zhǔn)則和增進(jìn)的最大互信息方法,VWMMI方法能在SBMMI方法基礎(chǔ)上得到進(jìn)一步提高。(5)研究了聲學(xué)模型區(qū)分性訓(xùn)練中的數(shù)據(jù)選取方法,為了選取對(duì)模型訓(xùn)練有效的數(shù)據(jù),減少語(yǔ)音識(shí)別系統(tǒng)的運(yùn)算量,提出了一種基于動(dòng)態(tài)加權(quán)的數(shù)據(jù)選取方法。首先,采用后驗(yàn)概率的beam算法裁剪詞圖,在此基礎(chǔ)上依據(jù)候選詞的后驗(yàn)概率定義每一候選路徑的錯(cuò)誤率,基于錯(cuò)誤率動(dòng)態(tài)的賦予候選詞不同的權(quán)值;其次,通過統(tǒng)計(jì)音素對(duì)之間的混淆程度,給易混淆音素對(duì)動(dòng)態(tài)地加以不同的懲罰權(quán)重,計(jì)算音素準(zhǔn)確率;然后,在估計(jì)得到弧段期望準(zhǔn)確率分布的基礎(chǔ)上,采用高斯函數(shù)形式對(duì)所有競(jìng)爭(zhēng)弧段的期望音素準(zhǔn)確率軟加權(quán);最后,聯(lián)合后驗(yàn)概率和音素準(zhǔn)確率選取數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,動(dòng)態(tài)加權(quán)方法識(shí)別準(zhǔn)確率優(yōu)于最小音素錯(cuò)誤準(zhǔn)則,同時(shí)能減少訓(xùn)練時(shí)間。(6)研究了區(qū)分性互補(bǔ)系統(tǒng)的構(gòu)造方法,針對(duì)現(xiàn)有互補(bǔ)系統(tǒng)構(gòu)造的理論性不強(qiáng),互補(bǔ)系統(tǒng)間差異性描述不夠精確的問題,在區(qū)分性訓(xùn)練的框架下,提出了一種基于混淆信息加權(quán)的區(qū)分性互補(bǔ)系統(tǒng)構(gòu)造方法。首先,通過統(tǒng)計(jì)音素對(duì)的混淆信息,利用混淆信息給音素對(duì)加以不同的懲罰權(quán)重,分別以基線系統(tǒng)中的三個(gè)最優(yōu)識(shí)別結(jié)果作為參考,計(jì)算混淆信息加權(quán)后的音素準(zhǔn)確率,同時(shí)以正確的標(biāo)注為參考計(jì)算標(biāo)準(zhǔn)的音素準(zhǔn)確率;其次,通過同時(shí)最大化混淆信息加權(quán)后的音素準(zhǔn)確率和最小化標(biāo)準(zhǔn)音素準(zhǔn)確率,構(gòu)建模型層互補(bǔ)系統(tǒng);最后,通過結(jié)合RDLT特征變換過程構(gòu)造特征層的互補(bǔ)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該方法可以增大互補(bǔ)系統(tǒng)間的差異性,與互補(bǔ)最小音素錯(cuò)誤準(zhǔn)則相比,融合模型層互補(bǔ)系統(tǒng)后識(shí)別率得到了提高,同時(shí)融合特征層和模型層的互補(bǔ)系統(tǒng)識(shí)別率能獲得最好的識(shí)別性能。
【關(guān)鍵詞】:連續(xù)語(yǔ)音識(shí)別 聲學(xué)模型 區(qū)分性訓(xùn)練 線性判別分析 特征變換 正則化方法 域劃分 系統(tǒng)融合
【學(xué)位授予單位】:解放軍信息工程大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TN912.3
【目錄】:
  • 摘要4-6
  • ABSTRACT6-19
  • 第一章 緒論19-39
  • 1.1 研究背景及意義19-21
  • 1.2 語(yǔ)音識(shí)別發(fā)展概述21-22
  • 1.3 基于統(tǒng)計(jì)模型的語(yǔ)音識(shí)別系統(tǒng)22-30
  • 1.3.1 特征提取23-24
  • 1.3.2 聲學(xué)模型24-28
  • 1.3.3 語(yǔ)言模型28-29
  • 1.3.4 詞格譯碼29-30
  • 1.4 區(qū)分性技術(shù)研究現(xiàn)狀分析30-35
  • 1.4.1 區(qū)分性特征提取研究現(xiàn)狀分析30-32
  • 1.4.2 區(qū)分性模型32
  • 1.4.3 聲學(xué)模型區(qū)分性訓(xùn)練研究現(xiàn)狀分析32-35
  • 1.5 論文主要工作及組織結(jié)構(gòu)35-39
  • 1.5.1 論文主要工作35-36
  • 1.5.2 論文組織結(jié)構(gòu)36-39
  • 第二章 區(qū)分性技術(shù)基礎(chǔ)39-55
  • 2.1 貝葉斯風(fēng)險(xiǎn)39-40
  • 2.2 最大似然準(zhǔn)則40
  • 2.3 傳統(tǒng)的區(qū)分性訓(xùn)練準(zhǔn)則40-43
  • 2.3.1 最大互信息準(zhǔn)則40-41
  • 2.3.2 全面風(fēng)險(xiǎn)估計(jì)準(zhǔn)則41
  • 2.3.3 最小音素錯(cuò)誤準(zhǔn)則41-42
  • 2.3.4 最小分類錯(cuò)誤準(zhǔn)則42-43
  • 2.4 基于邊距的區(qū)分性訓(xùn)練準(zhǔn)則43-46
  • 2.4.1 最大邊距估計(jì)準(zhǔn)則43-44
  • 2.4.2 軟邊距估計(jì)準(zhǔn)則44
  • 2.4.3 基于強(qiáng)化混淆信息的區(qū)分性訓(xùn)練準(zhǔn)則44-45
  • 2.4.4 采用微積分形式的區(qū)分性目標(biāo)函數(shù)統(tǒng)一表示45-46
  • 2.5 區(qū)分性特征提取46-52
  • 2.5.1 特征空間區(qū)分性特征提取46-50
  • 2.5.2 模型空間區(qū)分性特征提取50-52
  • 2.6 實(shí)驗(yàn)基線系統(tǒng)及性能評(píng)估52-54
  • 2.6.1 實(shí)驗(yàn)語(yǔ)料庫(kù)簡(jiǎn)介52
  • 2.6.2 模型單元的選擇與訓(xùn)練52-53
  • 2.6.3 基線系統(tǒng)識(shí)別性能53-54
  • 2.7 本章小結(jié)54-55
  • 第三章 基于線性判別分析的特征空間區(qū)分性特征提取55-73
  • 3.1 基于線性判別分析區(qū)分性特征提取的原理分析55-56
  • 3.2 基于MCE準(zhǔn)則的語(yǔ)音識(shí)別特征線性判別分析56-61
  • 3.2.1 基于MCE準(zhǔn)則特征變換的分類損失函數(shù)56-58
  • 3.2.2 基于梯度下降法的變換矩陣求解58-60
  • 3.2.3 基于MCE準(zhǔn)則判別分析的特征參數(shù)提取60-61
  • 3.3 基于群稀疏約束的語(yǔ)音識(shí)別特征混合判別分析61-65
  • 3.3.1 基于二次變分形式的群稀疏線性判別分析61-64
  • 3.3.2 群稀疏的混合判別分析64-65
  • 3.3.3 基于群稀疏約束判別分析的特征參數(shù)提取65
  • 3.4 實(shí)驗(yàn)結(jié)果及分析65-71
  • 3.4.1 基于微軟語(yǔ)料庫(kù)語(yǔ)音識(shí)別結(jié)果65-70
  • 3.4.2 基于WSJ語(yǔ)料庫(kù)的語(yǔ)音識(shí)別結(jié)果70-71
  • 3.5 本章小結(jié)71-73
  • 第四章 基于語(yǔ)音分段和壓縮感知的模型空間區(qū)分性特征提取73-95
  • 4.1 基于語(yǔ)音分段和壓縮感知區(qū)分性特征提取方法的原理分析73-74
  • 4.2 基于語(yǔ)音分段區(qū)分性特征變換的一般形式74-76
  • 4.2.1 基于變換矩陣字典的特征變換74-75
  • 4.2.2 聯(lián)合變換矩陣和偏移矢量的特征變換75-76
  • 4.3 不相關(guān)匹配追蹤算法的區(qū)分性特征變換76-80
  • 4.3.1 最大似然字典項(xiàng)選取77-78
  • 4.3.2 相關(guān)基矢量的去除78-79
  • 4.3.3 變換矩陣權(quán)重系數(shù)的更新79
  • 4.3.4 不相關(guān)匹配追蹤特征變換的算法流程79-80
  • 4.4 基于正則化的區(qū)分性特征變換80-82
  • 4.4.1 基于正則化的區(qū)分性特征變換目標(biāo)函數(shù)80-81
  • 4.4.2 則化區(qū)分性特征變換的目標(biāo)函數(shù)求解81-82
  • 4.5 分段區(qū)分性特征變換后的特征融合82-84
  • 4.5.1 基于特征提取網(wǎng)絡(luò)的BN特征變換82-83
  • 4.5.2 融合區(qū)分性變換后的特征83-84
  • 4.6 基于語(yǔ)音分段和壓縮感知的區(qū)分性特征提取方法流程84
  • 4.7 實(shí)驗(yàn)結(jié)果及分析84-93
  • 4.7.1 基于匹配追蹤特征變換方法的識(shí)別性能84-88
  • 4.7.2 基于正則化特征變換方法的識(shí)別性能88-91
  • 4.7.3 基于幀和分段特征變換方法的抗噪聲性能91
  • 4.7.4 分段區(qū)分性特征變換與融合的識(shí)別性能91-93
  • 4.8 本章小結(jié)93-95
  • 第五章 廣義邊距區(qū)分性訓(xùn)練準(zhǔn)則95-107
  • 5.1 廣義邊距區(qū)分性訓(xùn)練準(zhǔn)則的原理分析95-96
  • 5.2 廣義邊距區(qū)分性訓(xùn)練目標(biāo)準(zhǔn)則96-100
  • 5.2.1 基于增進(jìn)因子和誤識(shí)個(gè)數(shù)的加權(quán)方法97
  • 5.2.2 基于后驗(yàn)概率的動(dòng)態(tài)加權(quán)方法97-100
  • 5.3 實(shí)驗(yàn)結(jié)果及分析100-105
  • 5.3.1 軟邊距ρ和參數(shù)τ值的選取100
  • 5.3.2 基于增進(jìn)因子和誤識(shí)個(gè)數(shù)加權(quán)方法的識(shí)別性能100-101
  • 5.3.3 基于后驗(yàn)概率動(dòng)態(tài)加權(quán)方法的識(shí)別性能101-102
  • 5.3.4 廣義邊距區(qū)分性訓(xùn)練準(zhǔn)則在TIMIT和WSJ語(yǔ)料庫(kù)的識(shí)別性能102-104
  • 5.3.5 融合動(dòng)態(tài)加權(quán)前后的識(shí)別性能104-105
  • 5.4 本章小結(jié)105-107
  • 第六章 聲學(xué)模型區(qū)分性訓(xùn)練中的動(dòng)態(tài)加權(quán)數(shù)據(jù)選取方法107-119
  • 6.1 基于動(dòng)態(tài)加權(quán)的數(shù)據(jù)選取方法原理分析107-108
  • 6.2 區(qū)分性訓(xùn)練方法108-109
  • 6.2.1 最小音素錯(cuò)誤準(zhǔn)則統(tǒng)計(jì)量的計(jì)算108
  • 6.2.2 增進(jìn)的最小音素錯(cuò)誤準(zhǔn)則108-109
  • 6.3 基于后驗(yàn)概率的動(dòng)態(tài)加權(quán)109-110
  • 6.3.1 基于語(yǔ)句識(shí)別錯(cuò)誤率的動(dòng)態(tài)加權(quán)109
  • 6.3.2 基于后驗(yàn)概率的詞圖數(shù)據(jù)選取109-110
  • 6.4 基于混淆信息加權(quán)的音素準(zhǔn)確率110-112
  • 6.5 基于動(dòng)態(tài)加權(quán)的數(shù)據(jù)選取方法實(shí)現(xiàn)流程112-113
  • 6.6 實(shí)驗(yàn)結(jié)果及分析113-117
  • 6.6.1 基于后驗(yàn)概率的詞圖選取實(shí)驗(yàn)113-114
  • 6.6.2 基于混淆信息加權(quán)的音素準(zhǔn)確率計(jì)算實(shí)驗(yàn)114-115
  • 6.6.3 基于γ_q~(zMPE)動(dòng)態(tài)加權(quán)的識(shí)別實(shí)驗(yàn)115-116
  • 6.6.4 聯(lián)合基于后驗(yàn)概率動(dòng)態(tài)加權(quán)和混淆信息加權(quán)實(shí)驗(yàn)116-117
  • 6.7 本章小結(jié)117-119
  • 第七章 基于混淆信息加權(quán)的區(qū)分性互補(bǔ)系統(tǒng)構(gòu)造方法119-131
  • 7.1 基于混淆信息加權(quán)的互補(bǔ)系統(tǒng)構(gòu)造方法原理分析119-120
  • 7.2 基于混淆信息加權(quán)的互補(bǔ)系統(tǒng)目標(biāo)函數(shù)120-122
  • 7.2.1 互補(bǔ)最小音素錯(cuò)誤準(zhǔn)則120
  • 7.2.2 基于混淆信息加權(quán)的互補(bǔ)最小音素錯(cuò)誤準(zhǔn)則120-121
  • 7.2.3 互補(bǔ)系統(tǒng)融合的識(shí)別率121-122
  • 7.3 基于混淆信息加權(quán)的模型層互補(bǔ)系統(tǒng)122-124
  • 7.3.1 多最優(yōu)識(shí)別結(jié)果權(quán)值的確定122-123
  • 7.3.2 互補(bǔ)系統(tǒng)音素準(zhǔn)確率計(jì)算方法123-124
  • 7.4 基于RDLT特征變換的特征層互補(bǔ)系統(tǒng)124-125
  • 7.5 基于混淆信息加權(quán)的互補(bǔ)系統(tǒng)構(gòu)造方法流程125
  • 7.6 實(shí)驗(yàn)結(jié)果及分析125-129
  • 7.6.1 基于微軟語(yǔ)料庫(kù)的互補(bǔ)系統(tǒng)識(shí)別性能125-129
  • 7.6.2 基于WSJ語(yǔ)料庫(kù)的互補(bǔ)系統(tǒng)識(shí)別性能129
  • 7.7 本章小結(jié)129-131
  • 第八章 總結(jié)與展望131-135
  • 一 論文總結(jié)131-133
  • 二 工作展望133-135
  • 致謝135-137
  • 參考文獻(xiàn)137-155
  • 作者簡(jiǎn)歷155-156

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條

1 陳斌;張連海;屈丹;李弼程;;一種廣義邊距區(qū)分性訓(xùn)練準(zhǔn)則[J];聲學(xué)學(xué)報(bào);2014年01期

2 楊海;張翔;梁春燕;索宏彬;顏永紅;;聯(lián)合因子分析和稀疏表示在穩(wěn)健性說話人確認(rèn)中的應(yīng)用[J];聲學(xué)學(xué)報(bào);2012年05期

3 顧曉江;趙鶴鳴;呂崗;;模型與特征混合補(bǔ)償法及其在耳語(yǔ)說話人識(shí)別中的應(yīng)用[J];聲學(xué)學(xué)報(bào);2012年02期

4 吳婭輝;劉剛;郭軍;;基于模型混淆度的模型組合算法研究[J];自動(dòng)化學(xué)報(bào);2009年05期

5 鄢志杰;胡郁;王仁華;;一種基于區(qū)分性準(zhǔn)則的模型結(jié)構(gòu)優(yōu)化方法[J];中文信息學(xué)報(bào);2008年02期


  本文關(guān)鍵詞:連續(xù)語(yǔ)音識(shí)別特征提取與聲學(xué)模型訓(xùn)練區(qū)分性技術(shù)研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):324787

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/324787.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d8199***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com