資源受限情況下基于ASR的關(guān)鍵詞檢索研究
發(fā)布時(shí)間:2017-04-15 04:14
本文關(guān)鍵詞:資源受限情況下基于ASR的關(guān)鍵詞檢索研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:基于自動(dòng)語音識(shí)別(Automatic Speech Recognition, ASR)的檢索技術(shù)是關(guān)鍵詞檢索(Spoken Term Detection, STD)的主流技術(shù),資源受限情況下(Limited-resource Conditions)的關(guān)鍵詞檢索是當(dāng)前STD重要的研究方向。本論文針對(duì)該領(lǐng)域的一些關(guān)鍵技術(shù)問題進(jìn)行研究,主要集中在三個(gè)方面:首先在聲學(xué)模型訓(xùn)練方法上進(jìn)行研究,采用多種途徑提高資源受限情況下的語音識(shí)別性能;其次,在不引入過多虛警的情況下,減少資源受限情況下關(guān)鍵詞檢索的漏警;最后,提升候選結(jié)果的置信度,改善檢索性能。基于ASR的關(guān)鍵詞檢索非常依賴于語音識(shí)別的性能,而資源受限情況下的ASR的性能非常差,這極大地影響了STD的性能。針對(duì)這一問題,本文在聲學(xué)模型訓(xùn)練方法上進(jìn)行研究,采用多種方法提高ASR系統(tǒng)的識(shí)別率。本文中采用主流的深層神經(jīng)網(wǎng)絡(luò)(DNN)來建立聲學(xué)模型,首先利用數(shù)據(jù)驅(qū)動(dòng)的方法自動(dòng)生成模型訓(xùn)練所需要的問題集;其次為了緩解因數(shù)據(jù)不足而造成的過擬合問題,使用跨語種共享隱層的策略來提高DNN的魯棒性;并通過聲道長度擾動(dòng)(VTLP)和數(shù)據(jù)加噪等數(shù)據(jù)擴(kuò)充的方法,增加訓(xùn)練數(shù)據(jù)。最后,采用DNN序列-區(qū)分性訓(xùn)練(SDT)的方法,如基于最大互信息量(MMI)、最小狀態(tài)級(jí)貝葉斯風(fēng)險(xiǎn)(sMBR)等準(zhǔn)則,進(jìn)一步優(yōu)化聲學(xué)模型,提高資源受限情況下ASR系統(tǒng)的性能。在STD評(píng)估中,漏警和虛警是檢索中常見的兩種錯(cuò)誤。而在實(shí)際的檢索任務(wù)中,漏掉一個(gè)關(guān)鍵詞的代價(jià)通常比引入一個(gè)虛警的代價(jià)要大。因此,對(duì)于STD系統(tǒng),在不引入過多虛警的情況下,有效減少漏警至關(guān)重要。本文中,我們對(duì)資源受限情況下DNN聲學(xué)模型的類概率分布進(jìn)行研究,提出兩種不同的平滑策略來降低STD的漏警,并采用關(guān)鍵詞相關(guān)門限的判決方法控制虛警,改善檢索性能。由于ASR不可避免地出現(xiàn)錯(cuò)誤,STD需要根據(jù)候選結(jié)果的檢索置信度做進(jìn)一步的判決。通常情況下,單一系統(tǒng)的檢索置信度可靠性較低,這一問題在資源受限的情況下尤為突出。為此,本文采用不同檢索單元融合及多系統(tǒng)融合的策略,提升候選結(jié)果的置信度。在本文中,我們首先研究CN和FST這兩種不同的檢索單元的各自特點(diǎn)并按照不同的檢索詞長度將二者進(jìn)行融合,各取所長,以提高STD的性能。隨后在多系統(tǒng)融合中,我們將DNN-HMM和BN-GMM-HMM兩種不同的識(shí)別系統(tǒng)以及詞、音節(jié)、詞片和音素四種不同的解碼單元進(jìn)行融合,進(jìn)一步改善檢索性能。使用這些改進(jìn)方法,本文在藏語數(shù)據(jù)庫和NIST OpenKWS2014泰米爾語(Tamil)數(shù)據(jù)庫上進(jìn)行了相關(guān)實(shí)驗(yàn),獲得了非常明顯的性能提升。
【關(guān)鍵詞】:資源受限 關(guān)鍵詞檢索 語音識(shí)別 深層神經(jīng)網(wǎng)絡(luò) 平滑策略 系統(tǒng)融合
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.34
【目錄】:
- 摘要5-7
- Abstract7-14
- 符號(hào)說明14-16
- 第1章 緒論16-24
- 1.1 研究背景16-17
- 1.2 國內(nèi)外研究現(xiàn)狀17-18
- 1.3 基于ASR的關(guān)鍵詞檢索系統(tǒng)框架18-19
- 1.4 任務(wù)集描述與性能評(píng)價(jià)指標(biāo)19-22
- 1.4.1 任務(wù)集描述19-20
- 1.4.2 語音識(shí)別性能評(píng)價(jià)指標(biāo)20-21
- 1.4.3 關(guān)鍵詞檢索性能評(píng)價(jià)指標(biāo)21-22
- 1.5 論文的研究內(nèi)容22-23
- 1.6 論文的結(jié)構(gòu)安排23-24
- 第2章 資源受限情況下自動(dòng)語音識(shí)別系統(tǒng)的建立24-48
- 2.1 自動(dòng)語音識(shí)別的基本原理24-27
- 2.2 聲學(xué)模型的原理和基本方法27-36
- 2.2.1 基于HMM的聲學(xué)模型28-30
- 2.2.2 基于GMM-HMM聲學(xué)模型的最大似然估計(jì)30-31
- 2.2.3 基于GMM-HMM聲學(xué)模型的區(qū)分性訓(xùn)練31-33
- 2.2.4 基于DNN-HMM的聲學(xué)模型33-36
- 2.3 資源受限情況下的聲學(xué)模型優(yōu)化方法36-43
- 2.3.1 基于數(shù)據(jù)驅(qū)動(dòng)的問題集36-37
- 2.3.2 DNN跨語種共享隱層策略37-38
- 2.3.3 數(shù)據(jù)擴(kuò)充38-41
- 2.3.3.1 聲道長度擾動(dòng)39-40
- 2.3.3.2 數(shù)據(jù)加噪40-41
- 2.3.4 DNN序列-區(qū)分性訓(xùn)練41-43
- 2.3.4.1 最大互信息量準(zhǔn)則41-42
- 2.3.4.2 最小狀態(tài)級(jí)貝葉斯風(fēng)險(xiǎn)準(zhǔn)則42-43
- 2.4 實(shí)驗(yàn)結(jié)果及分析43-47
- 2.4.1 藏語的實(shí)驗(yàn)結(jié)果43-45
- 2.4.2 泰米爾語的實(shí)驗(yàn)結(jié)果45-47
- 2.5 本章小結(jié)47-48
- 第3章 基于DNN類概率平滑的關(guān)鍵詞檢索技術(shù)48-58
- 3.1 研究動(dòng)機(jī)48-50
- 3.2 DNN類概率平滑研究50-53
- 3.2.1 線性平滑方法52
- 3.2.2 非線性平滑方法52-53
- 3.3 詞格覆蓋度53-54
- 3.4 關(guān)鍵詞相關(guān)的門限判決方法54-55
- 3.5 實(shí)驗(yàn)結(jié)果與分析55-56
- 3.6 本章小結(jié)56-58
- 第4章 基于系統(tǒng)融合的關(guān)鍵詞檢索技術(shù)58-68
- 4.1 系統(tǒng)融合概述58-60
- 4.2 不同檢索單元融合60-62
- 4.2.1 基于混淆網(wǎng)絡(luò)的檢索60-61
- 4.2.2 基于有限狀態(tài)轉(zhuǎn)換器的檢索61-62
- 4.3 多系統(tǒng)融合62-64
- 4.3.1 不同識(shí)別系統(tǒng)融合62-63
- 4.3.2 不同解碼單元融合63-64
- 4.4 實(shí)驗(yàn)結(jié)果及分析64-66
- 4.5 本章小結(jié)66-68
- 第5章 總結(jié)與展望68-70
- 5.1 論文總結(jié)68-69
- 5.2 研究展望69-70
- 參考文獻(xiàn)70-78
- 致謝78-80
- 在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果80
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 蘇文;王騫;;結(jié)合實(shí)際案例分析關(guān)鍵詞的選取[J];電視技術(shù);2013年S2期
2 黎方正;謝東;;基于完全化語義的關(guān)鍵詞檢索研究[J];計(jì)算機(jī)應(yīng)用研究;2010年10期
3 王
本文編號(hào):307602
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/307602.html
最近更新
教材專著