基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究
本文關(guān)鍵詞:基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別是關(guān)鍵詞識(shí)別的一個(gè)重要分支,該類關(guān)鍵詞識(shí)別不需要考慮關(guān)鍵詞對(duì)應(yīng)的文本信息就能夠從音頻數(shù)據(jù)中快速地搜索并返回與查詢關(guān)鍵詞相關(guān)語(yǔ)音段。因此,該方法主要應(yīng)用于缺乏語(yǔ)音資源和語(yǔ)音學(xué)知識(shí)的小語(yǔ)種。近年來(lái),隨著國(guó)際化進(jìn)程的不斷加快,針對(duì)小語(yǔ)種的語(yǔ)音處理特別是關(guān)鍵詞識(shí)別迅速進(jìn)入人們的視野,成為現(xiàn)階段語(yǔ)音處理的一個(gè)熱點(diǎn)問(wèn)題。本論文主要針對(duì)該領(lǐng)域的兩個(gè)問(wèn)題進(jìn)行研究:第一,相對(duì)于傳統(tǒng)聲學(xué)特征,具有更高可區(qū)分性特征的研究:第二,針對(duì)采用隱馬爾可夫模型(Hidden Markov Model,HMM)的關(guān)鍵詞建模識(shí)別,研究樣本稀缺情況下關(guān)鍵詞模型的訓(xùn)練方法。近年來(lái),隨著學(xué)習(xí)方法的不斷改進(jìn),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在模式識(shí)別中得到了諸多成功的應(yīng)用,引起了學(xué)術(shù)界廣泛的關(guān)注。在語(yǔ)音識(shí)別中,基于DNN狀態(tài)輸出的DNN-HMM相比高斯混合模型(Gaussian Mixture Model, GMM)-HMM基線系統(tǒng)大大降低了語(yǔ)音識(shí)別詞錯(cuò)誤率。而由具有狹窄中間層,也稱為瓶頸層(BottleNeck, BN)的DNN提取出的BN特征在GMM-HMM基線系統(tǒng)中也取得了接近DNN-HMM模型的語(yǔ)音識(shí)別詞錯(cuò)誤率。本文在相同的關(guān)鍵詞識(shí)別框架下比較兩種不同的特征:感知線性預(yù)測(cè)(Perceptual Linear Prediction, PLP)和BN特征,找出具有更高區(qū)分性的特征以提高識(shí)別系統(tǒng)性能。在基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別中,采用統(tǒng)計(jì)建模的方法可以提升模型的穩(wěn)健性。然而,在該類關(guān)鍵詞識(shí)別中,關(guān)鍵詞訓(xùn)練樣本的數(shù)量極度缺乏,僅有十到二十個(gè)左右甚至更少。在這種情況下,如何更加充分的利用關(guān)鍵詞樣本中的包含的有效信息非常重要。本文在HMM識(shí)別框架中,使用最大后驗(yàn)概率(Maximum a Posterior)方法建立關(guān)鍵詞模型,提高了識(shí)別系統(tǒng)在資源稀缺情況下的識(shí)別性能。另外,還驗(yàn)證了三種模型訓(xùn)練方法在關(guān)鍵詞變化的情況下的有效性。本文提出的算法在標(biāo)準(zhǔn)的TIMIT及藏語(yǔ)數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn),從實(shí)驗(yàn)結(jié)果上證明了這些算法的有效性。
【關(guān)鍵詞】:關(guān)鍵詞識(shí)別 深度神經(jīng)網(wǎng)絡(luò) BN特征 隱馬爾科夫模型 最大后驗(yàn)概率
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-18
- 1.1 研究背景10-11
- 1.2 研究歷史和現(xiàn)狀11-13
- 1.3 關(guān)鍵詞識(shí)別系統(tǒng)框架13-15
- 1.4 關(guān)鍵詞識(shí)別系統(tǒng)的性能評(píng)價(jià)指標(biāo)15-16
- 1.5 論文的研究?jī)?nèi)容16
- 1.6 文的結(jié)構(gòu)安排16-18
- 第2章 基于DTW的關(guān)鍵詞識(shí)別方法18-32
- 2.1 DTW框架介紹18-26
- 2.1.1 后驗(yàn)概率圖生成19-22
- 2.1.2 模式匹配算法22-25
- 2.1.3 得分融合25-26
- 2.2 特征提取26-30
- 2.2.1 PLP特征26-29
- 2.2.2 特征規(guī)整29-30
- 2.3 實(shí)驗(yàn)配置30-31
- 2.3.1 數(shù)據(jù)庫(kù)30
- 2.3.2 PLP特征30-31
- 2.3.3 模型參數(shù)31
- 2.4 實(shí)驗(yàn)結(jié)果及分析31
- 2.5 本章小結(jié)31-32
- 第3章 基于BN特征的關(guān)鍵詞識(shí)別方法研究32-48
- 3.1 BN神經(jīng)網(wǎng)絡(luò)32-41
- 3.1.1 BN特征訓(xùn)練33-38
- 3.1.2 BN特征提取38-39
- 3.1.3 改進(jìn)的BN特征39-41
- 3.2 基于DTW的識(shí)別框架研究41-44
- 3.2.1 樣本聯(lián)合41-42
- 3.2.2 距離函數(shù)42-44
- 3.3 實(shí)驗(yàn)配置44
- 3.3.1 BN特征44
- 3.4 實(shí)驗(yàn)結(jié)果及分析44-47
- 3.4.1 特征對(duì)比試驗(yàn)44-45
- 3.4.2 隱層數(shù)量實(shí)驗(yàn)45
- 3.4.3 BN層位置實(shí)驗(yàn)45
- 3.4.4 BN層激活函數(shù)實(shí)驗(yàn)45-46
- 3.4.5 距離度量實(shí)驗(yàn)46
- 3.4.6 樣本聯(lián)合與得分融合比較46-47
- 3.5 本章小結(jié)47-48
- 第4章 基于HMM模型的特征及方法研究48-60
- 4.1 HMM簡(jiǎn)介48-51
- 4.1.1 前向算法49-50
- 4.1.2 Baum-Welsh算法50-51
- 4.2 模型訓(xùn)練方法51-54
- 4.2.1 基于ML的模型訓(xùn)練方法51-52
- 4.2.2 改進(jìn)的ML模型訓(xùn)練方法52
- 4.2.3 基于MAP的模型訓(xùn)練方法52-54
- 4.3 音高特征54-55
- 4.4 實(shí)驗(yàn)配置55-56
- 4.4.1 數(shù)據(jù)庫(kù)55-56
- 4.4.2 特征提取56
- 4.4.3 模型參數(shù)56
- 4.5 實(shí)驗(yàn)結(jié)果及分析56-58
- 4.5.1 特征對(duì)比實(shí)驗(yàn)57
- 4.5.2 模型生成實(shí)驗(yàn)57-58
- 4.6 本章小結(jié)58-60
- 第5章 總結(jié)與展望60-62
- 5.1 論文總結(jié)60
- 5.2 研究展望60-62
- 參考文獻(xiàn)62-68
- 致謝68-70
- 攻讀碩士學(xué)位期間發(fā)表的論文70
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 謝貴武;楊繼紅;肖勇;閔剛;;基于語(yǔ)音分段的自適應(yīng)時(shí)長(zhǎng)調(diào)整算法[J];軍事通信技術(shù);2008年02期
2 樊建中;孫晴;楊永杰;;一種智能盲文學(xué)習(xí)機(jī)設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2010年05期
3 溫洪昌;黃應(yīng)強(qiáng);傅貴興;;單片機(jī)的多段語(yǔ)音組合錄放系統(tǒng)設(shè)計(jì)[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2011年10期
4 張劍;袁華強(qiáng);;Rhetorical-State SVM在抽取式語(yǔ)音摘要中的應(yīng)用[J];科學(xué)技術(shù)與工程;2013年21期
5 盧堅(jiān) ,毛兵 ,孫正興 ,張福炎;一種改進(jìn)的基于說(shuō)話者的語(yǔ)音分割算法[J];軟件學(xué)報(bào);2002年02期
6 章文義,朱杰;幾種無(wú)語(yǔ)音檢測(cè)噪音估計(jì)方法的比較研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2003年10期
7 林鑫;陳樺;王開(kāi)志;王繼成;;語(yǔ)音驅(qū)動(dòng)唇形自動(dòng)合成算法[J];計(jì)算機(jī)工程;2007年17期
8 蔡鐵;;基于在線單類支持向量機(jī)的自適應(yīng)語(yǔ)音活動(dòng)檢測(cè)[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2008年02期
9 章釗;郭武;;話者識(shí)別中結(jié)合模型和能量的語(yǔ)音激活檢測(cè)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期
10 朱淑琴,裘雪紅;一種精確檢測(cè)語(yǔ)音端點(diǎn)的方法[J];計(jì)算機(jī)仿真;2005年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前9條
1 田野;王作英;陸大金;;基于韻律結(jié)構(gòu)信息的非語(yǔ)音拒識(shí)[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
2 徐明;胡瑞敏;黃云森;;基于音素識(shí)別的語(yǔ)音評(píng)價(jià)方法[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2006)——第15屆中國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT'06)論文集[C];2006年
3 王歡良;韓紀(jì)慶;李海峰;王承發(fā);;面向嵌入式應(yīng)用的小詞匯量語(yǔ)音串識(shí)別系統(tǒng)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
4 那斯?fàn)柦ね聽(tīng)栠d;吾守爾·斯拉木;麥麥提艾力;;維吾爾語(yǔ)大詞匯量連續(xù)語(yǔ)音識(shí)別研究——語(yǔ)音語(yǔ)料庫(kù)的建立[A];民族語(yǔ)言文字信息技術(shù)研究——第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
5 簡(jiǎn)志華;王向文;;考慮幀間信息的語(yǔ)音轉(zhuǎn)換算法[A];浙江省信號(hào)處理學(xué)會(huì)2012學(xué)術(shù)年會(huì)論文集[C];2012年
6 魏維;馬海燕;;一種丟失語(yǔ)音信包重建的新算法[A];通信理論與信號(hào)處理新進(jìn)展——2005年通信理論與信號(hào)處理年會(huì)論文集[C];2005年
7 陳凡;羅四維;;一個(gè)實(shí)用語(yǔ)音開(kāi)發(fā)應(yīng)用系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第二屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];1992年
8 劉紅星;戴蓓劏;陸偉;;基于圖像增強(qiáng)方法的共振峰諧波能量參數(shù)的語(yǔ)音和端點(diǎn)檢測(cè)[A];第九屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2007年
9 林愛(ài)華;張文俊;王毅敏;;基于肌肉模型的語(yǔ)音驅(qū)動(dòng)唇形動(dòng)畫[A];第十三屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2006年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前5條
1 atvoc;數(shù)碼語(yǔ)音電路產(chǎn)品概述[N];電子資訊時(shí)報(bào);2008年
2 記者 李山;德用雙音素改進(jìn)人工語(yǔ)音表達(dá)[N];科技日?qǐng)?bào);2012年
3 中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 于劍邋陶建華;個(gè)性化語(yǔ)音生成技術(shù)面面觀[N];計(jì)算機(jī)世界;2007年
4 江西 林慧勇;語(yǔ)音合成芯片MSM6295及其應(yīng)用[N];電子報(bào);2006年
5 ;與“小超人”對(duì)話[N];中國(guó)計(jì)算機(jī)報(bào);2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 高偉勛;智能家居環(huán)境中個(gè)性化語(yǔ)音生成關(guān)鍵技術(shù)研究[D];東華大學(xué);2015年
2 陳麗萍;說(shuō)話人確認(rèn)中語(yǔ)音段差異建模相關(guān)問(wèn)題的研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
3 陶冶;文本語(yǔ)音匹配的研究和應(yīng)用[D];山東大學(xué);2009年
4 何俊;聲紋身份識(shí)別中非常態(tài)語(yǔ)音應(yīng)對(duì)方法研究[D];華南理工大學(xué);2012年
5 李冬冬;基于拓展和聚類的情感魯棒說(shuō)話人識(shí)別研究[D];浙江大學(xué);2008年
6 雙志偉;個(gè)性化語(yǔ)音生成研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
7 古今;語(yǔ)音感知認(rèn)證的關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
8 彭波;Internet上語(yǔ)音的魯棒性傳輸研究[D];華南理工大學(xué);2001年
9 黃湘松;基于混淆網(wǎng)絡(luò)的漢語(yǔ)語(yǔ)音檢索技術(shù)研究[D];哈爾濱工程大學(xué);2010年
10 應(yīng)娜;基于正弦語(yǔ)音模型的低比特率寬帶語(yǔ)音編碼算法的研究[D];吉林大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王明明;基于GMM和碼本映射相結(jié)合的語(yǔ)音轉(zhuǎn)換方法研究[D];西安建筑科技大學(xué);2015年
2 印雪晨;宋詞朗讀呼吸信號(hào)和韻律時(shí)長(zhǎng)研究[D];西北民族大學(xué);2015年
3 邱一良;噪聲環(huán)境下的語(yǔ)音檢測(cè)方法研究[D];電子科技大學(xué);2015年
4 朱俊梅;基于性別預(yù)分類的年齡自動(dòng)估計(jì)研究[D];江蘇師范大學(xué);2014年
5 張占松;基于DSP的語(yǔ)音干擾方法研究與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
6 李鵬;基于系統(tǒng)融合的語(yǔ)音查詢項(xiàng)檢索技術(shù)研究[D];解放軍信息工程大學(xué);2015年
7 趙蓉蓉;基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的單通道語(yǔ)音盲分離技術(shù)[D];太原理工大學(xué);2016年
8 崔瑞蓮;語(yǔ)種識(shí)別中的語(yǔ)音段表示方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
9 劉學(xué);基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
10 周慧;基于PAD三維情緒模型的情感語(yǔ)音轉(zhuǎn)換與識(shí)別[D];西北師范大學(xué);2009年
本文關(guān)鍵詞:基于語(yǔ)音樣例查詢的關(guān)鍵詞識(shí)別方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):361561
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/361561.html