面向蒙古語的語音識(shí)別聲學(xué)建模研究

發(fā)布時(shí)間：2017-12-07 14:05

本文關(guān)鍵詞：面向蒙古語的語音識(shí)別聲學(xué)建模研究

【摘要】：自動(dòng)語音識(shí)別是具有巨大應(yīng)用價(jià)值和廣闊應(yīng)用前景的人機(jī)交互技術(shù),而聲學(xué)建模則是創(chuàng)建語音識(shí)別系統(tǒng)的關(guān)鍵環(huán)節(jié)與核心技術(shù),也是語音識(shí)別研究的重點(diǎn)和熱點(diǎn)之一。本文對(duì)蒙古語語音識(shí)別聲學(xué)建模相關(guān)的若干問題進(jìn)行了深入的探索和研究。目前,在國際信息化浪潮的推動(dòng)下,蒙古族自治區(qū)域正在快速步入信息化社會(huì)。在這種歷史背景和條件下,開展本文的研究工作,不僅具有重要的學(xué)術(shù)價(jià)值,而且具有積極深遠(yuǎn)的社會(huì)現(xiàn)實(shí)意義,它必將有益于廣大蒙古族同胞生活、學(xué)習(xí)、工作自動(dòng)化程度的提高,必將有益于蒙古族自治區(qū)域信息化水平的提升。本文研究工作在蒙古語語音識(shí)別聲學(xué)建模的模型選擇、相關(guān)支持技術(shù)以及參數(shù)估計(jì)等三個(gè)基本問題方面均有所涉及,具體研究內(nèi)容和創(chuàng)新點(diǎn)如下：1.蒙古語聲學(xué)模型拓?fù)浣Y(jié)構(gòu)優(yōu)化模型選擇方面,針對(duì)當(dāng)前創(chuàng)建蒙古語語音識(shí)別系統(tǒng)時(shí)只能采用經(jīng)驗(yàn)式或啟發(fā)式方法選擇較大建模對(duì)象(指其讀音由兩個(gè)或兩個(gè)以上的音子構(gòu)成的建模對(duì)象)聲學(xué)模型拓?fù)浣Y(jié)構(gòu)的情形,本文提出了分別基于標(biāo)準(zhǔn)遺傳算法和標(biāo)準(zhǔn)粒群優(yōu)化算法的兩個(gè)蒙古語較大建模對(duì)象聲學(xué)模型拓?fù)浣Y(jié)構(gòu)優(yōu)化算法,并給出了算法實(shí)現(xiàn)相關(guān)問題的解決方案和高斯核非均勻分配系統(tǒng)的訓(xùn)練策略。與以往的進(jìn)化方法在其它語言語音識(shí)別領(lǐng)域中的類似應(yīng)用相比,本文算法都具備同時(shí)優(yōu)化模型狀態(tài)數(shù)與各狀態(tài)高斯核數(shù)量、摒棄高斯核均勻分配以及自動(dòng)搜索等優(yōu)點(diǎn)。在驗(yàn)證和應(yīng)用上述模型拓?fù)鋬?yōu)化算法的實(shí)驗(yàn)中,與分別使用一種傳統(tǒng)方法選擇蒙古語較大建模對(duì)象聲學(xué)模型拓?fù)浣Y(jié)構(gòu)的兩組基線系統(tǒng)相比,利用本文算法選擇蒙古語較大建模對(duì)象聲學(xué)模型拓?fù)浣Y(jié)構(gòu)的所有語音識(shí)別系統(tǒng),其識(shí)別性能均占顯著優(yōu)勢；相對(duì)于表現(xiàn)最好的基線系統(tǒng),分別使用本文提出的一種算法的兩組拓?fù)鋬?yōu)化系統(tǒng),其詞準(zhǔn)確率的提升幅度分別達(dá)到了11.52個(gè)百分點(diǎn)和10.42個(gè)百分點(diǎn)。2.蒙古語聲學(xué)模型狀態(tài)聚類：問題集設(shè)計(jì)建模相關(guān)支持技術(shù)方面,針對(duì)目前蒙古語語音識(shí)別界亟待設(shè)計(jì)出合理、完善的蒙古語問題集以有效支持聲學(xué)建模過程中基于決策樹的參數(shù)綁定方法的情形,本文討論了蒙古語問題集設(shè)計(jì)中的原則、音子集的選擇、音素表的完善、復(fù)合元音的歸類、松與緊概念的應(yīng)用等關(guān)鍵問題的解決方案,給出了一個(gè)蒙古語標(biāo)準(zhǔn)音問題集,指出了該問題集相對(duì)于已有蒙古語問題集的優(yōu)越性。決策樹方法與數(shù)據(jù)驅(qū)動(dòng)方法的多次對(duì)比實(shí)驗(yàn)中,利用本文蒙古語問題集的前者每次都帶來了略高于后者的系統(tǒng)識(shí)別率,這說明本文的蒙古語問題集能夠有效支持基于決策樹的狀態(tài)聚類與綁定方法；問題集對(duì)比實(shí)驗(yàn)中,本文給出的問題集的表現(xiàn)好于目前已公開發(fā)表的其它蒙古語問題集,這說明它的設(shè)計(jì)更加合理、更為完善。3.蒙古語聲學(xué)模型區(qū)分性訓(xùn)練模型參數(shù)估計(jì)方面,針對(duì)蒙古語口語中的眾多讀音相似的音子的相互誤識(shí)正在嚴(yán)重影響蒙古語語音識(shí)別系統(tǒng)的識(shí)別性能的現(xiàn)狀,本文將通過增強(qiáng)模型之間的區(qū)分度提高系統(tǒng)識(shí)別性能的區(qū)分性訓(xùn)練技術(shù)首次應(yīng)用在蒙古語語音識(shí)別領(lǐng)域中。具體地,將最大互信息、最小詞錯(cuò)誤和最小音素錯(cuò)誤等區(qū)分性訓(xùn)練準(zhǔn)則系統(tǒng)地應(yīng)用在蒙古語聲學(xué)建模任務(wù)中,設(shè)計(jì)了應(yīng)用方案,解決了訓(xùn)練數(shù)據(jù)列表的自動(dòng)調(diào)整、訓(xùn)練語料外三音子模型的合成、文本文件的自動(dòng)生成與處理等若干技術(shù)問題,提出并實(shí)現(xiàn)了能夠直觀了解區(qū)分性訓(xùn)練效果的音子級(jí)解碼和基于混淆矩陣的解碼結(jié)果對(duì)比方案,基于區(qū)分性訓(xùn)練系統(tǒng)及其基線系統(tǒng)的混淆矩陣,發(fā)現(xiàn)和總結(jié)了蒙古語音子在語音識(shí)別過程中的元音和輔音之間很少發(fā)生誤識(shí)現(xiàn)象、弱短元音是元音與輔音相互誤識(shí)情況中的主要的元音音素、容易相互誤識(shí)的輔音只有有限的若干對(duì)等誤識(shí)規(guī)律。實(shí)驗(yàn)結(jié)果表明,各種準(zhǔn)則的區(qū)分性訓(xùn)練均能使蒙古語語音識(shí)別系統(tǒng)的識(shí)別率得到較大幅度的提高,區(qū)分性訓(xùn)練系統(tǒng)的詞準(zhǔn)確率的提升幅度最高達(dá)到了6.44個(gè)百分點(diǎn)。4.蒙古語聲學(xué)模型自適應(yīng)訓(xùn)練同樣在模型參數(shù)估計(jì)方面,針對(duì)基于眾多說話人語料創(chuàng)建的蒙古語非特定人語音識(shí)別系統(tǒng)在交付給特定說話人使用時(shí)識(shí)別率不理想的情形,本文將通過重估模型參數(shù)使系統(tǒng)聲學(xué)模型更具特定說話人特征的說話人自適應(yīng)技術(shù)首次應(yīng)用在蒙古語語音識(shí)別領(lǐng)域中。具體地,在設(shè)計(jì)應(yīng)用方案并解決回歸類樹葉子結(jié)點(diǎn)數(shù)的設(shè)置等若干技術(shù)問題的基礎(chǔ)上,將最大似然線性回歸類算法和最大后驗(yàn)概率類算法系統(tǒng)地應(yīng)用在蒙古語聲學(xué)建模任務(wù)中。此外,本文還探索了說話人自適應(yīng)技術(shù)的更深層次的用途：對(duì)說話人自適應(yīng)算法以及它們的有效組合在蒙古語聲學(xué)建模過程中的性別自適應(yīng)效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并在利用說話人自適應(yīng)算法進(jìn)行蒙古語方言土語的自適應(yīng)方面做了一些探索性的工作。實(shí)驗(yàn)結(jié)果表明,各種參數(shù)變換的說話人自適應(yīng)算法均能使蒙古語語音識(shí)別系統(tǒng)的識(shí)別率得到較大幅度的提高,它們帶來的詞準(zhǔn)確率的提升幅度最高達(dá)到了32.75個(gè)百分點(diǎn)；說話人自適應(yīng)技術(shù)在蒙古語聲學(xué)建模中具有很好的性別自適應(yīng)效果,性別自適應(yīng)帶來的詞準(zhǔn)確率的提升幅度最高達(dá)到了47.08個(gè)百分點(diǎn)；在不受性別自適應(yīng)影響的情況下,只對(duì)聲學(xué)模型的高斯核均值向量進(jìn)行調(diào)整的說話人自適應(yīng)算法和算法組合具有使標(biāo)準(zhǔn)音蒙古語語音識(shí)別系統(tǒng)的針對(duì)鄂爾多斯土語的識(shí)別率得到有效提高的方言自適應(yīng)能力,它們帶來的詞準(zhǔn)確率的提升幅度最高達(dá)到了7.67個(gè)百分點(diǎn)。
【學(xué)位授予單位】：內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2016
【分類號(hào)】：TN912.34

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前6條

1 肖云鵬;葉衛(wèi)平;;基于特征參數(shù)歸一化的魯棒語音識(shí)別方法綜述[J];中文信息學(xué)報(bào);2010年05期

2 劉林泉;鄭方;吳文虎;;基于小數(shù)據(jù)量的方言普通話語音識(shí)別聲學(xué)建模[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期

3 鄢志杰;胡郁;王仁華;;一種基于區(qū)分性準(zhǔn)則的模型結(jié)構(gòu)優(yōu)化方法[J];中文信息學(xué)報(bào);2008年02期

4 何玨;劉加;;漢語連續(xù)語音中HMM模型狀態(tài)數(shù)優(yōu)化方法研究[J];中文信息學(xué)報(bào);2006年06期

5 李虎生,劉加,劉潤生;語音識(shí)別說話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢[J];電子學(xué)報(bào);2003年01期

6 高升,徐波,黃泰翼;基于決策樹的漢語三音子模型[J];聲學(xué)學(xué)報(bào);2000年06期

中國博士學(xué)位論文全文數(shù)據(jù)庫前5條

1 飛龍;蒙古語語音關(guān)鍵詞檢測技術(shù)的研究[D];內(nèi)蒙古大學(xué);2013年

2 劉聰;聲學(xué)模型區(qū)分性訓(xùn)練及其在LVCSR系統(tǒng)的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2010年

3 鄢志杰;聲學(xué)模型區(qū)分性訓(xùn)練及其在自動(dòng)語音識(shí)別中的應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2008年

4 王霞;數(shù)學(xué)形態(tài)學(xué)在語音識(shí)別中的應(yīng)用研究[D];河北工業(yè)大學(xué);2008年

5 王堅(jiān);語音識(shí)別中的說話人自適應(yīng)研究[D];北京郵電大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前5條

1 飛龍;蒙古語語音識(shí)別系統(tǒng)的研究與優(yōu)化[D];內(nèi)蒙古大學(xué);2009年

2 哈斯其勞;面向語音識(shí)別的蒙古語聲學(xué)模型的研究[D];內(nèi)蒙古大學(xué);2008年

3 畢力格圖;基于HMM建模的蒙古語連續(xù)語音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2006年

4 薩其容貴;蒙古語語音合成技術(shù)的研究[D];內(nèi)蒙古大學(xué);2005年

5 包世恩;蒙古語非特定人大詞匯量連續(xù)語音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2005年

，

本文編號(hào)：1262622

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/1262622.html

上一篇：基于馬氏距離的度量學(xué)習(xí)算法研究及應(yīng)用
下一篇：基于圖像配準(zhǔn)與視覺顯著性檢測的指針儀表識(shí)別研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向蒙古語的語音識(shí)別聲學(xué)建模研究