基于HTK的漢語離散和連續(xù)數(shù)字語音識別研究
發(fā)布時間:2021-09-01 03:14
互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,產(chǎn)生了許多新生技術(shù),這些技術(shù)在互聯(lián)網(wǎng)的帶動下蓬勃發(fā)展,對社會發(fā)展起到了很大的促進作用,特別是目前市場上流行的語音交互技術(shù),其所取得的成績是舉世矚目。該技術(shù)可以促進機器和人進行交互,能讓機器識別人的語音命令,并對語音命令做出動作的回復(fù),這種技術(shù)也被稱為語音識別系統(tǒng),而該系統(tǒng)核心的內(nèi)容就是本文研究的離散和連續(xù)數(shù)字語音識別。同時,該技術(shù)應(yīng)用領(lǐng)域廣泛,目前在很多領(lǐng)域包括國防、工業(yè)、通信等方面都有著密切的關(guān)聯(lián)。雖然在各項研究領(lǐng)域中,已經(jīng)存在不少關(guān)于該方面的研究,但是依舊存在很多的問題亟待解決。在以上背景下,本文研究利用HTK(Hidden Markov Model Toolkit)的結(jié)構(gòu)及其工具包搭建相關(guān)系統(tǒng);通過對基于HTK的漢語離散和連續(xù)語音數(shù)字識別的研究,完成了對影響系統(tǒng)識別率三個因素的測試,即測試了聲學(xué)模型,高斯混合分量和梅爾倒譜系數(shù)。在此基礎(chǔ)之上,再繼續(xù)對語音撥號系統(tǒng)進行研究,最終實現(xiàn)了對人的名字,以及相應(yīng)的電話號碼的識別。在完成了以上研究的基礎(chǔ)上,進行了優(yōu)化語音識別網(wǎng)絡(luò)的研究,通過對原識別方法的分析,導(dǎo)出了一種優(yōu)化語音識別網(wǎng)絡(luò)的方法,并且從理論上證明和實驗上驗證了...
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
HTK功能模塊
具體則包含了數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練等在內(nèi)的四個步驟。其中,Tave data 和 Testing Wave data 是數(shù)據(jù)的準(zhǔn)備階段,模型訓(xùn)練階段主CompV、HERest、HHEd 等,模型分析主要是為 HResult 部分。只有按 HTK 的語音識別系統(tǒng)構(gòu)建起來之后,才能夠真正了解其具體的體系結(jié)完成系統(tǒng)的搭建。詳見下圖 2-2。
2.5.2 ATK 原理分析及系統(tǒng)搭建經(jīng)過對 ATK 原理進行分析,了解到基于 ATK 的語音識別系統(tǒng)搭建,主要從語音輸入(ASource)到語音編碼(ACode)再到語音的識別(ARec)最后到應(yīng)用等環(huán)節(jié)入手,并結(jié)合 HMM、字典和語法來做好語音識別的相關(guān)工作,最終才能實現(xiàn)應(yīng)用,具體如下圖 2-3 所示:
本文編號:3376173
【文章來源】:哈爾濱理工大學(xué)黑龍江省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
HTK功能模塊
具體則包含了數(shù)據(jù)準(zhǔn)備,模型訓(xùn)練等在內(nèi)的四個步驟。其中,Tave data 和 Testing Wave data 是數(shù)據(jù)的準(zhǔn)備階段,模型訓(xùn)練階段主CompV、HERest、HHEd 等,模型分析主要是為 HResult 部分。只有按 HTK 的語音識別系統(tǒng)構(gòu)建起來之后,才能夠真正了解其具體的體系結(jié)完成系統(tǒng)的搭建。詳見下圖 2-2。
2.5.2 ATK 原理分析及系統(tǒng)搭建經(jīng)過對 ATK 原理進行分析,了解到基于 ATK 的語音識別系統(tǒng)搭建,主要從語音輸入(ASource)到語音編碼(ACode)再到語音的識別(ARec)最后到應(yīng)用等環(huán)節(jié)入手,并結(jié)合 HMM、字典和語法來做好語音識別的相關(guān)工作,最終才能實現(xiàn)應(yīng)用,具體如下圖 2-3 所示:
本文編號:3376173
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3376173.html
最近更新
教材專著