卷積神經(jīng)網(wǎng)絡(luò)在大詞匯量連續(xù)語(yǔ)音識(shí)別中的運(yùn)用研究
發(fā)布時(shí)間:2020-06-17 13:48
【摘要】:語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)多年發(fā)展已取得了長(zhǎng)足的進(jìn)步,在孤立詞識(shí)別方面已經(jīng)取得了很大的成功,在識(shí)別率上已經(jīng)達(dá)到了接近完全正確的高度,但是在大詞匯量連續(xù)語(yǔ)音識(shí)別(LVCSR)方面仍有較大提高的空間。近年來(lái),深度學(xué)習(xí)在大詞匯量連續(xù)語(yǔ)音識(shí)別領(lǐng)域的運(yùn)用受到廣泛的重視。本文研究了卷積神經(jīng)網(wǎng)絡(luò)(CNN)在大詞匯量連續(xù)語(yǔ)音識(shí)別中的運(yùn)用,選題具有重要的理論與實(shí)際意義。論文首先描述了語(yǔ)音識(shí)別技術(shù)的研究背景和現(xiàn)狀,論述了語(yǔ)音識(shí)別與人工神經(jīng)網(wǎng)絡(luò)的相關(guān)知識(shí),包括語(yǔ)音識(shí)別的基本原理、語(yǔ)音識(shí)別系統(tǒng)的構(gòu)成、以及人工神經(jīng)網(wǎng)絡(luò)的BP算法和卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法。其次,描述了大詞匯量連續(xù)語(yǔ)音識(shí)別中存在的難點(diǎn),分析了卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中的優(yōu)勢(shì),搭建了本文大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng);并重點(diǎn)闡述了LVCSR中的CNN網(wǎng)絡(luò)結(jié)構(gòu),分析了網(wǎng)絡(luò)各層的特點(diǎn),說(shuō)明了各層參數(shù)的設(shè)計(jì)方法。最后,選用中文語(yǔ)音庫(kù)TIMIT和英文語(yǔ)音庫(kù)thchs30,對(duì)卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中的運(yùn)用進(jìn)行了實(shí)驗(yàn)測(cè)試。對(duì)FBANK語(yǔ)音特征和廣泛使用的MFCC語(yǔ)音特征進(jìn)行了比較,FBANK語(yǔ)音特征在CNN模型中有著更低的詞錯(cuò)誤率。通過(guò)對(duì)卷積層卷積核大小和池化層池化面積大小的調(diào)優(yōu),實(shí)現(xiàn)對(duì)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化,獲得了詞錯(cuò)誤率相對(duì)較低的網(wǎng)絡(luò)模型。英文數(shù)據(jù)庫(kù)TIMIT優(yōu)化后的詞錯(cuò)誤率為19.1%,相比于GMM-HMM方法的單音素模型的詞錯(cuò)誤率32.7%和三音素模型的詞錯(cuò)誤率25.6%,CNN模型提高了識(shí)別正確率;中文語(yǔ)音庫(kù)thchs30優(yōu)化后的詞錯(cuò)誤率為27.34%,相比于GMM-HMM方法的單音素模型的50.88%和三音素模型的35.97%,CNN模型也提高了識(shí)別正確率。實(shí)驗(yàn)中還通過(guò)在線識(shí)別的方法,展示了優(yōu)化后的CNN在LVCSR中的識(shí)別結(jié)果和性能提升。研究表明,卷積神經(jīng)網(wǎng)絡(luò)在LVCSR中能夠減少語(yǔ)音識(shí)別的詞錯(cuò)誤率,但仍然有很多的研究工作要做,如結(jié)合大數(shù)據(jù)的學(xué)習(xí)更好提升語(yǔ)音識(shí)別的性能等。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TN912.34;TP183
【圖文】:
圖 2-6 語(yǔ)音幀序列轉(zhuǎn)化成音素狀態(tài)序列過(guò)程在圖 2-6 中,O表示長(zhǎng)度為 m 的觀測(cè)序列{O1,O2,...,Oi,...,Om},O1,O2,O3,O4音素狀態(tài)是 sil,O5,O6,O7音素狀態(tài)是 y,而下方的馬爾可夫鏈就表示狀態(tài)轉(zhuǎn)移過(guò)程[20],sil 音素狀態(tài)變成 y 音素狀態(tài)就是 0.4,不變的概率是 0.6,y 音素狀態(tài)變成 eh 音素狀態(tài)就是 0.7,不變的概率是 0.3,以此類(lèi)推。最終從觀測(cè)序列得到的整個(gè)語(yǔ)音狀態(tài)序列概率為bsil(O1)*0.6 *bsil(O2)*0.6 *bsil(O3)*0.6 *bsil(O4)*0.4 *by(O5)*0.3*by(O6)...。在 GMM-HMM 聲學(xué)模型中,GMM 的訓(xùn)練模型基于的是 EM 算法,HMM 的訓(xùn)練模型基于的是前向后向算法(Baum Welch 算法),GMM-HMM 的出現(xiàn)使語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率大大提升,讓人們?cè)诖髷?shù)據(jù)集下訓(xùn)練連續(xù)語(yǔ)音有了突破性的進(jìn)展,從而促使很多實(shí)用性的語(yǔ)音識(shí)別產(chǎn)品產(chǎn)生。2.2.4 語(yǔ)言模型和字典聲學(xué)模型處理過(guò)后的語(yǔ)音數(shù)據(jù)會(huì)得到每一幀信號(hào)的音素狀態(tài),從音素序列再變
中 科 技 大 學(xué) 碩 士 學(xué) 位 論 P ( s )來(lái)表示詞序列出現(xiàn)的概率。 計(jì)算公式如下式1 2 1 2 1 3 1 2 1 ) ( ... ) ( ) ( | ) ( | )... ( | ..T T s P w w w P w P w w P w w w P w w 2-11)中,詞序列s 由 T 個(gè)詞組成, s = w1w2...wT,利分布函數(shù)轉(zhuǎn)化成條件概率。典(lexicon)存儲(chǔ)著音素(phoneme)和單詞(words們可以將聲學(xué)模型與語(yǔ)言模型聯(lián)系起來(lái),從而為解碼器參照表。7 中,中文語(yǔ)音數(shù)據(jù)的字典記錄的是中文漢字字符與相
本文編號(hào):2717694
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TN912.34;TP183
【圖文】:
圖 2-6 語(yǔ)音幀序列轉(zhuǎn)化成音素狀態(tài)序列過(guò)程在圖 2-6 中,O表示長(zhǎng)度為 m 的觀測(cè)序列{O1,O2,...,Oi,...,Om},O1,O2,O3,O4音素狀態(tài)是 sil,O5,O6,O7音素狀態(tài)是 y,而下方的馬爾可夫鏈就表示狀態(tài)轉(zhuǎn)移過(guò)程[20],sil 音素狀態(tài)變成 y 音素狀態(tài)就是 0.4,不變的概率是 0.6,y 音素狀態(tài)變成 eh 音素狀態(tài)就是 0.7,不變的概率是 0.3,以此類(lèi)推。最終從觀測(cè)序列得到的整個(gè)語(yǔ)音狀態(tài)序列概率為bsil(O1)*0.6 *bsil(O2)*0.6 *bsil(O3)*0.6 *bsil(O4)*0.4 *by(O5)*0.3*by(O6)...。在 GMM-HMM 聲學(xué)模型中,GMM 的訓(xùn)練模型基于的是 EM 算法,HMM 的訓(xùn)練模型基于的是前向后向算法(Baum Welch 算法),GMM-HMM 的出現(xiàn)使語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率大大提升,讓人們?cè)诖髷?shù)據(jù)集下訓(xùn)練連續(xù)語(yǔ)音有了突破性的進(jìn)展,從而促使很多實(shí)用性的語(yǔ)音識(shí)別產(chǎn)品產(chǎn)生。2.2.4 語(yǔ)言模型和字典聲學(xué)模型處理過(guò)后的語(yǔ)音數(shù)據(jù)會(huì)得到每一幀信號(hào)的音素狀態(tài),從音素序列再變
中 科 技 大 學(xué) 碩 士 學(xué) 位 論 P ( s )來(lái)表示詞序列出現(xiàn)的概率。 計(jì)算公式如下式1 2 1 2 1 3 1 2 1 ) ( ... ) ( ) ( | ) ( | )... ( | ..T T s P w w w P w P w w P w w w P w w 2-11)中,詞序列s 由 T 個(gè)詞組成, s = w1w2...wT,利分布函數(shù)轉(zhuǎn)化成條件概率。典(lexicon)存儲(chǔ)著音素(phoneme)和單詞(words們可以將聲學(xué)模型與語(yǔ)言模型聯(lián)系起來(lái),從而為解碼器參照表。7 中,中文語(yǔ)音數(shù)據(jù)的字典記錄的是中文漢字字符與相
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 何湘智;語(yǔ)音識(shí)別的研究與發(fā)展[J];計(jì)算機(jī)與現(xiàn)代化;2002年03期
本文編號(hào):2717694
本文鏈接:http://sikaile.net/kejilunwen/wltx/2717694.html
最近更新
教材專(zhuān)著