基于LSTM-CTC的藏語(yǔ)拉薩話語(yǔ)音識(shí)別系統(tǒng)
發(fā)布時(shí)間:2024-10-03 00:14
伴隨著科學(xué)技術(shù)的發(fā)展,計(jì)算機(jī)及其它智能設(shè)備逐漸得以普及。語(yǔ)音是人與人之間最直接的交流方法,所以人機(jī)語(yǔ)音交互一直是相關(guān)研究人員研究的熱點(diǎn)。由于DNNs的應(yīng)用,ASR的性能得到了極大的提高。目前大語(yǔ)種的語(yǔ)音識(shí)別已經(jīng)取得了很好的效果,但對(duì)于像藏語(yǔ)這類小語(yǔ)種的識(shí)別還較少。但建設(shè)一個(gè)語(yǔ)音識(shí)別系統(tǒng)仍然是一個(gè)具有挑戰(zhàn)性的任務(wù),需要各種資源、不同的訓(xùn)練階段和專業(yè)知識(shí)。與傳統(tǒng)基于隱馬爾可夫模型的語(yǔ)音識(shí)別相比,端到端語(yǔ)音識(shí)別模型結(jié)構(gòu)單一,不需要區(qū)分聲學(xué)模型和語(yǔ)言模型,不需要發(fā)音詞典,F(xiàn)階段端到端的語(yǔ)音識(shí)別系統(tǒng)主要有兩種類型:CTC(聯(lián)結(jié)時(shí)序分類)和Attention模型。本文采用基于LSTM-CTC的端到端方法進(jìn)行聲學(xué)建模,進(jìn)行藏語(yǔ)拉薩話的語(yǔ)音識(shí)別。為了消除預(yù)先生成幀標(biāo)簽的需要,采用聯(lián)結(jié)時(shí)間分類(CTC)目標(biāo)函數(shù)來(lái)推斷語(yǔ)音和標(biāo)簽序列之間的對(duì)齊。使用WFSTs進(jìn)行解碼,它能有效的將詞典和語(yǔ)言模型結(jié)合到CTC解碼中。文中以音頻的特征參數(shù)作為聲學(xué)模型的輸入,輸出為音素序列的概率,最終實(shí)現(xiàn)基于LSTM-CTC的藏語(yǔ)語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,在現(xiàn)已有的藏語(yǔ)數(shù)據(jù)集,基于端到端語(yǔ)音識(shí)別結(jié)果比傳統(tǒng)的DNN-HMM方法效果好。...
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):4006525
【文章頁(yè)數(shù)】:45 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖4-2發(fā)音詞典
要根據(jù)藏語(yǔ)發(fā)音特點(diǎn),選取能夠行標(biāo)注,這樣以便在模型訓(xùn)練中音詞典是從詞到音素級(jí)別的映射字對(duì)應(yīng)的音素發(fā)音詞典如圖4-2所
圖4-4音素對(duì)映關(guān)系
圖4-4音素對(duì)映關(guān)系4.4章節(jié)所描述的解碼方法來(lái)生成搜索圖,第一步根據(jù)語(yǔ)言模型來(lái)t(語(yǔ)言模型),然后根據(jù)untils.txt來(lái)生成T.fst(音素或者字符),txt來(lái)生成L.fst(詞典),最后形成綜合搜索圖TLG.fst。步進(jìn)行特征提取,生成Fbank特....
圖4-9識(shí)別文本與原始文本對(duì)比
由18.94%下降至18.71%,下降了0.23%。根據(jù)實(shí)驗(yàn)結(jié)果可以得出使用CTC技術(shù),在80小時(shí)的數(shù)據(jù)集下,效果比較好,隨著網(wǎng)絡(luò)層數(shù)的增加,神經(jīng)元數(shù)目的增加,識(shí)別效果會(huì)進(jìn)一步的提升。但是每一層的神經(jīng)元數(shù)目減少,增加網(wǎng)絡(luò)層數(shù),識(shí)別的效果會(huì)有所下降。圖4-9為系統(tǒng)識(shí)別結(jié)果與....
本文編號(hào):4006525
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/4006525.html
最近更新
教材專著