基于深度學習的移動端語音識別系統(tǒng)設(shè)計
發(fā)布時間:2024-03-04 04:23
隨著深度學習技術(shù)研究的深入,語音識別同樣已經(jīng)完成了從傳統(tǒng)模型到深度學習的過渡,本文主要實現(xiàn)移動端離線狀態(tài)下的語音識別并提高語音識別的精度。文中采用深度學習的方式,將在電腦上訓練好的模型移植到樹莓派3b+上進行語音識別操作。項目整體結(jié)構(gòu)可以分為聲學模型及語言模型兩個部分,同語音識別中其他主流模型進行對比測試后,得到的結(jié)論是聲學模型DFCNN和語言模型Transformer的編碼器部分都適合移植于嵌入式端,在成本遠低于市場上既有語音識別產(chǎn)品的情況下,識別效果和速度都非常接近。
【文章頁數(shù)】:5 頁
【部分圖文】:
本文編號:3918892
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1語音識別系統(tǒng)框圖
預(yù)測時利用優(yōu)化后的DFCNN模型生成輸入語音對應(yīng)的拼音后,再通過Transformer編碼器生成的語言模型進行拼音-漢字轉(zhuǎn)換,最后得到預(yù)測出的漢字。語音識別系統(tǒng)框圖如圖1所示。1.1音頻信號預(yù)處理
圖2音頻樣本數(shù)據(jù)預(yù)處理流程圖
1.1音頻信號預(yù)處理音頻信號的預(yù)處理過程主要分為三個步驟:預(yù)加重、分幀和加窗。音頻預(yù)處理流程如圖2所示。
圖3幀長與幀移關(guān)系圖
經(jīng)過研究后發(fā)現(xiàn)15~30ms間的音頻信號幾乎沒有波動,因此需要對音頻信號進行分幀操作,最好的辦法就是通過加窗將音頻信號轉(zhuǎn)換為大量的短時平穩(wěn)信號,幀長與幀移的關(guān)系如圖3所示。(3)加窗
圖4語譜圖的生成過程
由前文可知,音頻信號經(jīng)過預(yù)處理之后仍需要進行去噪取模取對數(shù)操作,具體的語譜圖生成過程如圖4所示。DFCNN中通過卷積神經(jīng)網(wǎng)絡(luò)對圖像進行特征值提取,而本設(shè)計采用同樣的方法將音頻信號轉(zhuǎn)換為語譜圖。將預(yù)處理后得到的時域音頻信號轉(zhuǎn)換為語譜圖,需對信號進行短時離散傅里葉變換,計算方法如下:
本文編號:3918892
本文鏈接:http://sikaile.net/kejilunwen/wltx/3918892.html
最近更新
教材專著