基于深度學習的移動端語音識別系統(tǒng)設計

發(fā)布時間：2024-03-04 04:23

　　隨著深度學習技術(shù)研究的深入,語音識別同樣已經(jīng)完成了從傳統(tǒng)模型到深度學習的過渡,本文主要實現(xiàn)移動端離線狀態(tài)下的語音識別并提高語音識別的精度。文中采用深度學習的方式,將在電腦上訓練好的模型移植到樹莓派3b+上進行語音識別操作。項目整體結(jié)構(gòu)可以分為聲學模型及語言模型兩個部分,同語音識別中其他主流模型進行對比測試后,得到的結(jié)論是聲學模型DFCNN和語言模型Transformer的編碼器部分都適合移植于嵌入式端,在成本遠低于市場上既有語音識別產(chǎn)品的情況下,識別效果和速度都非常接近。

【文章頁數(shù)】：5 頁

【部分圖文】：

圖1語音識別系統(tǒng)框圖

預測時利用優(yōu)化后的DFCNN模型生成輸入語音對應的拼音后，再通過Transformer編碼器生成的語言模型進行拼音-漢字轉(zhuǎn)換，最后得到預測出的漢字。語音識別系統(tǒng)框圖如圖1所示。1.1音頻信號預處理

圖2音頻樣本數(shù)據(jù)預處理流程圖

1.1音頻信號預處理音頻信號的預處理過程主要分為三個步驟：預加重、分幀和加窗。音頻預處理流程如圖2所示。

圖3幀長與幀移關(guān)系圖

經(jīng)過研究后發(fā)現(xiàn)15～30ms間的音頻信號幾乎沒有波動，因此需要對音頻信號進行分幀操作，最好的辦法就是通過加窗將音頻信號轉(zhuǎn)換為大量的短時平穩(wěn)信號，幀長與幀移的關(guān)系如圖3所示。(3）加窗

圖4語譜圖的生成過程

由前文可知，音頻信號經(jīng)過預處理之后仍需要進行去噪取模取對數(shù)操作，具體的語譜圖生成過程如圖4所示。DFCNN中通過卷積神經(jīng)網(wǎng)絡對圖像進行特征值提取，而本設計采用同樣的方法將音頻信號轉(zhuǎn)換為語譜圖。將預處理后得到的時域音頻信號轉(zhuǎn)換為語譜圖，需對信號進行短時離散傅里葉變換，計算方法如下：

本文編號：3918892

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/wltx/3918892.html

上一篇：信道預測天線選擇的空時分組碼物理層安全增強
下一篇：基于改進的L 1 趨勢濾波算法的光纖鏈路故障檢測

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的移動端語音識別系統(tǒng)設計