基于可分離卷積與LSTM的語音情感識別研究
發(fā)布時間:2021-02-11 08:22
語音情感識別是人機交互領(lǐng)域的一個研究熱點。針對普通卷積神經(jīng)網(wǎng)絡(luò)參數(shù)量過大和不能較好地處理時序信息的問題,文中給出將可分離卷積與LSTM應(yīng)用于語音情感識別的方法,在RAVDESS情感語料庫上進行了驗證,利用MFCC特征訓(xùn)練的1D Sep-CNN-LSTM模型獲得了90.77%的識別準(zhǔn)確率,模型壓縮了約40%。利用語譜圖特征訓(xùn)練的2D Sep-CNN-LSTM模型獲得了82.21%的識別準(zhǔn)確率,模型壓縮了約75%。實驗表明,該方法相較其他模型在語音情感識別應(yīng)用上有一定的優(yōu)越性,適合于實時下位機的應(yīng)用。
【文章來源】:信息技術(shù). 2020,44(10)
【文章頁數(shù)】:6 頁
【部分圖文】:
可分離卷積
本文的語音情感識別流程如圖7所示。首先對原始語音進行端點檢測修剪語音和濾波去噪后,分別提取了MFCC和語譜圖特征,然后再輸入到搭建好的模型中用以訓(xùn)練得到結(jié)果。4.1 硬件配置
1D Sep-CNN-LSTM訓(xùn)練過程準(zhǔn)確率曲線如圖8所示,模型訓(xùn)練在迭代了300次后基本趨于平穩(wěn),最后模型在測試集上獲得了90.77%的識別率。其在測試集上的混淆矩陣如圖9所示,該模型對各個表情識別率都較高,其中識別準(zhǔn)確率最高的情感是calm,達到了95%,最低的是happy,為88%。圖9 1D Sep-CNN-LSTM的混淆矩陣
【參考文獻】:
期刊論文
[1]基于變分模態(tài)分解的語音情感識別方法[J]. 王瑋蔚,張秀再. 應(yīng)用聲學(xué). 2019(02)
[2]基于DBN的多模態(tài)音樂情感分類研究[J]. 趙勇飛,王宇,周義凱,袁燕. 信息技術(shù). 2019(02)
本文編號:3028815
【文章來源】:信息技術(shù). 2020,44(10)
【文章頁數(shù)】:6 頁
【部分圖文】:
可分離卷積
本文的語音情感識別流程如圖7所示。首先對原始語音進行端點檢測修剪語音和濾波去噪后,分別提取了MFCC和語譜圖特征,然后再輸入到搭建好的模型中用以訓(xùn)練得到結(jié)果。4.1 硬件配置
1D Sep-CNN-LSTM訓(xùn)練過程準(zhǔn)確率曲線如圖8所示,模型訓(xùn)練在迭代了300次后基本趨于平穩(wěn),最后模型在測試集上獲得了90.77%的識別率。其在測試集上的混淆矩陣如圖9所示,該模型對各個表情識別率都較高,其中識別準(zhǔn)確率最高的情感是calm,達到了95%,最低的是happy,為88%。圖9 1D Sep-CNN-LSTM的混淆矩陣
【參考文獻】:
期刊論文
[1]基于變分模態(tài)分解的語音情感識別方法[J]. 王瑋蔚,張秀再. 應(yīng)用聲學(xué). 2019(02)
[2]基于DBN的多模態(tài)音樂情感分類研究[J]. 趙勇飛,王宇,周義凱,袁燕. 信息技術(shù). 2019(02)
本文編號:3028815
本文鏈接:http://sikaile.net/kejilunwen/wltx/3028815.html
最近更新
教材專著