結(jié)合語音和表情的多模態(tài)情感識別方法研究
發(fā)布時(shí)間:2024-01-19 18:15
情感識別是計(jì)算機(jī)視覺、模式識別等領(lǐng)域的研究熱點(diǎn),并隨著人工智能和深度學(xué)習(xí)技術(shù)的發(fā)展,受到了廣泛研究者的關(guān)注。表述情感的方式各種各樣,其中語音和表情是兩種最直接、最可靠的情感載體,結(jié)合語音和表情的多模態(tài)情感識別方法研究具有重要的現(xiàn)實(shí)意義。針對說話人、說話風(fēng)格、環(huán)境等其他與情感無關(guān)因素影響導(dǎo)致語音情感識別準(zhǔn)確率低的問題,給出了基于注意力模型和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別算法。利用卷積神經(jīng)網(wǎng)絡(luò)對圖像的處理能力以及對時(shí)間序列數(shù)據(jù)時(shí)頻特征有效的提取能力,將靜態(tài)、一階差分、二階差分的Mel頻譜作為神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),再利用注意力模型識別和刪掉靜音幀和情感無關(guān)幀,保留有效的情感信息,最后通過Softmax分類器進(jìn)行語音情感分類。通過在IEMOCAP和Emo-DB數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)得到89.25%和88.57%的識別準(zhǔn)確率,與在IEMOCAP數(shù)據(jù)庫上識別率最高的基于多核學(xué)習(xí)算法融合音頻特征得到84.52%的識別率相比,本文算法提高了4.73%;與在Emo-DB數(shù)據(jù)庫上識別率最高的基于BP神經(jīng)網(wǎng)絡(luò)進(jìn)行特征選擇方法得到86.11%的識別率相比,本文算法提高了2.46%,為下文提高多模態(tài)情感識別準(zhǔn)確率做準(zhǔn)備。針...
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的目的與意義
1.2 情感識別國內(nèi)外研究現(xiàn)狀及分析
1.2.1 單模態(tài)情感識別研究現(xiàn)狀及分析
1.2.2 多模態(tài)情感識別研究現(xiàn)狀及分析
1.3 本文主要研究內(nèi)容
第2章 多模態(tài)情感識別關(guān)鍵技術(shù)
2.1 多模態(tài)情感特征提取方法
2.2 多模態(tài)情感信息融合方法
2.3 多模態(tài)情感識別分類方法
2.4 本章小結(jié)
第3章 基于注意力模型和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別算法
3.1 算法的框架
3.2 算法的設(shè)計(jì)及理論分析
3.2.1 3-D Log-Mels生成
3.2.2 ACNN-LSTM的結(jié)構(gòu)
3.3 語音情感數(shù)據(jù)庫和實(shí)驗(yàn)環(huán)境
3.4 仿真實(shí)驗(yàn)及結(jié)果分析
3.5 本章小結(jié)
第4章 融合語音和表情的多模態(tài)情感識別方法
4.1 基于VGG-Face模型微調(diào)的表情識別
4.1.1 算法的框架
4.1.2 算法的設(shè)計(jì)及理論分析
4.1.3 面部表情數(shù)據(jù)庫及實(shí)驗(yàn)環(huán)境
4.1.4 仿真實(shí)驗(yàn)及結(jié)果分析
4.2 多模態(tài)情感識別融合算法的改進(jìn)
4.2.1 改進(jìn)融合算法的框架
4.2.2 改進(jìn)融合算法的設(shè)計(jì)及理論分析
4.2.3 多模態(tài)情感數(shù)據(jù)庫及實(shí)驗(yàn)環(huán)境
4.2.4 仿真實(shí)驗(yàn)及結(jié)果分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間的學(xué)術(shù)成果
致謝
本文編號:3880253
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題研究的目的與意義
1.2 情感識別國內(nèi)外研究現(xiàn)狀及分析
1.2.1 單模態(tài)情感識別研究現(xiàn)狀及分析
1.2.2 多模態(tài)情感識別研究現(xiàn)狀及分析
1.3 本文主要研究內(nèi)容
第2章 多模態(tài)情感識別關(guān)鍵技術(shù)
2.1 多模態(tài)情感特征提取方法
2.2 多模態(tài)情感信息融合方法
2.3 多模態(tài)情感識別分類方法
2.4 本章小結(jié)
第3章 基于注意力模型和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別算法
3.1 算法的框架
3.2 算法的設(shè)計(jì)及理論分析
3.2.1 3-D Log-Mels生成
3.2.2 ACNN-LSTM的結(jié)構(gòu)
3.3 語音情感數(shù)據(jù)庫和實(shí)驗(yàn)環(huán)境
3.4 仿真實(shí)驗(yàn)及結(jié)果分析
3.5 本章小結(jié)
第4章 融合語音和表情的多模態(tài)情感識別方法
4.1 基于VGG-Face模型微調(diào)的表情識別
4.1.1 算法的框架
4.1.2 算法的設(shè)計(jì)及理論分析
4.1.3 面部表情數(shù)據(jù)庫及實(shí)驗(yàn)環(huán)境
4.1.4 仿真實(shí)驗(yàn)及結(jié)果分析
4.2 多模態(tài)情感識別融合算法的改進(jìn)
4.2.1 改進(jìn)融合算法的框架
4.2.2 改進(jìn)融合算法的設(shè)計(jì)及理論分析
4.2.3 多模態(tài)情感數(shù)據(jù)庫及實(shí)驗(yàn)環(huán)境
4.2.4 仿真實(shí)驗(yàn)及結(jié)果分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間的學(xué)術(shù)成果
致謝
本文編號:3880253
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3880253.html
最近更新
教材專著