基于IAM的深度學(xué)習(xí)語音情感識(shí)別算法研究
發(fā)布時(shí)間:2023-03-05 20:29
語音作為人與人溝通和情感傳遞的重要媒介,一直以來都是人工智能研究的重要方向。在傳統(tǒng)的情感識(shí)別系統(tǒng)研究中,如何提取更具有判別性的情感相關(guān)特征一直是研究界備受關(guān)注的內(nèi)容。目前,系統(tǒng)特征參數(shù)的選取具有一定的盲目性,系統(tǒng)操作復(fù)雜度和時(shí)間復(fù)雜度較高。尤其在一些復(fù)雜場景識(shí)別,比如:大規(guī)模語音數(shù)據(jù)集、情緒類別復(fù)雜的場景等,不能有效描述語音數(shù)據(jù)復(fù)雜的空間分布,對(duì)于語音的上下文信息利用也極其有限,傳統(tǒng)的語音情感識(shí)別方法已經(jīng)不能很好的解決以上問題。神經(jīng)網(wǎng)絡(luò)模型作為一種可以“自學(xué)習(xí)”的模型,被證明可以有效的解決特征提取分類的問題。本文針對(duì)傳統(tǒng)語音情感特征學(xué)習(xí)方法的不足,以注意力機(jī)制原理為基礎(chǔ),提出了基于改進(jìn)注意力機(jī)制(Improved Attention Mechanism,IAM)的深度學(xué)習(xí)情感識(shí)別優(yōu)化算法,該算法主要提出了一種改進(jìn)的注意力機(jī)制模型AItti(Attention Itti);然后,針對(duì)AItti模型全局特征丟失問題,提出了基于改進(jìn)空間權(quán)重的深度學(xué)習(xí)情感識(shí)別優(yōu)化算法,該算法以AItti模型為基礎(chǔ)進(jìn)一步提出了一種約束型空間權(quán)重網(wǎng)絡(luò)(Constraint-Space-Weight Network...
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 語音情感數(shù)據(jù)庫
1.2.2 情感特征參數(shù)
1.2.3 語音情感識(shí)別模型
1.2.4 語音情感識(shí)別主要難題
1.3 主要內(nèi)容及章節(jié)安排
第2章 語音情感識(shí)別及深度學(xué)習(xí)基礎(chǔ)知識(shí)
2.1 預(yù)處理
2.1.1 端點(diǎn)檢測(cè)
2.1.2 預(yù)加重
2.1.3 分幀、加窗
2.2 傳統(tǒng)情感特征參數(shù)
2.2.1 短時(shí)過零率
2.2.2 梅爾頻率倒譜系數(shù)
2.3 深度學(xué)習(xí)模型的語音特征提取
2.3.1 神經(jīng)網(wǎng)絡(luò)模型
2.3.2 反向傳播算法
2.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)和LSTM模型
2.3.4 CNN模型
2.4 分類器
2.5 本章小結(jié)
第3章 基于AItti的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
3.1 引言
3.2 基于AItti的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
3.2.1 語譜圖提取
3.3 AItti模型
3.4 混合神經(jīng)網(wǎng)絡(luò)
3.4.1 卷積層
3.4.2 歸一化層
3.4.3 池化層
3.4.4 BiLSTM層
3.4.5 Softmax分類器
3.4.6 有監(jiān)督訓(xùn)練
3.4.7 微調(diào)的CRNN模型
3.4.8 微調(diào)優(yōu)化
3.5 算法性能與實(shí)驗(yàn)結(jié)果分析
3.5.1 算法評(píng)估
3.5.2 數(shù)據(jù)庫
3.5.3 實(shí)驗(yàn)設(shè)置
3.5.4 實(shí)驗(yàn)結(jié)果與分析
3.6 本章小結(jié)
第4章 基于CSWNet的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
4.1 引言
4.2 擠壓-激勵(lì)網(wǎng)絡(luò)(SENet)
4.3 基于CSWNet的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
4.4 改進(jìn)的空間權(quán)重網(wǎng)絡(luò)
4.5 微調(diào)的CRNN模型
4.6 算法性能與實(shí)驗(yàn)分析
4.6.1 實(shí)驗(yàn)設(shè)置
4.6.2 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄
本文編號(hào):3756866
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 語音情感數(shù)據(jù)庫
1.2.2 情感特征參數(shù)
1.2.3 語音情感識(shí)別模型
1.2.4 語音情感識(shí)別主要難題
1.3 主要內(nèi)容及章節(jié)安排
第2章 語音情感識(shí)別及深度學(xué)習(xí)基礎(chǔ)知識(shí)
2.1 預(yù)處理
2.1.1 端點(diǎn)檢測(cè)
2.1.2 預(yù)加重
2.1.3 分幀、加窗
2.2 傳統(tǒng)情感特征參數(shù)
2.2.1 短時(shí)過零率
2.2.2 梅爾頻率倒譜系數(shù)
2.3 深度學(xué)習(xí)模型的語音特征提取
2.3.1 神經(jīng)網(wǎng)絡(luò)模型
2.3.2 反向傳播算法
2.3.3 循環(huán)神經(jīng)網(wǎng)絡(luò)和LSTM模型
2.3.4 CNN模型
2.4 分類器
2.5 本章小結(jié)
第3章 基于AItti的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
3.1 引言
3.2 基于AItti的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
3.2.1 語譜圖提取
3.3 AItti模型
3.4 混合神經(jīng)網(wǎng)絡(luò)
3.4.1 卷積層
3.4.2 歸一化層
3.4.3 池化層
3.4.4 BiLSTM層
3.4.5 Softmax分類器
3.4.6 有監(jiān)督訓(xùn)練
3.4.7 微調(diào)的CRNN模型
3.4.8 微調(diào)優(yōu)化
3.5 算法性能與實(shí)驗(yàn)結(jié)果分析
3.5.1 算法評(píng)估
3.5.2 數(shù)據(jù)庫
3.5.3 實(shí)驗(yàn)設(shè)置
3.5.4 實(shí)驗(yàn)結(jié)果與分析
3.6 本章小結(jié)
第4章 基于CSWNet的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
4.1 引言
4.2 擠壓-激勵(lì)網(wǎng)絡(luò)(SENet)
4.3 基于CSWNet的深度學(xué)習(xí)語音情感識(shí)別優(yōu)化算法
4.4 改進(jìn)的空間權(quán)重網(wǎng)絡(luò)
4.5 微調(diào)的CRNN模型
4.6 算法性能與實(shí)驗(yàn)分析
4.6.1 實(shí)驗(yàn)設(shè)置
4.6.2 實(shí)驗(yàn)結(jié)果與分析
4.7 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄
本文編號(hào):3756866
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3756866.html
最近更新
教材專著