面向語音情感識別的深度學習算法研究
發(fā)布時間:2020-09-29 19:16
眾所周知,語音是人機交互最自然和最理想的方式之一。目前,人機交互中機器雖已實現(xiàn)與人類進行交流的基本需求,但往往忽略了語音中承載的豐富的情感信息,還遠無法像人與人交流那般自然和友好。未來,提升人機交互的體驗需要語音情感識別的輔助。近年來,深度學習已經(jīng)在各個領域中都取得了巨大的成功,本文主要研究了基于深度學習的語音情感識別,并提出了若干改進算法用于改善語音情感識別。本文主要工作和創(chuàng)新點如下:(1)學習了語音情感識別的研究背景和意義,并從語音情感領域的四大問題:語音情感描述模型、語音情感數(shù)據(jù)庫、語音情感特征、語音情感識別算法入手總結了相關的研究歷史和現(xiàn)狀。(2)介紹了在語音情感識別領域的特征處理工作,包括語音信號的預處理;關鍵特征的提取,如短時能量、短時過零率、共振峰、梅爾倒譜系數(shù)等;介紹了語音情感特征參數(shù)的全局統(tǒng)計特性的提取;最后介紹了常用的特征降維算法,并詳述了本文實驗使用的主分成分析算法,對特征進行“白化”和降維,為后續(xù)實驗提供數(shù)據(jù)支持。(3)介紹了模式識別、機器學習以及它們之間的聯(lián)系,并詳細研究了在語音情感識別領域常使用的機器學習算法,包括K近鄰準則、softmax回歸、支持向量機、稀疏表示、神經(jīng)網(wǎng)絡,為后續(xù)提出的算法提供算法對比支持。研究了深度學習在特征學習上的優(yōu)勢和一些主流的深度學習結構,為后續(xù)章節(jié)提供理論支持。(4)提出了一種改進的棧式自編碼結構用于語音情感識別,該結構既利用了降噪自編碼器的魯棒性,也利用了稀疏自編碼器稀疏性。該結構主要包括2層,第一層使用降噪自編碼學習一個比輸入特征維數(shù)大的隱藏特征;為提高算法性能,第二層采用稀疏自編碼從大量神經(jīng)元中學習稀疏性特征,并基于得到的特征進行訓練學習,最終將特征輸入分類器中,進行分類識別。算法首先采用逐層預訓練的方法,達到網(wǎng)絡參數(shù)全面初始化的目的,然后通過反向傳播算法對整個網(wǎng)絡進行微調,從而生成用于識別的棧式自編碼網(wǎng)絡。實驗顯示,相較于單獨使用棧式降噪或稀疏自編碼,該結構具有更好的識別效果。此外,基于CASIA子庫的對比實驗顯示,該結構遠遠優(yōu)于K近鄰算法,識別率提高了53.7%,與稀疏表示方法相比提高了29.8%,比傳統(tǒng)支持向量機提高14.28%,比人工神經(jīng)網(wǎng)絡提高1.9%。在自行錄制語音庫中該結構的識別率比人工神經(jīng)網(wǎng)絡提高了1.64%。(5)提出了一種融合注意力機制的循環(huán)神經(jīng)網(wǎng)絡結構,該結構能結合循環(huán)神經(jīng)網(wǎng)絡在學習時序數(shù)據(jù)方面的優(yōu)勢以及注意力機制可以學習特征權重的特點,使用簡單的手工特征就能學習到更優(yōu)的深度加權特征。該結構主要包含4層網(wǎng)絡,第一層使用雙向循環(huán)神經(jīng)網(wǎng)絡學習輸入的時間依賴關系;第二層使用單向循環(huán)神經(jīng)網(wǎng)絡對特征進行再一次的學習,得到深度特征;第三層使用注意力機制層學習特征的權重,并對特征進行加權融合,使學習到的特征更具表征能力;第四層使用全連層網(wǎng)絡對加權后的特征進行學習,并將學習后的特征送入到分類器中進行分類。在CASIA_A庫的實驗表明,該結構的平均識別率最優(yōu)達到88.19%,識別率比僅使用RNNs結構高出4%~5%,并且該結構明顯提高了高興和憤怒這兩種情感的識別率。在CASIA_B庫中的實驗表明,該結構最優(yōu)識別率達到89.21%,比他人提出的使用深度自編碼結構在平均識別率上提高了5.71%,在不同情感類別上的識別率也均有提高。
【學位單位】:東南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.34;TP181
【文章目錄】:
摘要
Abstract
縮略詞表
第一章 緒論
1.1 研究背景與意義
1.2 研究歷史與現(xiàn)狀
1.2.1 語音情感描述模型
1.2.2 語音情感數(shù)據(jù)庫
1.2.3 語音情感特征
1.2.4 語音情感識別算法
1.3 本文的主要工作以及章節(jié)結構
第二章 語音情感特征參數(shù)的分析與提取
2.1 語音信號的預處理
2.1.1 預加重
2.1.2 分幀加窗
2.2 語音情感信號特征參數(shù)提取
2.2.1 短時能量及其衍生參數(shù)
2.2.2 基音頻率及其衍生參數(shù)
2.2.3 共振峰及其衍生參數(shù)
2.2.4 短時過零率
2.2.5 梅爾倒譜系數(shù)
2.3 特征參數(shù)的統(tǒng)計特性分析
2.4 特征預處理和降維
2.5 本章小節(jié)
第三章 機器學習及深度學習基本方法
3.1 模式識別與機器學習
3.2 幾種常用的機器學習算法
3.2.1 K近鄰
3.2.2 softmax回歸
3.2.3 支持向量機
3.2.4 稀疏表示
3.2.5 人工神經(jīng)網(wǎng)絡
3.3 深度學習
3.3.1 DNNs
3.3.2 CNNs
3.3.3 RNNs
3.3.4 SAEs
3.3.5 GANs
3.4 本章小結
第四章 基于改進的StackedAuto-Encoders的語音情感識別
4.1 改進棧式自編碼神經(jīng)網(wǎng)絡
4.1.1 棧式自編碼原理
4.1.2 改進的棧式自編碼結構
4.1.3 算法整體流程
4.2 實驗設置
4.3 實驗
4.3.1 基本分類器識別率的比較
4.3.2 不同隱藏層數(shù)的神經(jīng)網(wǎng)絡的比較
4.3.3 不同類型自編碼器的比較
4.3.4 實驗結果分析
4.4 本章小結
第五章 基于Attention-RNNs的語音情感識別
5.1 RNNs基本原理
5.1.1 RNNs
5.1.2 LSTM
5.1.3 GRU
5.2 注意力機制與語音情感識別
5.2.1 Attention
5.2.2 Attention與語音情感
5.3 Attention-RNNs模型
5.4 實驗設置
5.4.1 數(shù)據(jù)庫
5.4.2 樣本預處理
5.4.3 實驗策略設置
5.5 CASIA_A實驗分析
5.5.1 平均識別率分析
5.5.2 識別率和誤差曲線
5.5.3 不同情感識別率分析
5.5.4 混淆矩陣分析
5.5.5 模型特征學習有效性分析
5.6 CASIA_B實驗分析
5.6.1 平均識別率對比
5.6.2 不同情感識別率對比
5.7 本章小節(jié)
第六章 總結與展望
6.1 論文工作總結
6.2 研究方向展望
致謝
參考文獻
攻讀碩士學位期間發(fā)表的論文
本文編號:2830143
【學位單位】:東南大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TN912.34;TP181
【文章目錄】:
摘要
Abstract
縮略詞表
第一章 緒論
1.1 研究背景與意義
1.2 研究歷史與現(xiàn)狀
1.2.1 語音情感描述模型
1.2.2 語音情感數(shù)據(jù)庫
1.2.3 語音情感特征
1.2.4 語音情感識別算法
1.3 本文的主要工作以及章節(jié)結構
第二章 語音情感特征參數(shù)的分析與提取
2.1 語音信號的預處理
2.1.1 預加重
2.1.2 分幀加窗
2.2 語音情感信號特征參數(shù)提取
2.2.1 短時能量及其衍生參數(shù)
2.2.2 基音頻率及其衍生參數(shù)
2.2.3 共振峰及其衍生參數(shù)
2.2.4 短時過零率
2.2.5 梅爾倒譜系數(shù)
2.3 特征參數(shù)的統(tǒng)計特性分析
2.4 特征預處理和降維
2.5 本章小節(jié)
第三章 機器學習及深度學習基本方法
3.1 模式識別與機器學習
3.2 幾種常用的機器學習算法
3.2.1 K近鄰
3.2.2 softmax回歸
3.2.3 支持向量機
3.2.4 稀疏表示
3.2.5 人工神經(jīng)網(wǎng)絡
3.3 深度學習
3.3.1 DNNs
3.3.2 CNNs
3.3.3 RNNs
3.3.4 SAEs
3.3.5 GANs
3.4 本章小結
第四章 基于改進的StackedAuto-Encoders的語音情感識別
4.1 改進棧式自編碼神經(jīng)網(wǎng)絡
4.1.1 棧式自編碼原理
4.1.2 改進的棧式自編碼結構
4.1.3 算法整體流程
4.2 實驗設置
4.3 實驗
4.3.1 基本分類器識別率的比較
4.3.2 不同隱藏層數(shù)的神經(jīng)網(wǎng)絡的比較
4.3.3 不同類型自編碼器的比較
4.3.4 實驗結果分析
4.4 本章小結
第五章 基于Attention-RNNs的語音情感識別
5.1 RNNs基本原理
5.1.1 RNNs
5.1.2 LSTM
5.1.3 GRU
5.2 注意力機制與語音情感識別
5.2.1 Attention
5.2.2 Attention與語音情感
5.3 Attention-RNNs模型
5.4 實驗設置
5.4.1 數(shù)據(jù)庫
5.4.2 樣本預處理
5.4.3 實驗策略設置
5.5 CASIA_A實驗分析
5.5.1 平均識別率分析
5.5.2 識別率和誤差曲線
5.5.3 不同情感識別率分析
5.5.4 混淆矩陣分析
5.5.5 模型特征學習有效性分析
5.6 CASIA_B實驗分析
5.6.1 平均識別率對比
5.6.2 不同情感識別率對比
5.7 本章小節(jié)
第六章 總結與展望
6.1 論文工作總結
6.2 研究方向展望
致謝
參考文獻
攻讀碩士學位期間發(fā)表的論文
【參考文獻】
相關期刊論文 前4條
1 韓文靜;李海峰;阮華斌;馬琳;;語音情感識別研究進展綜述[J];軟件學報;2014年01期
2 蔣慶斌;包永強;王浩;趙力;;基于改進GMM的耳語語音情感識別方法研究[J];計算機應用與軟件;2012年11期
3 陳才扣;喻以明;史俊;;一種快速的基于稀疏表示分類器[J];南京大學學報(自然科學版);2012年01期
4 趙力,將春輝,鄒采榮,吳鎮(zhèn)揚;語音信號中的情感特征分析和識別的研究[J];電子學報;2004年04期
相關博士學位論文 前1條
1 張雪源;面向音頻檢索的音頻特征分析方法研究[D];華南理工大學;2015年
本文編號:2830143
本文鏈接:http://sikaile.net/kejilunwen/wltx/2830143.html
最近更新
教材專著