高斯混合模型用于語音情感識別研究
發(fā)布時間:2017-08-16 04:11
本文關(guān)鍵詞:高斯混合模型用于語音情感識別研究
更多相關(guān)文章: 語音情感識別 特征提取 支持向量機(SVM) 高斯混合模型(GMM) 期望最大化(EM)
【摘要】:語音情感識別技術(shù)是人工智能(AI)領(lǐng)域的一個重要分支,該技術(shù)是通過對語音信號進行分析處理來識別說話者當時的情感狀態(tài)。隨著計算機科學(xué)技術(shù)與其他學(xué)科如生理學(xué)、心理學(xué)、統(tǒng)計學(xué)等相互交叉和發(fā)展,語音情感識別技術(shù)獲得了顯著的進展。情感自身具有主觀性和復(fù)雜性,對情感進行建模,開展情感計算研究具有重大的理論和實踐意義。隨著計算機技術(shù)和機器智能技術(shù)的發(fā)展,越來越多的人工智能設(shè)備和產(chǎn)品將會被開發(fā)出來,并會在社會生活的各個領(lǐng)域中得到廣泛的應(yīng)用,如教育行業(yè)、醫(yī)學(xué)界、服務(wù)行業(yè)和工業(yè)等領(lǐng)域。本文采用高斯混合模型,對語音情感識別問題做了較系統(tǒng)的研究。首先,基于情感理論基礎(chǔ)知識確立了本文的實驗語料庫,并選取了四種基本情感狀態(tài)作為本文的研究對象,即生氣、高興、恐懼、悲傷。接著對語音信號進行預(yù)處理操作,便于提取更為有效的情感特征。其次,鑒于語音情感特征提取的好壞將會直接影響識別的效果,所以本文的特征參數(shù)提取兼顧韻律學(xué)、音質(zhì)以及譜等三個方面,這些特征分別是語速、短時能量、基音頻率、共振峰參數(shù)以及Mel頻率倒譜系數(shù)(MFCC)五類特征,對這一系列特征進行提取計算和分析研究,最終確定了21種語音情感特征作為高斯混合模型(GMM)的輸入?yún)?shù)。再次,通過選取不同的情感特征和不同的識別模型進行實驗,尋找能區(qū)分各種情感的有效情感特征。本文先選用支持向量機(SVM)模型進行識別,通過對比不同的核函數(shù)的識別效果決定選用線性核,并且使用網(wǎng)格搜索法確定了用于識別的最優(yōu)參數(shù);然后采用層次模型決策樹、分層模型分別進行識別。最后,利用已確定的21種語音情感特征和高斯混合模型在語料庫的訓(xùn)練數(shù)據(jù)集上對四種基本情感建立識別模型。在建模的過程中,使用到了極大似然估計(MLE)和期望最大化(EM)算法對高斯混合模型的參數(shù)進行優(yōu)化。在進行優(yōu)化訓(xùn)練的過程中,極大似然估計詳細推演了期望最大化算法迭代并直到最后收斂的過程。最終確定了最優(yōu)的高斯混合模型,并使用該模型在測試數(shù)據(jù)集上進行了識別實驗。同時對其他三種識別模型(即支持向量機、決策樹和分層模型)的實驗結(jié)果做了詳細的分析,最后通過對比分析四種模型的實驗結(jié)果說明了使用高斯混合模型在本文選取的四種基本情感進行識別時具有更強的區(qū)分能力,同時也驗證了期望最大化算法的參數(shù)估計對高斯混合模型的識別率具有重大影響。
【關(guān)鍵詞】:語音情感識別 特征提取 支持向量機(SVM) 高斯混合模型(GMM) 期望最大化(EM)
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要3-5
- Abstract5-9
- 第一章 緒論9-13
- 1.1 語音情感識別研究背景及意義9-10
- 1.2 語音情感識別歷史概述10-11
- 1.3 語音情感識別國內(nèi)外研究現(xiàn)狀11-12
- 1.4 語音情感識別所面臨的問題12
- 1.5 論文的章節(jié)安排12-13
- 第二章 情感理論的基礎(chǔ)13-19
- 2.1 情感的定義13
- 2.2 情感的分類13-16
- 2.2.1 離散情感模型13-14
- 2.2.2 維度情感模型14-16
- 2.2.3 兩種情感模型的比較16
- 2.3 情感語料庫的建立16-18
- 2.3.1 代表性的情感語料庫介紹16-17
- 2.3.2 本文選用的語料庫17-18
- 2.4 本章小結(jié)18-19
- 第三章 語音信號的預(yù)處理和情感特征參數(shù)的提取19-36
- 3.1 語音信號的預(yù)處理19-24
- 3.1.1 預(yù)加重處理19-20
- 3.1.2 分幀加窗處理20-23
- 3.1.3 語音信號的端點檢測23-24
- 3.2 語音情感特征的提取24-35
- 3.2.1 語速25
- 3.2.2 短時能量25-29
- 3.2.3 基音頻率29-32
- 3.2.4 共振峰32-33
- 3.2.5 Mel頻率倒譜系數(shù)33-35
- 3.3 本章小結(jié)35-36
- 第四章 語音情感的識別模型36-47
- 4.1 支持向量機36-42
- 4.1.1 支持向量機理論36-39
- 4.1.2 支持向量機多分類39-40
- 4.1.3 實驗及結(jié)果分析40-42
- 4.2 層次模型42-45
- 4.2.1 決策樹基本流程42-43
- 4.2.2 決策樹實驗及結(jié)果分析43-44
- 4.2.3 分層模型實驗及結(jié)果分析44-45
- 4.3 本章小結(jié)45-47
- 第五章 語音基本情感的高斯混合模型47-55
- 5.1 高斯混合模型的理論基礎(chǔ)47
- 5.2 語音基本情感的高斯混合模型的實驗47-53
- 5.2.1 GMM模型參數(shù)初始化48
- 5.2.2 GMM模型參數(shù)估計48-52
- 5.2.3 GMM模型的語音基本情感識別52-53
- 5.3 實驗結(jié)果分析53-54
- 5.4 本章小結(jié)54-55
- 第六章 總結(jié)和展望55-57
- 6.1 總結(jié)55
- 6.2 展望55-57
- 參考文獻57-61
- 致謝61-62
本文編號:681363
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/681363.html
最近更新
教材專著