PAD情緒模型在情感語音識別中的應用研究
本文關(guān)鍵詞:PAD情緒模型在情感語音識別中的應用研究
更多相關(guān)文章: 情感語音識別 情感語音數(shù)據(jù)庫 PAD情緒模型 相關(guān)性分析 猶豫模糊信息
【摘要】:人類日常生活中的語音除了蘊含著基本的文字信息,還飽含著復雜的情感狀態(tài)。本文以情感計算為背景,在構(gòu)建一個自然、真實、有效的情感語音數(shù)據(jù)庫的基礎上,引入連續(xù)維度情感理論的PAD三維情緒模型,利用猶豫模糊信息對語音的三維PAD值進行了預測,實現(xiàn)了語音情感的定量化研究。所做的主要工作有以下幾點:1.選擇高興、憤怒、悲傷、驚奇四種情感類別,采用截取廣播劇的方式獲取所需四種情感的摘引型語音數(shù)據(jù)庫。相較于表演型情感語音數(shù)據(jù)庫,該數(shù)據(jù)庫由于是從廣播劇中截取獲得,因此情感類型豐富,人物多樣,生活場景繁多,情感語音更加貼近現(xiàn)實生活,符合日常表達習慣,具有較好的實用性。2.為了確保情感語音數(shù)據(jù)庫的質(zhì)量,建立了合理有效的評價模型,對截取獲得的初選階段語音庫進行了評價篩選:首先以模糊判決為主,借助層次分析法和熵權(quán)法確定綜合評價指標的權(quán)重,建立基于層次分析法和熵權(quán)法的模糊綜合評價體系,然后分別從情感準確度、背景噪聲影響、清晰度、自然度、畫面感五個方面建立情感語音數(shù)據(jù)庫評價指標體系,最后運用該模型對截取的情感語音數(shù)據(jù)庫進行模糊綜合評價,篩選并建立了最終的情感語音數(shù)據(jù)庫TYUT2.0。3.給出了情感語音特征與PAD三維情緒模型相關(guān)性研究的新思路。不僅從傳統(tǒng)離散角度描述情感類型,即研究高興、憤怒、悲傷、驚奇四種基本情感,還從連續(xù)維度情感理論角度來分析語音庫中的情感內(nèi)容,使用了心理學標注的PAD(愉悅度、激活度、優(yōu)勢度)三維情緒模型對情感語音進行描述,提出了一種情感語音特征與PAD情緒模型相關(guān)性分析方法。在TYUT2.0情感語音數(shù)據(jù)庫的基礎上,提取梅爾頻率倒譜系數(shù)、線性預測系數(shù)、韻律特征、共振峰頻率和過零峰值幅度特征五種語音特征并應用于情感語音識別,首次將識別結(jié)果映射到PAD三維情緒空間中,利用Pearson相關(guān)方法將機器識別出的情感所對應的PAD三個維度值與真實情感所對應的PAD值進行相關(guān)性計算,分析PAD模型中三個維度和不同聲學特征之間的相關(guān)性。利用情感語音識別結(jié)果的相關(guān)性分析可以對語音特征進行優(yōu)化調(diào)整,為接下來的基于連續(xù)維度的情感語音識別提供基礎。4.提出了一種新的基于猶豫模糊信息的決策級融合方法。根據(jù)不同特征的識別結(jié)果,通過聲學特征與PAD三個維度間的相關(guān)系數(shù)確定不同特征的決策級融合權(quán)重,最后利用猶豫模糊集的相似度融合預測了語音在PAD情緒空間模型中的三個維度值,得出情感語音在連續(xù)維度角度的數(shù)值表示,實現(xiàn)基于連續(xù)維度的情感語音識別。通過情感語音在愉悅度、激活度、優(yōu)勢度上的空間分布,進一步分析語音的情感狀態(tài)由哪些基本情感構(gòu)成,也可根據(jù)其空間分布為情感語音識別的誤判原因提供研究基礎。
【關(guān)鍵詞】:情感語音識別 情感語音數(shù)據(jù)庫 PAD情緒模型 相關(guān)性分析 猶豫模糊信息
【學位授予單位】:太原理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-16
- 1.1 課題研究的背景及意義10-11
- 1.2 情感語音識別的國內(nèi)外動態(tài)11-12
- 1.2.1 國外動態(tài)11-12
- 1.2.2 國內(nèi)動態(tài)12
- 1.3 情感語音識別研究面臨的問題12-13
- 1.4 完成的主要工作13-15
- 1.5 文章結(jié)構(gòu)安排15-16
- 第二章 情感語音識別的基本理論16-30
- 2.1 語音的產(chǎn)生16
- 2.2 情感語音識別系統(tǒng)組成16-17
- 2.3 語音信號的預處理17-19
- 2.4 情感語音的特征提取19-24
- 2.4.1 基于譜的相關(guān)特征19-22
- 2.4.2 韻律學特征22-23
- 2.4.3 音質(zhì)特征23-24
- 2.4.4 基于人耳聽覺模型的特征-ZCPA24
- 2.5 情感語音識別算法24-28
- 2.5.1 人工神經(jīng)網(wǎng)絡25
- 2.5.2 隱馬爾科夫模型25-26
- 2.5.3 高斯混合模型26-27
- 2.5.4 支持向量機27
- 2.5.5 模糊認知圖27-28
- 2.6 本章小結(jié)28-30
- 第三章 TYUT2.0 情感語音數(shù)據(jù)庫的建立30-44
- 3.1 情感的定義30
- 3.2 情感的表達方式30-31
- 3.3 情感的分類31-32
- 3.4 情感語音數(shù)據(jù)庫綜述32-34
- 3.4.1 情感語音數(shù)據(jù)庫的分類32-33
- 3.4.2 經(jīng)典情感語音數(shù)據(jù)庫介紹33-34
- 3.5 TYUT2.0 情感語音數(shù)據(jù)庫的建立34-42
- 3.5.1 初選階段情感語音數(shù)據(jù)庫的建立34-36
- 3.5.2 情感語音的模糊綜合評價模型36-41
- 3.5.3 有效性驗證實驗41-42
- 3.6 本章小結(jié)42-44
- 第四章 語音特征與PAD三維空間的相關(guān)性分析44-58
- 4.1 原理框圖44-45
- 4.2 PAD三維情緒模型45-46
- 4.3 極限學習機46-51
- 4.3.1 單隱層前饋神經(jīng)網(wǎng)絡46-48
- 4.3.2 基于核函數(shù)ELM的廣義單隱層前饋神經(jīng)網(wǎng)絡模型48-50
- 4.3.3 人工蜂群算法優(yōu)化核函數(shù)ELM參數(shù)50-51
- 4.4 情感語音識別中的應用51-52
- 4.5 相關(guān)性分析52-55
- 4.5.1 Pearson相關(guān)系數(shù)52
- 4.5.2 結(jié)果分析52-55
- 4.6 本章小結(jié)55-58
- 第五章 基于PAD情緒模型的情感語音識別58-66
- 5.1 基于PAD三維情緒模型的多特征融合58-59
- 5.2 相關(guān)性分析確定特征權(quán)值59-60
- 5.3 猶豫模糊信息融合PAD值60-64
- 5.3.1 猶豫模糊信息60-62
- 5.3.2 加權(quán)融合預測PAD值62-64
- 5.4 本章小結(jié)64-66
- 第六章 總結(jié)與展望66-68
- 6.1 總結(jié)66-67
- 6.2 下一步工作展望67-68
- 參考文獻68-74
- 致謝74-76
- 攻讀學位期間發(fā)表的學術(shù)論文目錄76
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭遠瓊;提高語音識別率點滴[J];電腦技術(shù);2000年03期
2 邢文;語音識別[J];個人電腦;2000年02期
3 ;語音識別的真相[J];個人電腦;2001年12期
4 ;語音識別漸入佳境[J];個人電腦;2002年03期
5 ;微軟語音識別軟件可與人直接對話[J];自動化博覽;2003年04期
6 ;語音識別[J];印刷世界;2004年01期
7 杰里米·瓦格斯塔夫;讓語音識別軟件 解放你的雙手[J];農(nóng)業(yè)圖書情報學刊;2004年03期
8 韓紀慶,王歡良,李海峰,鄭鐵然;基于語音識別的發(fā)音學習技術(shù)[J];電聲技術(shù);2004年09期
9 陳孝強;語音識別擬起新潮[J];微電腦世界;2005年07期
10 韓紀慶;張磊;鄭鐵然;;網(wǎng)絡環(huán)境下的語音識別方法[J];計算機科學;2005年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張歆奕;吳今培;張其善;;語音的共性特征及其在語音識別中的應用[A];第十屆全國信號處理學術(shù)年會(CCSP-2001)論文集[C];2001年
2 杜樹木;何良華;;一種新的基于段長分布的語音識別模型[A];2009年通信理論與信號處理學術(shù)年會論文集[C];2009年
3 李楨;高萬林;歐文浩;徐山川;;基于關(guān)鍵詞語音識別的農(nóng)業(yè)信息語音服務系統(tǒng)的研究與實現(xiàn)[A];中國農(nóng)業(yè)工程學會電氣信息與自動化專業(yè)委員會、中國電機工程學會農(nóng)村電氣化分會科技與教育專委會2010年學術(shù)年會論文摘要[C];2010年
4 張冰;龍長才;羅海風;;熟悉掩蔽音背景下的目標語音識別[A];泛在信息社會中的聲學——中國聲學學會2010年全國會員代表大會暨學術(shù)會議論文集[C];2010年
5 王承發(fā);趙德彬;金山;苗百利;朱志瑩;;語音識別應用中抗噪聲干擾方法的初步探討[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
6 杜笑平;楊啟綱;楊家沅;;過零周期轉(zhuǎn)移概率矩陣語音識別部件的研制[A];第二屆全國人機語音通訊學術(shù)會議論文集[C];1992年
7 季宏;劉志文;杜燕玲;黃曾陽;;語音識別中的音字轉(zhuǎn)換[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年
8 葛余博;楊大利;曾德超;;噪聲環(huán)境下語音識別的幾個問題(一)[A];第三屆全國人機語音通訊學術(shù)會議論文集[C];1994年
9 朱奇峰;俞鐵城;;聽覺中的協(xié)同現(xiàn)象和其對語音識別影響的探討[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年
10 姚磊;黃泰翼;陳景東;;一種高魯棒性語音識別的通用自適應方法研究[A];第四屆全國人機語音通訊學術(shù)會議論文集[C];1996年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 黃夢;方案商積極切入語音識別市場[N];電腦商報;2006年
2 閆婷;語音識別 理想與現(xiàn)實的距離[N];計算機世界;2007年
3 劉喜喜;語音識別將把鼠標鍵盤打入冷宮?[N];中國計算機報;2008年
4 樂天;語音識別:讓你的手機更聰明[N];計算機世界;2011年
5 特約作者 王佳彬;語音識別漸入佳境[N];電腦報;2002年
6 雨夏;語音識別重在應用[N];計算機世界;2001年
7 ;語音識別企業(yè)應用前景光明[N];計算機世界;2003年
8 王向東 欒煥博 林守勛 錢躍良;語音識別:抗噪音能力有待加強[N];計算機世界;2006年
9 上海 高博;讓電腦“聽懂”人話[N];電腦報;2008年
10 張彤;語音識別融入統(tǒng)一通信[N];網(wǎng)絡世界;2008年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 許金普;農(nóng)產(chǎn)品市場信息采集的語音識別魯棒性方法研究[D];中國農(nóng)業(yè)科學院;2015年
2 吳斌;語音識別中的后處理技術(shù)研究[D];北京郵電大學;2008年
3 奉小慧;音頻噪聲環(huán)境下唇動信息在語音識別中的應用技術(shù)研究[D];華南理工大學;2010年
4 孫f,
本文編號:1032246
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1032246.html