天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 信息工程論文 >

基于語音和圖像的多模態(tài)情感識別研究

發(fā)布時間:2018-07-05 01:41

  本文選題:情感識別 + 語音特征。 參考:《哈爾濱工業(yè)大學》2017年碩士論文


【摘要】:隨著人工智能的興起,獲得更加人性化、智能化的人機交互體驗一直備受關注,這使得情感計算成為研究熱點之一。作為情感計算研究領域的一個重要分支,情感識別近年來發(fā)展迅速,前景廣闊。情感識別研究主要的方法有基于語音的情感識別研究、基于圖像的情感識別研究和基于多模態(tài)融合的情感識別研究。由于單一的語音或圖像模態(tài)信息所表達的情感信息是不完整的,不能完全滿足人們的期望。而多模態(tài)融合的情感識別研究綜合了各個模態(tài)信息,使各模態(tài)信息之間能夠互補從而達到更好的識別效果。因此本文選擇基于語音和圖像的多模態(tài)情感識別研究。本文選擇包含語音和人臉圖像兩種模態(tài)情感材料的英國薩里大學的Surrey Audio-Visual Expressed Emotion(SAVEE)Database作為標準源數(shù)據(jù),進行七種情感(生氣、厭惡、恐懼、平靜、悲傷、驚訝)識別的相關研究,其主要研究內容如下:1)基于語音的情感識別研究。本文提取共92維語音情感特征,這些特征由短時能量、語音持續(xù)時間、基音頻率、前三共振峰、梅爾頻率倒譜系數(shù)(Mel-scale Frequency Cepstral Coeddicients,MFCC)的相關統(tǒng)計學參數(shù)組成。所有樣本特征提取完成之后,在支持向量機(Support Vector Machine,SVM)上進行情感識別實驗,得到了較好的分類結果。2)基于人臉圖像的情感識別研究。本文分別提取語音段峰值圖像的局部二值模式(Local Binary Pattern,LBP)以及序列圖像臉部特征點的均值和標準差作為圖像情感特征。在所有樣本特征提取完成之后,通過SVM進行情感識別實驗,并對在不同特征上得到的情感識別結果進行對比。最終基于序列圖像臉部特征點特征提取方法取得的識別結果好于基于語音段峰值圖像LBP特征提取方法。3)基于語音和圖像的多模態(tài)融合情感識別研究。本文分別采用特征層融合和決策層融合策略對語音模態(tài)信息和圖像模態(tài)信息進行融合,并在SVM上進行情感識別實驗,將其得到的識別結果與單一模態(tài)情感識別結果進行對比,并比較特征層融合策略得到的識別結果與決策層融合策略得到的識別結果,驗證了基于語音和圖像的多模態(tài)情感識別比單一模態(tài)情感識別表現(xiàn)更佳,且決策層融合效果好于特征層融合,實驗表明了決策層融合有助于提高恐懼類情感的識別率。
[Abstract]:With the rise of artificial intelligence, more humanization and intelligent human-computer interaction experience have been paid more attention, which makes emotional computing become one of the research hotspots. As an important branch of affective computing research, emotional recognition has developed rapidly in recent years and has broad prospects. The main methods of emotion recognition are speech based emotion recognition, image based emotion recognition and multimodal fusion. Because the emotion information expressed by a single voice or image modal information is incomplete, it can not completely meet the expectations of people. The research of emotion recognition based on multi-modal fusion synthesizes all modal information, which makes each modal information complement each other so as to achieve better recognition effect. So this paper chooses multi-modal emotion recognition based on speech and image. In this paper, Surrey Audio-Visual expressed emotion (SAVEE) Database, which includes speech and face images, was selected as the standard source data to study the recognition of seven emotions (anger, disgust, fear, calm, sadness, surprise). The main research contents are as follows: 1) emotion recognition based on speech. In this paper, the affective characteristics of 92-dimensional speech are extracted. These features are composed of the statistical parameters of short-term energy, speech duration, pitch frequency, the first three resonance peaks, and Mel-scale Frequency Cepstral CoeddicientsMFCC (Mel-scale Frequency Cepstral CoeddicientsMFCC). After the feature extraction of all samples is completed, the emotion recognition experiment is carried out on support Vector Machine (SVM), and a better classification result is obtained. 2) the affective recognition based on face image is studied. In this paper, the local binary pattern (LBP) of the peak image of speech segment and the mean and standard deviation of the facial feature points of the sequence image are extracted as the emotional features of the image. After all the sample features are extracted, the experiment of emotion recognition is carried out by SVM, and the results of emotion recognition on different features are compared. Finally, the result of facial feature point extraction based on sequence image is better than that of LBP feature extraction method based on speech segment peak image. (3) Multi-modal fusion emotion recognition based on speech and image is studied. In this paper, feature level fusion and decision level fusion strategy are used to fuse speech modal information and image modal information, and emotion recognition experiments are carried out on SVM, and the results obtained are compared with the results of single modal emotion recognition. Comparing the recognition results obtained by feature level fusion strategy and decision level fusion strategy, it is verified that multi-modal emotion recognition based on speech and image performs better than single modal emotion recognition. The effect of decision level fusion is better than that of feature level fusion. Experiments show that decision level fusion can improve the recognition rate of fear emotion.
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.3;TP18

【參考文獻】

相關期刊論文 前9條

1 陳丹淇;蔣冬梅;Ilse Ravyse;Hichem Sahli;;基于動態(tài)貝葉斯網(wǎng)絡的聽視覺融合情感識別[J];計算機仿真;2011年03期

2 陸捷榮;詹永照;毛啟容;;基于D-S證據(jù)的多語段融合語音情感識別[J];計算機工程;2010年18期

3 陶霖密;;情感計算研究進展與展望——本期主題專欄“情感計算進展”序[J];中國圖象圖形學報;2009年05期

4 張迎輝;林學娋;;情感可以計算——情感計算綜述[J];計算機科學;2008年05期

5 黃力行;辛樂;趙禮悅;陶建華;;自適應權重的雙模態(tài)情感識別[J];清華大學學報(自然科學版);2008年S1期

6 徐正光;閆恒川;張立欣;;獨立成分分析在表情識別中的應用[J];微計算機信息;2006年17期

7 文沁,汪增福;基于三維數(shù)據(jù)的人臉表情識別[J];計算機仿真;2005年07期

8 薛為民,石志國,谷學靜,王志良;基于Agent的人機情感交互系統(tǒng)研究[J];計算機工程與應用;2002年19期

9 金輝,高文;人臉面部混合表情識別系統(tǒng)[J];計算機學報;2000年06期

相關會議論文 前1條

1 陶建華;譚鐵牛;;語音和人臉表情同步的雙模態(tài)情感表達研究[A];第一屆中國情感計算及智能交互學術會議論文集[C];2003年

相關博士學位論文 前3條

1 李永強;基于動態(tài)貝葉斯網(wǎng)絡的人面部運動識別方法研究[D];哈爾濱工業(yè)大學;2013年

2 張石清;基于語音和人臉的情感識別研究[D];電子科技大學;2012年

3 謝波;普通話語音情感識別關鍵技術研究[D];浙江大學;2006年

相關碩士學位論文 前9條

1 王奇特;遠程網(wǎng)絡監(jiān)控人臉表情識別方法研究與系統(tǒng)實現(xiàn)[D];北京工業(yè)大學;2016年

2 謝坷珍;融合人臉表情和語音的雙模態(tài)情感識別研究[D];中國海洋大學;2015年

3 呂長勇;基于語音與人臉表情信息的情感識別算法研究[D];華東理工大學;2014年

4 宣守盼;多模態(tài)情感數(shù)據(jù)庫的研究與建立[D];華東理工大學;2013年

5 趙惠;融合面部表情的語音情感識別研究[D];濟南大學;2012年

6 屠彬彬;基于多特征提取與融合的語音情感研究[D];江南大學;2012年

7 樊明;基于面部表情分析的情感語音識別[D];山東大學;2009年

8 王小佳;基于特征選擇的語音情感識別研究[D];江蘇大學;2007年

9 王濟軍;基于表情識別技術的情感計算在現(xiàn)代遠程教育中的應用研究[D];天津師范大學;2005年

,

本文編號:2098363

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2098363.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ca668***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com