面向語音情感識別的IMFE特征提取算法和融合KELM識別算法研究
本文關(guān)鍵詞:面向語音情感識別的IMFE特征提取算法和融合KELM識別算法研究 出處:《太原理工大學》2017年碩士論文 論文類型:學位論文
更多相關(guān)文章: 語音情感識別 集合經(jīng)驗?zāi)B(tài)分解 核函數(shù)極限學習機 特征級融合 決策級融合
【摘要】:語音作為一種包含說話內(nèi)容和情感狀態(tài)的復(fù)雜信號,是人類進行交流和表達情感的有效形式。語音情感識別是計算機通過提取并分析情感語音的特征參數(shù)從而判別情感類別的一種信息處理技術(shù),對于提高人機交互智能化程度具有重要意義。本文在語音情感識別的課題背景下,介紹了常用的語音庫、情感特征和識別網(wǎng)絡(luò),將集合經(jīng)驗?zāi)B(tài)分解(Ensemble Empirical Mode Decomposition,EEMD)算法應(yīng)用到語音情感特征提取中,提取了本征模態(tài)函數(shù)能量特征IMFE和邊際譜幅值特征MSA,選擇了IMFE、韻律特征、MFCC三種情感特征進行特征級融合,并提出了一種自適應(yīng)融合核函數(shù)極限學習機(Extreme Learning Machine with Kernel,KELM)的決策級融合方法用于語音情感識別。本文所做的主要工作如下:(1)選擇EEMD算法以非線性非平穩(wěn)信號的處理方法提取情感語音特征。傳統(tǒng)的情感特征提取方法均假定語音是短時平穩(wěn)信號,針對傳統(tǒng)方法的局限性,本文在EEMD算法分解語音信號的基礎(chǔ)上提取了邊際譜幅值特征MSA,并選擇KELM為識別網(wǎng)絡(luò),基于柏林語音庫設(shè)計仿真實驗并對四種情感(高興、悲傷、憤怒、中性)進行識別,通過與韻律特征、MFCC特征的識別結(jié)果對比,驗證了MSA特征的有效性。(2)提出了一種基于EEMD算法的特征提取方法并應(yīng)用于語音情感識別中。語音情感信號經(jīng)EEMD算法分解為一組本征模態(tài)函數(shù)(IMF),通過Spearman Rank相關(guān)系數(shù)篩選出有效的IMF分量,并通過能量計算得到一個語音情感新特征IMFE,選擇柏林語音庫進行識別,并與韻律特征、MFCC特征的識別性能對比,結(jié)果表明IMFE可以有效識別情感,且對負性情感的識別效果最優(yōu)。(3)將特征級數(shù)據(jù)融合應(yīng)用于語音情感識別。針對單一語音情感特征識別效果不好的問題,本文選擇了IMFE特征、韻律特征、MFCC特征進行融合,設(shè)計實驗將這三種特征的不同組合分別輸入到分類器中,在柏林語音庫仿真并與輸入的單一特征識別結(jié)果對比,結(jié)果表明特征融合在一定程度上提高了識別性能,證明了三種特征具有互補性,但也因為特征維數(shù)的簡單相加造成了特征融合在部分情感的識別率低于單一特征識別率的問題。(4)提出了一種基于融合KELM的語音情感識別新方法。針對單一特征、單分類器識別性能不佳的問題,本文將決策級數(shù)據(jù)融合應(yīng)用于語音情感識別的研究中,首先提取三種語音情感特征,并分別訓練對應(yīng)的單分類器,同時把單分類器的數(shù)值輸出統(tǒng)一轉(zhuǎn)化成概率輸出;然后通過制定的決策策略得到測試集的自適應(yīng)權(quán)值,決策策略依據(jù)概率矩陣而定;最后對各單分類器的輸出概率線性加權(quán)并判別輸出。選擇柏林語音庫進行識別,結(jié)果表明融合KELM在單一情感和整體的識別率均達到最優(yōu),優(yōu)于單一特征、特征融合和常用決策策略的性能,是一種有效的語音情感識別方法。
[Abstract]:Speech is a kind of complex signal which includes speech content and emotional state. Speech emotion recognition is a kind of information processing technology in which the computer extracts and analyzes the characteristic parameters of emotion speech to distinguish the emotion category. It is of great significance to improve the intelligence of human-computer interaction. Under the background of speech emotion recognition, this paper introduces the commonly used speech database, emotional characteristics and recognition network. The EMD (Ensemble Empirical Mode DecompositionEEMD) algorithm is applied to the speech emotion feature extraction. The energy feature of intrinsic mode function (IMFE) and the marginal spectrum feature (MSA) were extracted, and the three affective features of IMFEand prosodic feature were selected for feature level fusion. An adaptive fusion kernel function extreme learning machine (extreme Learning Machine with Kernel) is proposed. KELM) decision level fusion method for speech emotion recognition. The main work of this paper is as follows: 1). EEMD algorithm is chosen to extract emotional speech features by nonlinear non-stationary signal processing, and the traditional emotional feature extraction methods assume that the speech is a short-time stationary signal. Aiming at the limitation of the traditional method, this paper extracts the marginal spectral amplitude feature based on the EEMD algorithm, and selects KELM as the recognition network. Based on the Berlin language corpus, a simulation experiment was designed and four emotions (happiness, sadness, anger, neutral) were recognized, and the results were compared with those of the prosodic feature MFCC. Verify the validity of MSA feature. A feature extraction method based on EEMD algorithm is proposed and applied to speech emotion recognition. The speech emotion signal is decomposed into a set of intrinsic mode functions by EEMD algorithm. The effective IMF component is selected by Spearman Rank correlation coefficient, and a new feature of speech emotion is obtained by energy calculation, and the Berlin phonetic corpus is selected for recognition. Compared with the prosodic feature of MFCC, the result shows that IMFE can recognize emotion effectively. The feature level data fusion is applied to speech emotion recognition. Aiming at the problem that the recognition effect of single speech emotion feature is not good, this paper chooses IMFE feature. The prosodic features are fused with MFCC features, and the different combinations of these three features are input into the classifier respectively. The results are simulated in the Berlin speech corpus and compared with the single feature recognition results. The results show that the feature fusion improves the recognition performance to some extent and proves that the three features are complementary. However, because of the simple addition of feature dimension, the recognition rate of feature fusion in some emotions is lower than that of single feature recognition rate. A new speech emotion recognition method based on fusion KELM is proposed, which aims at a single feature. In this paper, the decision level data fusion is applied to the research of speech emotion recognition. Firstly, three kinds of speech emotion features are extracted and the corresponding single classifiers are trained. At the same time, the numerical output of the single classifier is transformed into probabilistic output. Then the adaptive weight of the test set is obtained by the decision strategy, and the decision strategy is based on the probability matrix. Finally, the output probability of each single classifier is linearly weighted and the output is judged. The results show that the recognition rate of the fusion KELM is optimal both in single emotion and in the whole, which is superior to the single feature. Feature fusion and the performance of common decision strategies is an effective method for speech emotion recognition.
【學位授予單位】:太原理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TN912.34
【相似文獻】
相關(guān)期刊論文 前10條
1 林奕琳;韋崗;楊康才;;語音情感識別的研究進展[J];電路與系統(tǒng)學報;2007年01期
2 趙力;黃程韋;;實用語音情感識別中的若干關(guān)鍵技術(shù)[J];數(shù)據(jù)采集與處理;2014年02期
3 陳建廈,李翠華;語音情感識別的研究進展[J];計算機工程;2005年13期
4 王茜;;一個語音情感識別系統(tǒng)的設(shè)計與實現(xiàn)[J];大眾科技;2006年08期
5 孫亞;;遠程教學中語音情感識別系統(tǒng)的研究與實現(xiàn)[J];長春理工大學學報(高教版);2008年02期
6 章國寶;宋清華;費樹岷;趙艷;;語音情感識別研究[J];計算機技術(shù)與發(fā)展;2009年01期
7 石瑛;胡學鋼;方磊;;基于決策樹的多特征語音情感識別[J];計算機技術(shù)與發(fā)展;2009年01期
8 趙臘生;張強;魏小鵬;;語音情感識別研究進展[J];計算機應(yīng)用研究;2009年02期
9 張石清;趙知勁;;噪聲背景下的語音情感識別[J];西南交通大學學報;2009年03期
10 黃程韋;金峗;王青云;趙艷;趙力;;基于特征空間分解與融合的語音情感識別[J];信號處理;2010年06期
相關(guān)會議論文 前8條
1 陳建廈;;語音情感識別綜述[A];第一屆中國情感計算及智能交互學術(shù)會議論文集[C];2003年
2 楊桃香;楊鑒;畢福昆;;基于模糊聚類的語音情感識別[A];第三屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2007)論文集[C];2007年
3 羅武駿;包永強;趙力;;基于模糊支持向量機的語音情感識別方法[A];2012'中國西部聲學學術(shù)交流會論文集(Ⅱ)[C];2012年
4 王青;謝波;陳根才;;基于神經(jīng)網(wǎng)絡(luò)的漢語語音情感識別[A];第一屆中國情感計算及智能交互學術(shù)會議論文集[C];2003年
5 張鼎天;徐明星;;基于調(diào)制頻譜特征的自動語音情感識別[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
6 童燦;;基于boosting HMM的語音情感識別[A];2008年中國高校通信類院系學術(shù)研討會論文集(下冊)[C];2009年
7 戴明洋;楊大利;徐明星;;語音情感識別中UBM訓練集的組成研究[A];第十一屆全國人機語音通訊學術(shù)會議論文集(一)[C];2011年
8 張衛(wèi);張雪英;孫穎;;基于HHT邊際Teager能量譜的語音情感識別[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
相關(guān)博士學位論文 前7條
1 孫亞新;語音情感識別中的特征提取與識別算法研究[D];華南理工大學;2015年
2 王坤俠;語音情感識別方法研究[D];合肥工業(yè)大學;2015年
3 韓文靜;語音情感識別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2013年
4 謝波;普通話語音情感識別關(guān)鍵技術(shù)研究[D];浙江大學;2006年
5 尤鳴宇;語音情感識別的關(guān)鍵技術(shù)研究[D];浙江大學;2007年
6 劉佳;語音情感識別的研究與應(yīng)用[D];浙江大學;2009年
7 趙臘生;語音情感特征提取與識別方法研究[D];大連理工大學;2010年
相關(guān)碩士學位論文 前10條
1 陳曉東;基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[D];華南理工大學;2015年
2 孫志鋒;語音情感識別研究[D];陜西師范大學;2015年
3 譚發(fā)曾;語音情感狀態(tài)模糊識別研究[D];電子科技大學;2015年
4 陳鑫;相空間重構(gòu)在語音情感識別中的研究[D];長沙理工大學;2014年
5 李昌群;基于特征選擇的語音情感識別[D];合肥工業(yè)大學;2015年
6 陳文汐;基于核函數(shù)的語音情感識別技術(shù)的研究[D];東南大學;2015年
7 薛文韜;基于深度學習和遷移學習的語音情感識別方法研究[D];江蘇大學;2016年
8 宋明虎;電力行業(yè)電話電話客服語音情感識別[D];昆明理工大學;2016年
9 陳肖;基于多粒度特征融合的維度語音情感識別方法研究[D];哈爾濱工業(yè)大學;2016年
10 任浩;基于多級分類的語音情感識別[D];哈爾濱工業(yè)大學;2016年
,本文編號:1396176
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1396176.html