語音情感識別中語譜圖紋理特征提取算法研究
發(fā)布時間:2024-03-02 05:27
目前,傳統(tǒng)的語音情感特征主要有音質(zhì)特征、韻律學(xué)特征和頻譜特征等,都單一地集中于語音的時域或者頻域,而很少考慮語音的時頻相關(guān)特性,使得提取的特征不充分。語譜圖能夠很好地聯(lián)通語音的時頻兩域,使得研究語音的時頻相關(guān)性變成可能;诖,本文從以下兩個方面開展語譜圖的紋理特征提取研究:1)針對完全局部二值模式(Complete Local Binary Pattern,CLBP)特征維度高,且在缺失中心像素點(diǎn)的情況下又過分依賴中心像素點(diǎn)的不足,構(gòu)建了均勻完全局部二值符號模式(UniformCLBPSign,UCLBPS)和改進(jìn)幅度模式(Improved CLBP_Magnitude,ICLBPM)。同時,針對經(jīng)典決策級加權(quán)投票融合方法在分類器識別性能大體相同時無法發(fā)揮作用的缺點(diǎn),提出冪指數(shù)加權(quán)融合方法。首先,將原始語音樣本轉(zhuǎn)化為語譜圖,再使用多尺度、多方向的Log-Gabor濾波器對語譜圖做處理,放大語譜圖的細(xì)節(jié)信息;然后提取語譜圖的UCLBPS和ICLBP_M的分...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:3916401
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1語音情感識別流程圖??
并進(jìn)行預(yù)加重,提升語音樣本的質(zhì)量。??作為人工智能與模式識別的一個分支,語音情感識別技術(shù)與人臉表情識別技??術(shù)相類似,大體分為語音預(yù)處理、語音情感特征提取和分類識別三部分,如圖2.1??所示:??————?'?—?N??I?1???I??*?■■■■■■?1?I'"???1?\?....
圖2.2分幀加窗??
2.2.1梅爾倒譜系數(shù)??MFCC是語音分析中應(yīng)用最廣泛的特征之一。它是基于人類聽覺系統(tǒng)提取的,??為語音情感識別提供了一種自然、真實的參考。MFCC的計算過程如圖2.3所示。??10??
圖2.3?MFCC特征提取流程圖??.
這一聲道特征將會改變,因此,語音中的情感信息可以利用這些特征提??取出來。使用LPCC的優(yōu)點(diǎn)是它的算法效率更高,計算量較少,可以有效地描述元??音[42],其具體計算方式如圖2.4所示:??語音樣本一"?預(yù)處理??計算LPC?¥計算LPCC??圖2.4?LPCC特征提取流程圖??....
圖2.5?PLP特征提取流程圖??
語音樣本一?預(yù)加重?一?分幀一?]加窗—????FFT?一??MEL濾波器組-?對數(shù)運(yùn)算一??DCT??圖2.3?MFCC特征提取流程圖??Fig?2.3?Flow?chart?of?MFCC?feature?extraction??在預(yù)處理后,使語音幀通過漢明窗,然后采用快速傅....
本文編號:3916401
本文鏈接:http://sikaile.net/kejilunwen/wltx/3916401.html
最近更新
教材專著