語音情感識別中的特征提取與識別算法研究
發(fā)布時間:2017-09-28 09:36
本文關(guān)鍵詞:語音情感識別中的特征提取與識別算法研究
更多相關(guān)文章: 語音情感識別 譜特征 特征選擇 Softmax 集成分類器 稀疏表示分類
【摘要】:隨著電子技術(shù)的廣泛發(fā)展,用戶已經(jīng)不再滿足于只使用鍵盤、鼠標(biāo)、開關(guān)等機(jī)械的冷冰冰的交互方式。雖然說最近觸摸屏技術(shù)得到快速的發(fā)展,使人機(jī)交互更便捷,操作形式更多樣,但是人們普遍希望人機(jī)交互過程更人性化、更智能化,人機(jī)交互界面更友好、更生動,這樣必然需要計算機(jī)具有與人相似的思維感知能力。顯然,使計算機(jī)能夠理解人類的情感是完成上述任務(wù)非常重要的一步。語音作為人類交流的重要媒介,是人類傳遞信息的最基本途徑;另外,目前針對語音的傳感器已經(jīng)發(fā)展得非常成熟,在獲取人類語音信號時,幾乎不需要當(dāng)事人的任何配合。所以語音情感識別就顯得尤為重要。語音情感識別的目的是使計算機(jī)從人類的語音信號中發(fā)現(xiàn)人的當(dāng)前情感狀態(tài),讓機(jī)器能理解人的感性思維,從而使計算機(jī)具有更人性化更復(fù)雜的功能。語音情感識別是一種典型的模式識別問題,通常包括三個關(guān)鍵的步驟:語音特征提取,維數(shù)約減,分類。本文針對這三個步驟都做了一定研究,主要貢獻(xiàn)有:(1)本文提出一種基于Hu矩的加權(quán)譜特征(HuWSF)。特征提取算法對語音情感識別算法的影響非常大,其中Mel頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)是語音情感識別中最常用的特征。但是MFCC沒有考慮同一幀Mel濾波結(jié)果相鄰系數(shù)之間的關(guān)系以及同一幀Mel濾波結(jié)果同一系數(shù)相鄰幀之間的關(guān)系,這樣可能會丟失語譜圖中較多有用的信息。Hu WSF能夠克服MFCC的上述缺點(diǎn)。動機(jī)來源于兩方面:首先,在不同的語音情感下,說話強(qiáng)度、說話清晰度、基音頻率的變化程度、說話速度等都有著非常明顯的變化,這些變化會改變語譜圖中能量集中到某些頻率的程度。而在語譜圖的局部區(qū)域計算的Hu矩,能夠很好的評價能量如何集中到語譜圖中的一些頻率的程度。其次,語音情感識別很容易受到說話人、說話風(fēng)格、說話內(nèi)容的不同的影響。而Hu矩具有平移、尺度、旋轉(zhuǎn)不變形,使得Hu WSF能夠很好的減少這些負(fù)面影響。通過在柏林語音數(shù)據(jù)庫(Berlin emotional speech database,Emo DB),Surrey視聽表情情感數(shù)據(jù)庫(Surrey Audio-Visual Expressed Emotion Database,SAVEE),中科院自動化所語音情感數(shù)據(jù)庫(CASIA)等三個數(shù)據(jù)庫上的實(shí)驗(yàn)證明了Hu WSF的有效性。(2)本文提出了一種基于半監(jiān)督特征選擇和說話人歸一化的語音情感識別方法。特征選擇算法是語音情感識別中最常用的維數(shù)約簡算法,但是目前用在語音情感識別中的大部分特征選擇算法都是基于貪心算法的有監(jiān)督的特征選擇算法,不能夠考慮數(shù)據(jù)的整體結(jié)構(gòu)、數(shù)據(jù)的流形結(jié)構(gòu)、以及無標(biāo)簽樣本提供的信息。為了克服上述缺點(diǎn),本文提出一種半監(jiān)督的特征選擇算法,該算法能夠同時利用上述所有信息。但是因?yàn)檎Z音情感數(shù)據(jù)的流形結(jié)構(gòu)受到多種因素的影響,如情感、說話人、語句的內(nèi)容等,導(dǎo)致使用數(shù)據(jù)流形結(jié)構(gòu)的特征選擇算法并不能直接用于語音情感識別。所以在使用半監(jiān)督特征選擇算法之前,應(yīng)該先減少其它因素對語音特征提取結(jié)果的影響。說話人歸一化算法是常見的減少說話人對語音情感識別影響的方法,但是傳統(tǒng)的說話人歸一化算法每個測試說話人都需要較多的無標(biāo)簽樣本,這在大部分實(shí)際應(yīng)用環(huán)境中難以實(shí)現(xiàn)。為了克服這個缺點(diǎn),本文提出一種兩階段的說話人歸一化算法。第一階段使用所有訓(xùn)練樣本的均值和方差對語音數(shù)據(jù)歸一化,第二階段只使用新的測試說話人的均值對語音數(shù)據(jù)歸一化。因?yàn)榫翟跉w一化中只用為偏移量,使得歸一化的結(jié)果受均值的影響相對不敏感,這樣就可以使用少量的樣本獲得較好的說話人歸一化效果。在Emo DB、SAVEE、CASIA等三個數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,證明了上述算法的有效性。(3)本文提出了一種集成Softmax回歸模型的語音情感識別(ESSER)方法。目前已經(jīng)有較多的集成分類器用于語音情感識別,但是這些集成分類器依然面臨著較多的問題,如基分類器的多樣性不能保證、基分類器的強(qiáng)度不足、維數(shù)災(zāi)難等。為了克服上述問題,本文提出ESSER識別語音情感。首先注意到一些特征提取算法的原理相差較大、以及單個特征并不能充分描述語音信號,所以使用不同的特征組合生成子空間,可以確保子空間的多樣性;同時因?yàn)樽涌臻g的維度比所有特征連接成的特征維度要低,這樣在一定程度上也克服了維數(shù)災(zāi)難的問題。然后注意到在子空間的多樣性得到保證時,使用強(qiáng)的分類器可以提升集成分類器的效果;并且發(fā)現(xiàn)在大部分語音情感數(shù)據(jù)庫上,Softmax都有較強(qiáng)的語音情感識別能力;所以使用Softmax作為集成分類器的基分類器。另外因?yàn)镾oftmax的分類結(jié)果是測試樣本到各個類的概率,所以使用Softmax作為集成分類器的基分類器還可以為基分類器的集成提供更多的信息。在Emo DB、SAVEE、FAC Aibo等三個數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果,證明了該算法的有效性。(4)本文提出了一種基于流形學(xué)習(xí)和稀疏表示分類的語音情感識別方法。目前已經(jīng)有一些基于稀疏表示的分類器用于語音情感識別,但是這些方法要么直接將原始數(shù)據(jù)用為字典,要么針對每個類單獨(dú)訓(xùn)練字典,從而不能充分利用訓(xùn)練數(shù)據(jù)的類別標(biāo)簽。為了克服這個缺點(diǎn),本文提出一種有監(jiān)督維數(shù)約減算法學(xué)習(xí)字典,這樣可以使字典攜帶較多的分類信息;同時又減小了字典的基的維度,可以大大加快稀疏表示分類的速度。但是因?yàn)檎Z音情感特征受到較多因素的影響,如說話人、說話風(fēng)格以及說話內(nèi)容等,導(dǎo)致同一情感的樣本之間的距離可能較大,使得在優(yōu)化這些樣本之間的距離時,對傳統(tǒng)的有監(jiān)督的維數(shù)約減算法的目標(biāo)函數(shù)影響較大,所以傳統(tǒng)算法不能直接用來學(xué)習(xí)字典。為了克服上述缺點(diǎn),本文提出一種新的有監(jiān)督維數(shù)約減算法,該算法在計算類內(nèi)矩陣、類間矩陣、以及樣本之間的流形結(jié)構(gòu)時均考慮了數(shù)據(jù)的局部性,避免了優(yōu)化同一情感樣本之間的距離對目標(biāo)函數(shù)造成的較大影響。另外為了使語音數(shù)據(jù)的情感流形結(jié)構(gòu)更突出,該算法使用自調(diào)整點(diǎn)對點(diǎn)之間的距離描述樣本之間的關(guān)系。最后,為了充分利用有監(jiān)督維數(shù)約減算法學(xué)習(xí)到的字典的信息,本文改進(jìn)現(xiàn)有的加權(quán)稀疏表示分類算法,對稀疏表示系數(shù)加權(quán)時使用自調(diào)整點(diǎn)對點(diǎn)之間的距離。在Emo DB、SAVEE、CASIA等三個數(shù)據(jù)上實(shí)驗(yàn)證明了這些算法的有效性。
【關(guān)鍵詞】:語音情感識別 譜特征 特征選擇 Softmax 集成分類器 稀疏表示分類
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TN912.34
【目錄】:
- 摘要5-8
- Abstract8-19
- 第一章.緒論19-25
- 1.1.引言19-20
- 1.2.面臨的挑戰(zhàn)20-21
- 1.3.本文的研究內(nèi)容、目標(biāo)、及創(chuàng)新點(diǎn)21-23
- 1.4.本文的內(nèi)容安排23-25
- 第二章.語音情感識別技術(shù)的綜述25-38
- 2.1.語音情感識別技術(shù)的綜述25-30
- 2.1.1 韻律特征25-26
- 2.1.2 譜特征26-27
- 2.1.3 其它特征27-30
- 2.2.語音特征的維數(shù)約減算法30-31
- 2.2.1 降維算法30
- 2.2.2 特征選擇算法30-31
- 2.3.語音情感的分類模型31-34
- 2.3.1 層次分類器32
- 2.3.2 集成分類器32-33
- 2.3.3 單個分類器33-34
- 2.4.語音數(shù)據(jù)庫34-37
- 2.4.1 語音數(shù)據(jù)庫的評價標(biāo)準(zhǔn)35
- 2.4.2 已知可用的語音情感數(shù)據(jù)庫35-36
- 2.4.3 本文實(shí)驗(yàn)部分使用的語音情感數(shù)據(jù)庫36-37
- 2.5.本章小結(jié)37-38
- 第三章.基于局部Hu矩的加權(quán)譜特征38-61
- 3.1.引言38-39
- 3.2.基于局部Hu矩的加權(quán)譜特征39-46
- 3.2.1 Hu矩的背景39
- 3.2.2 Hu WSF算法39-43
- 3.2.3 對Hu WSF算法的分析43-46
- 3.3.與Hu WSF相關(guān)的特征46-48
- 3.3.1 譜特征47
- 3.3.2 韻律特征47-48
- 3.4.用于評價Hu WSF的語音情感識別框架48-49
- 3.4.1 特征統(tǒng)計49
- 3.4.2 維數(shù)約減49
- 3.4.3 分類49
- 3.5.實(shí)驗(yàn)49-59
- 3.5.1 語音情感數(shù)據(jù)庫和評價標(biāo)準(zhǔn)49-50
- 3.5.2 對比的特征50
- 3.5.3 選擇合適的維數(shù)約減算法50-51
- 3.5.4 特征提取方法參數(shù)設(shè)置51-52
- 3.5.5 說話人獨(dú)立的實(shí)驗(yàn)結(jié)果52-56
- 3.5.6 說話人依賴的實(shí)驗(yàn)結(jié)果56-59
- 3.6.本章小結(jié)59-61
- 第四章.基于半監(jiān)督特征選擇和說話人歸一化的語音情感識別61-85
- 4.1.引言61-62
- 4.2.理論基礎(chǔ)62-65
- 4.2.1 多類簇特征選擇算法(MCFS)62-64
- 4.2.2 數(shù)據(jù)內(nèi)在維度的獲取64-65
- 4.3.半監(jiān)督多類簇特征選擇65-68
- 4.3.1 半監(jiān)督特征選擇的問題65-66
- 4.3.2 半監(jiān)督多類簇特征選擇的數(shù)據(jù)內(nèi)在維度的獲取66-68
- 4.4.說話人歸一化68-70
- 4.5.使用SSMCFS與說話人歸一化的語音情感識別70-71
- 4.5.1 特征提取70
- 4.5.2 分類70
- 4.5.3 使用的語音情感識別框架70-71
- 4.6.實(shí)驗(yàn)71-84
- 4.6.1 對比的特征選擇方法71-72
- 4.6.2 執(zhí)行方法和評價標(biāo)準(zhǔn)72-73
- 4.6.3 說話人獨(dú)立實(shí)驗(yàn)73-81
- 4.6.4 對比本章的說話人歸一化算法與傳統(tǒng)的說話人歸一化算法81-83
- 4.6.5 說話人依賴實(shí)驗(yàn)83-84
- 4.7.本章小結(jié)84-85
- 第五章.基于集成Softmax回歸模型的語音情感識別85-106
- 5.1.引言85-86
- 5.2.基于集成Softmax回歸的語音情感識別(ESSER)86-94
- 5.2.1 特征提取87-88
- 5.2.2 特征統(tǒng)計88-89
- 5.2.3 特征選擇89-90
- 5.2.4 集成分類器90-94
- 5.3.在不平衡數(shù)據(jù)中使用ESSER94-96
- 5.4.實(shí)驗(yàn)96-105
- 5.4.1 對比的方法96
- 5.4.2 執(zhí)行結(jié)果的評價準(zhǔn)則96-97
- 5.4.3 在Emo DB上的實(shí)驗(yàn)結(jié)果97-100
- 5.4.4 在SAVEE數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果100-102
- 5.4.5 在FAC Aibo數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果102-105
- 5.5.本章小結(jié)105-106
- 第六章.基于流形學(xué)習(xí)和稀疏表示分類的語音情感識別106-126
- 6.1.引言106-108
- 6.2.理論基礎(chǔ)108-110
- 6.2.1 有監(jiān)督維數(shù)約減算法的一般形式108
- 6.2.2 增強(qiáng)半監(jiān)督局部Fisher判別分析(ESLF)108-109
- 6.2.3 稀疏表示分類(SRC)109
- 6.2.4 加權(quán)稀疏表示分類(WSRC)109-110
- 6.3.基于局部重構(gòu)和局部Fisher判別的有監(jiān)督維數(shù)約減(LRLFDSDR)110-112
- 6.3.1 LRLFDSDR的目標(biāo)方程110-111
- 6.3.2 目標(biāo)方程的優(yōu)化111-112
- 6.3.3 LRLFDSDR的算法流程112
- 6.4.自適應(yīng)加權(quán)稀疏表示分類(AWSRC)112-114
- 6.5.語音情感識別框架114-115
- 6.5.1 特征提取114-115
- 6.5.2 特征統(tǒng)計115
- 6.6.實(shí)驗(yàn)115-124
- 6.6.1 對比的算法與實(shí)驗(yàn)設(shè)置115-116
- 6.6.2 說話人獨(dú)立實(shí)驗(yàn)116-120
- 6.6.3 說話人依賴實(shí)驗(yàn)120-124
- 6.7.本章小結(jié)124-126
- 結(jié)論126-130
- 參考文獻(xiàn)130-145
- 攻讀博士學(xué)位期間取得的研究成果145-147
- 致謝147-149
- 附件149
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前1條
1 韋佳;彭宏;;基于局部與全局保持的半監(jiān)督維數(shù)約減方法[J];軟件學(xué)報;2008年11期
,本文編號:935112
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/935112.html
最近更新
教材專著