多模態(tài)特征融合的情感識(shí)別研究
發(fā)布時(shí)間:2022-01-08 19:10
情感識(shí)別在人機(jī)交互中具有重要意義。一般來說,人的情感主要通過面部表情、姿態(tài)表情和言語(yǔ)表情表現(xiàn)。而語(yǔ)音作為人類表達(dá)自身的最重要的通道之一,能夠有效的表達(dá)情感,已被成功用于情感的自動(dòng)識(shí)別中。然而,語(yǔ)音只是情感表達(dá)的一種方式,并未包含全部的情感信息,文本信息也能傳遞說話人的情感。因此,多模態(tài)特征融合的情感識(shí)別是一個(gè)重要的研究方向。本研究的研究目標(biāo)是使用語(yǔ)音與文本特征融合的方式,來提高情感識(shí)別的準(zhǔn)確率;诖四繕(biāo)設(shè)計(jì)了如下實(shí)驗(yàn):首先,對(duì)語(yǔ)音數(shù)據(jù)進(jìn)行預(yù)處理,通過提取低層次聲學(xué)特征,在低層次聲學(xué)特征上應(yīng)用了各種統(tǒng)計(jì)函數(shù)構(gòu)建全局聲學(xué)特征,并將其用于語(yǔ)音情感識(shí)別。用語(yǔ)音訓(xùn)練的識(shí)別模型作為基線系統(tǒng)與后續(xù)的識(shí)別模型進(jìn)行比較。其次,對(duì)文本語(yǔ)句進(jìn)行預(yù)處理,提取不同特征的提取,共生成3類特征,分別為詞袋特征、詞向量和句向量,用于文本情感識(shí)別,選擇三類特征中識(shí)別準(zhǔn)確率最高的文本特征用于后續(xù)與語(yǔ)音特征融合。最后,將語(yǔ)音與表現(xiàn)最好的文本特征進(jìn)行特征融合進(jìn)行情感識(shí)別,比較它們?cè)贗EMOCAP數(shù)據(jù)集上情感識(shí)別的性能。在特征融合時(shí),采用了兩種特征融合方式,分別為特征層融合和決策層融合。最終,本研究根據(jù)語(yǔ)音與文本特征融合后的...
【文章來源】:南京師范大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.3加窗??
存儲(chǔ)歷史信息,門是一種讓信息選擇式通過的方法。它們包括一個(gè)sigmoid神經(jīng)??網(wǎng)絡(luò)層和一個(gè)pointwise乘法運(yùn)算。Sigmoid層的輸出是0-1之間的數(shù)值,決定著??每一個(gè)部分有多少量可以通過。LSTM的結(jié)構(gòu)如圖3.4所示。??LSTM通過三個(gè)門結(jié)構(gòu)來實(shí)現(xiàn)信息的保護(hù)和控制。這三個(gè)門分別輸入門、遺??忘門和輸出門。??遺忘門決定丟棄前一個(gè)記憶單元中的某些信息,讀。瑁撸簦欤停撸,并每個(gè)??在細(xì)胞狀態(tài)C_{M}中輸出一個(gè)在0到1之間的值。1表示“全部保留”,0表示??“全部舍棄”。??ft?=?aiW^lh^.Xtj?+?bf)??其中Zitq表示的是上一個(gè)cell的輸出,表示的是當(dāng)前細(xì)胞的輸入。<T表示sigmod??函數(shù)。??輸入門決定在單元狀態(tài)屮存儲(chǔ)什么樣的新信息。這包括兩個(gè)部分。首先是??23??
【參考文獻(xiàn)】:
期刊論文
[1]文本情緒分析綜述[J]. 李然,林政,林海倫,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[2]基于語(yǔ)音信號(hào)與文本信息的雙模態(tài)情感識(shí)別[J]. 陳鵬展,張欣,徐芳萍. 華東交通大學(xué)學(xué)報(bào). 2017(02)
[3]結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 李華,屈丹,張文林,王炳錫,梁玉龍. 信號(hào)處理. 2016(06)
[4]人機(jī)交互中的語(yǔ)音情感識(shí)別研究進(jìn)展[J]. 張石清,李樂民,趙知?jiǎng)? 電路與系統(tǒng)學(xué)報(bào). 2013(02)
[5]基于樣本熵與MFCC融合的語(yǔ)音情感識(shí)別[J]. 屠彬彬,于鳳芹. 計(jì)算機(jī)工程. 2012(07)
[6]一種基于HMM和ANN的語(yǔ)音情感識(shí)別分類器[J]. 羅毅. 微計(jì)算機(jī)信息. 2007(34)
本文編號(hào):3577118
【文章來源】:南京師范大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.3加窗??
存儲(chǔ)歷史信息,門是一種讓信息選擇式通過的方法。它們包括一個(gè)sigmoid神經(jīng)??網(wǎng)絡(luò)層和一個(gè)pointwise乘法運(yùn)算。Sigmoid層的輸出是0-1之間的數(shù)值,決定著??每一個(gè)部分有多少量可以通過。LSTM的結(jié)構(gòu)如圖3.4所示。??LSTM通過三個(gè)門結(jié)構(gòu)來實(shí)現(xiàn)信息的保護(hù)和控制。這三個(gè)門分別輸入門、遺??忘門和輸出門。??遺忘門決定丟棄前一個(gè)記憶單元中的某些信息,讀。瑁撸簦欤停撸,并每個(gè)??在細(xì)胞狀態(tài)C_{M}中輸出一個(gè)在0到1之間的值。1表示“全部保留”,0表示??“全部舍棄”。??ft?=?aiW^lh^.Xtj?+?bf)??其中Zitq表示的是上一個(gè)cell的輸出,表示的是當(dāng)前細(xì)胞的輸入。<T表示sigmod??函數(shù)。??輸入門決定在單元狀態(tài)屮存儲(chǔ)什么樣的新信息。這包括兩個(gè)部分。首先是??23??
【參考文獻(xiàn)】:
期刊論文
[1]文本情緒分析綜述[J]. 李然,林政,林海倫,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[2]基于語(yǔ)音信號(hào)與文本信息的雙模態(tài)情感識(shí)別[J]. 陳鵬展,張欣,徐芳萍. 華東交通大學(xué)學(xué)報(bào). 2017(02)
[3]結(jié)合全局詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[J]. 李華,屈丹,張文林,王炳錫,梁玉龍. 信號(hào)處理. 2016(06)
[4]人機(jī)交互中的語(yǔ)音情感識(shí)別研究進(jìn)展[J]. 張石清,李樂民,趙知?jiǎng)? 電路與系統(tǒng)學(xué)報(bào). 2013(02)
[5]基于樣本熵與MFCC融合的語(yǔ)音情感識(shí)別[J]. 屠彬彬,于鳳芹. 計(jì)算機(jī)工程. 2012(07)
[6]一種基于HMM和ANN的語(yǔ)音情感識(shí)別分類器[J]. 羅毅. 微計(jì)算機(jī)信息. 2007(34)
本文編號(hào):3577118
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3577118.html
最近更新
教材專著