基于音視頻的情緒識別研究
發(fā)布時(shí)間:2022-01-22 08:59
情緒識別技術(shù)在醫(yī)療、教育、服務(wù)、交互等領(lǐng)域具有廣泛的應(yīng)用前景。作為人工智能的一個(gè)重要研究領(lǐng)域,情緒識別技術(shù)近年來取得了較大進(jìn)步。但是,由于情緒狀態(tài)本身具有較大的復(fù)雜多樣性,個(gè)體情緒的表現(xiàn)形式又受到文化和個(gè)性的影響,情緒識別技術(shù)目前還存在識別率不高、識別效果不穩(wěn)定、應(yīng)用條件受限等問題。本課題主要研究基于音視頻數(shù)據(jù)的情緒識別問題。在研究基于視頻的面部表情識別時(shí),分別嘗試了長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(long-short term memory,LSTM)和三維卷積神經(jīng)網(wǎng)絡(luò)兩種神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行模型訓(xùn)練,這是因?yàn)殚L短時(shí)記憶神經(jīng)網(wǎng)絡(luò)多用于處理數(shù)據(jù)具有時(shí)序性的問題,三維卷積神經(jīng)網(wǎng)絡(luò)則可以挖掘圖像幀與幀間的信息。首先對數(shù)據(jù)進(jìn)行了預(yù)處理的操作,將截取的面部圖像保存,然后提取HOG特征和幾何特征。LSTM神經(jīng)網(wǎng)絡(luò)利用面部的HOG特征,幾何特征以及二者的級聯(lián)作為輸入。三維卷積神經(jīng)網(wǎng)絡(luò)則直接利用視頻圖像自動(dòng)生成復(fù)雜特征然后進(jìn)行模型訓(xùn)練。音頻情緒識別模型使用了人工特征提取加LSTM神經(jīng)網(wǎng)絡(luò)的方法。首先對音頻數(shù)據(jù)進(jìn)行預(yù)處理,然后使用Open SMILE工具提取短時(shí)過零率、短時(shí)能量和梅爾倒譜系數(shù)等特征,構(gòu)建LSTM網(wǎng)絡(luò)模...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
人臉幾何特征示意圖
第三章基于LSTM模型的情緒識別13第三章基于LSTM模型的情緒識別長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)能夠利用數(shù)據(jù)中的時(shí)序信息這是相比于其他神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢,但是也存在著梯度消失的問題。長短時(shí)記憶網(wǎng)絡(luò)(Longshort-termmemory,LSTM)能較好地解決這一問題,所以長短時(shí)記憶網(wǎng)絡(luò)在深度學(xué)習(xí)中較為常用。視頻數(shù)據(jù)其實(shí)就是一種序列數(shù)據(jù),視頻是由一幀幀的圖像構(gòu)成在時(shí)間軸上就是一種時(shí)序數(shù)據(jù)即具有序列信息的數(shù)據(jù),所以構(gòu)建LSTM模型進(jìn)行情緒識別的實(shí)驗(yàn)。3.1循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是一類序列數(shù)據(jù),序列數(shù)據(jù)具有時(shí)間維上的信息。循環(huán)神經(jīng)網(wǎng)絡(luò)在序列的演進(jìn)方向進(jìn)行遞歸操作,其所有神經(jīng)節(jié)點(diǎn)進(jìn)行了鏈?zhǔn)竭B接,是一種遞歸神經(jīng)網(wǎng)絡(luò)[27]。圖3-1為循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖,循環(huán)神經(jīng)網(wǎng)絡(luò)較其他網(wǎng)絡(luò)最大的不同是相同層之間也建立了連接,上一時(shí)刻的輸出對下一時(shí)刻的輸出也造成了影響,這就正體現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列數(shù)據(jù)的優(yōu)勢。圖中X={0x,1x,2x,...,tx}為輸入數(shù)據(jù),tx為第t時(shí)刻輸入的向量,th為第t時(shí)刻的隱藏狀態(tài),A為神經(jīng)元。循環(huán)神經(jīng)網(wǎng)絡(luò)和其他神經(jīng)網(wǎng)絡(luò)一樣都存在梯度消失的問題,這就導(dǎo)致前面較長時(shí)刻信息對當(dāng)前時(shí)刻輸入產(chǎn)生較小影響,這就是循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長時(shí)依賴問題。序列數(shù)據(jù)較長在使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型時(shí)是需要進(jìn)行考慮的。圖3-1RNN結(jié)構(gòu)圖
本文編號:3601911
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
人臉幾何特征示意圖
第三章基于LSTM模型的情緒識別13第三章基于LSTM模型的情緒識別長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)能夠利用數(shù)據(jù)中的時(shí)序信息這是相比于其他神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢,但是也存在著梯度消失的問題。長短時(shí)記憶網(wǎng)絡(luò)(Longshort-termmemory,LSTM)能較好地解決這一問題,所以長短時(shí)記憶網(wǎng)絡(luò)在深度學(xué)習(xí)中較為常用。視頻數(shù)據(jù)其實(shí)就是一種序列數(shù)據(jù),視頻是由一幀幀的圖像構(gòu)成在時(shí)間軸上就是一種時(shí)序數(shù)據(jù)即具有序列信息的數(shù)據(jù),所以構(gòu)建LSTM模型進(jìn)行情緒識別的實(shí)驗(yàn)。3.1循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是一類序列數(shù)據(jù),序列數(shù)據(jù)具有時(shí)間維上的信息。循環(huán)神經(jīng)網(wǎng)絡(luò)在序列的演進(jìn)方向進(jìn)行遞歸操作,其所有神經(jīng)節(jié)點(diǎn)進(jìn)行了鏈?zhǔn)竭B接,是一種遞歸神經(jīng)網(wǎng)絡(luò)[27]。圖3-1為循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖,循環(huán)神經(jīng)網(wǎng)絡(luò)較其他網(wǎng)絡(luò)最大的不同是相同層之間也建立了連接,上一時(shí)刻的輸出對下一時(shí)刻的輸出也造成了影響,這就正體現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列數(shù)據(jù)的優(yōu)勢。圖中X={0x,1x,2x,...,tx}為輸入數(shù)據(jù),tx為第t時(shí)刻輸入的向量,th為第t時(shí)刻的隱藏狀態(tài),A為神經(jīng)元。循環(huán)神經(jīng)網(wǎng)絡(luò)和其他神經(jīng)網(wǎng)絡(luò)一樣都存在梯度消失的問題,這就導(dǎo)致前面較長時(shí)刻信息對當(dāng)前時(shí)刻輸入產(chǎn)生較小影響,這就是循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長時(shí)依賴問題。序列數(shù)據(jù)較長在使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型時(shí)是需要進(jìn)行考慮的。圖3-1RNN結(jié)構(gòu)圖
本文編號:3601911
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3601911.html
最近更新
教材專著