基于深度學(xué)習(xí)的語(yǔ)音情感特征提取及處理算法研究
發(fā)布時(shí)間:2020-12-25 22:05
語(yǔ)言中包含了豐富的情感信息,在過(guò)去幾十年中,語(yǔ)音情感識(shí)別的相關(guān)研究取得了巨大的進(jìn)步。近年來(lái),深度學(xué)習(xí)在各個(gè)領(lǐng)域都取得了巨大成功。與傳統(tǒng)特征相比,深度學(xué)習(xí)特征具有更多的內(nèi)在信息,然而如何合理的設(shè)計(jì)相關(guān)算法以及模型結(jié)構(gòu)仍需要探索和研究,本文研究了基于深度學(xué)習(xí)的語(yǔ)音情感特征提取及處理算法,主要內(nèi)容如下:1.主要介紹了語(yǔ)音情感識(shí)別的相關(guān)研究意義和背景,國(guó)內(nèi)外研究現(xiàn)狀以及存在的問(wèn)題,并詳細(xì)介紹了本文的主要工作以及組織結(jié)構(gòu)。2.主要研究了語(yǔ)音情感識(shí)別的系統(tǒng)流程,從情感描述模型、語(yǔ)音情感數(shù)據(jù)庫(kù)、情感特征提取和情感分類器四個(gè)部分分別進(jìn)行了研究。3.提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征表征的語(yǔ)音情感識(shí)別模型。該卷積模型以LeNet-5模型為基礎(chǔ),增加了一層卷積層和池化層,并將二維卷積核改為一維卷積核,將一維特征預(yù)處理后,輸送進(jìn)該卷積網(wǎng)絡(luò)模型中,對(duì)特征變換表征,最后利用SoftMax分類器實(shí)現(xiàn)情感分類。在公開(kāi)數(shù)據(jù)庫(kù)上的識(shí)別結(jié)果驗(yàn)證了網(wǎng)絡(luò)模型的有效性。4.單一網(wǎng)絡(luò)模型對(duì)特征的學(xué)習(xí)效果有限,為了提高模型對(duì)情感特征的學(xué)習(xí)能力,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單遞歸單元(SRU)的串行網(wǎng)絡(luò)模型。首先提取分段的三...
【文章來(lái)源】:河南工業(yè)大學(xué)河南省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)每個(gè)神經(jīng)元的工作方式
河南工業(yè)大學(xué)碩士學(xué)位論文25每個(gè)卷積核都連接到上部特征圖的局部區(qū)域。卷積層可以由多個(gè)特征圖組成。每個(gè)特征圖xjl可以表示為式(4.6):xjl=f(∑xil1i∈Mjωijl+bjl)xjl通過(guò)對(duì)上層的所有特征圖卷積后來(lái)激活。f()為激活函數(shù),通常為sigmoid和tanh。ωijl和bjl分別為權(quán)重和偏差值。池化層主要對(duì)特征進(jìn)行采樣,減少模型的參數(shù)。每個(gè)輸出的特征圖可以表示為式(4.7)、式(4.8):xjl=f(ujl)ujl=down(xjl1)down()表示下采樣算法,以一定的采樣大小計(jì)算上層的特征圖xjl1。例如,尺寸為2×2或4×4。圖7CNN模塊網(wǎng)絡(luò)結(jié)構(gòu)4.2.2SRU網(wǎng)絡(luò)框架遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是處理自然語(yǔ)言任務(wù)最基本的網(wǎng)絡(luò)模型,也是處理時(shí)態(tài)數(shù)據(jù)的首選網(wǎng)絡(luò)。標(biāo)準(zhǔn)RNN模型包括長(zhǎng)短期記憶(LSTM)[66]和門(mén)控遞歸單元(GRU)[67]。SRU模型[68]作為RNN的一個(gè)變種,擁有著更快的運(yùn)行速度。SRU的內(nèi)部結(jié)構(gòu)如圖8所示,其中f(xt)為輸入特征,ct為輸出狀態(tài),ct可以表示為式(4.11),
河南工業(yè)大學(xué)碩士學(xué)位論文274.3算法整體流程本實(shí)驗(yàn)使用的語(yǔ)音情感識(shí)別系統(tǒng)模型如圖10所示,首先,從從數(shù)據(jù)集中提取3-D譜圖特征(原始譜圖、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)),以獲得更多的細(xì)節(jié)參數(shù),一定程度上解決了語(yǔ)料中訓(xùn)練數(shù)據(jù)不足的情況;由于不同的語(yǔ)音信號(hào)的時(shí)間不同,為了在減少模型在訓(xùn)練過(guò)程中情感細(xì)節(jié)的流失,我們將每一個(gè)語(yǔ)音特征在時(shí)間軸上分割為相同大小的片段特征作為輸入,由于較少的語(yǔ)音數(shù)據(jù)很難直接訓(xùn)練出一個(gè)健壯的卷積網(wǎng)絡(luò)模型,本章的CNN模型采用AlexNet框架初始化,在訓(xùn)練的過(guò)程中對(duì)參數(shù)進(jìn)行微調(diào)。然后使用CNN模型對(duì)這些特征進(jìn)行學(xué)習(xí),在學(xué)習(xí)過(guò)程中使用二維卷積。與一維卷積相比,二維卷積包含更多參數(shù)以捕獲譜圖特征中更詳細(xì)的時(shí)頻相關(guān)性。由于這些分段的特征是基于時(shí)間相關(guān)的,所以我們使用SRU模型對(duì)這些特征進(jìn)行整合。最后,使用SoftMax分類器對(duì)情感進(jìn)行分類。圖10基于CNN和SRU的串行網(wǎng)絡(luò)模型系統(tǒng)流程4.4實(shí)驗(yàn)設(shè)置4.4.1數(shù)據(jù)庫(kù)本章實(shí)驗(yàn)使用公開(kāi)的CASIA和Emo-db情感數(shù)據(jù)庫(kù),Emo-db情感數(shù)據(jù)庫(kù)是德語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù),由十位表演者(5女5男)對(duì)十個(gè)語(yǔ)句進(jìn)行七種情感的表演,七種情感分別為生氣(anger)、高興(joy),害怕(fear),悲傷(sadness),厭惡(disgust),無(wú)聊(boredom)和中性(nertral),共535句語(yǔ)料,采樣率為16kHz,16bit量化,錄制過(guò)程中要求演員在
【參考文獻(xiàn)】:
期刊論文
[1]語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J]. 韓文靜,李海峰,阮華斌,馬琳. 軟件學(xué)報(bào). 2014(01)
博士論文
[1]基于譜圖特征的語(yǔ)音情感識(shí)別若干問(wèn)題的研究[D]. 陶華偉.東南大學(xué) 2017
[2]基于語(yǔ)音信號(hào)的情感識(shí)別研究[D]. 金學(xué)成.中國(guó)科學(xué)技術(shù)大學(xué) 2007
本文編號(hào):2938469
【文章來(lái)源】:河南工業(yè)大學(xué)河南省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)每個(gè)神經(jīng)元的工作方式
河南工業(yè)大學(xué)碩士學(xué)位論文25每個(gè)卷積核都連接到上部特征圖的局部區(qū)域。卷積層可以由多個(gè)特征圖組成。每個(gè)特征圖xjl可以表示為式(4.6):xjl=f(∑xil1i∈Mjωijl+bjl)xjl通過(guò)對(duì)上層的所有特征圖卷積后來(lái)激活。f()為激活函數(shù),通常為sigmoid和tanh。ωijl和bjl分別為權(quán)重和偏差值。池化層主要對(duì)特征進(jìn)行采樣,減少模型的參數(shù)。每個(gè)輸出的特征圖可以表示為式(4.7)、式(4.8):xjl=f(ujl)ujl=down(xjl1)down()表示下采樣算法,以一定的采樣大小計(jì)算上層的特征圖xjl1。例如,尺寸為2×2或4×4。圖7CNN模塊網(wǎng)絡(luò)結(jié)構(gòu)4.2.2SRU網(wǎng)絡(luò)框架遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)是處理自然語(yǔ)言任務(wù)最基本的網(wǎng)絡(luò)模型,也是處理時(shí)態(tài)數(shù)據(jù)的首選網(wǎng)絡(luò)。標(biāo)準(zhǔn)RNN模型包括長(zhǎng)短期記憶(LSTM)[66]和門(mén)控遞歸單元(GRU)[67]。SRU模型[68]作為RNN的一個(gè)變種,擁有著更快的運(yùn)行速度。SRU的內(nèi)部結(jié)構(gòu)如圖8所示,其中f(xt)為輸入特征,ct為輸出狀態(tài),ct可以表示為式(4.11),
河南工業(yè)大學(xué)碩士學(xué)位論文274.3算法整體流程本實(shí)驗(yàn)使用的語(yǔ)音情感識(shí)別系統(tǒng)模型如圖10所示,首先,從從數(shù)據(jù)集中提取3-D譜圖特征(原始譜圖、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)),以獲得更多的細(xì)節(jié)參數(shù),一定程度上解決了語(yǔ)料中訓(xùn)練數(shù)據(jù)不足的情況;由于不同的語(yǔ)音信號(hào)的時(shí)間不同,為了在減少模型在訓(xùn)練過(guò)程中情感細(xì)節(jié)的流失,我們將每一個(gè)語(yǔ)音特征在時(shí)間軸上分割為相同大小的片段特征作為輸入,由于較少的語(yǔ)音數(shù)據(jù)很難直接訓(xùn)練出一個(gè)健壯的卷積網(wǎng)絡(luò)模型,本章的CNN模型采用AlexNet框架初始化,在訓(xùn)練的過(guò)程中對(duì)參數(shù)進(jìn)行微調(diào)。然后使用CNN模型對(duì)這些特征進(jìn)行學(xué)習(xí),在學(xué)習(xí)過(guò)程中使用二維卷積。與一維卷積相比,二維卷積包含更多參數(shù)以捕獲譜圖特征中更詳細(xì)的時(shí)頻相關(guān)性。由于這些分段的特征是基于時(shí)間相關(guān)的,所以我們使用SRU模型對(duì)這些特征進(jìn)行整合。最后,使用SoftMax分類器對(duì)情感進(jìn)行分類。圖10基于CNN和SRU的串行網(wǎng)絡(luò)模型系統(tǒng)流程4.4實(shí)驗(yàn)設(shè)置4.4.1數(shù)據(jù)庫(kù)本章實(shí)驗(yàn)使用公開(kāi)的CASIA和Emo-db情感數(shù)據(jù)庫(kù),Emo-db情感數(shù)據(jù)庫(kù)是德語(yǔ)情感語(yǔ)音數(shù)據(jù)庫(kù),由十位表演者(5女5男)對(duì)十個(gè)語(yǔ)句進(jìn)行七種情感的表演,七種情感分別為生氣(anger)、高興(joy),害怕(fear),悲傷(sadness),厭惡(disgust),無(wú)聊(boredom)和中性(nertral),共535句語(yǔ)料,采樣率為16kHz,16bit量化,錄制過(guò)程中要求演員在
【參考文獻(xiàn)】:
期刊論文
[1]語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J]. 韓文靜,李海峰,阮華斌,馬琳. 軟件學(xué)報(bào). 2014(01)
博士論文
[1]基于譜圖特征的語(yǔ)音情感識(shí)別若干問(wèn)題的研究[D]. 陶華偉.東南大學(xué) 2017
[2]基于語(yǔ)音信號(hào)的情感識(shí)別研究[D]. 金學(xué)成.中國(guó)科學(xué)技術(shù)大學(xué) 2007
本文編號(hào):2938469
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2938469.html
最近更新
教材專著