基于神經(jīng)網(wǎng)絡(luò)與注意力機制結(jié)合的語音情感識別研究
發(fā)布時間:2020-12-11 16:25
隨著計算機行業(yè)的不斷發(fā)展,人工智能走進人們的生活,通過語音實現(xiàn)人機交互正逐漸成為主流的人機交互方式,語音情感識別能夠讓機器感知人類的情緒,聽懂人的情感,在心理健康狀態(tài)監(jiān)控,教育輔助,個性化內(nèi)容推薦,客服質(zhì)量監(jiān)控方面都具有廣泛應(yīng)用前景,但目前語音情感識別系統(tǒng)的識別率較低不足以大規(guī)模商用,提高情感識別準確度是一個亟待解決的難題。語音情感識別一般的系統(tǒng)框架主要分為兩部分:語音情感特征提取和情感分類,本文針對于分類器模型提出了三個創(chuàng)新點進行優(yōu)化:1.針對傳統(tǒng)LSTM模型將隱藏的變長向量統(tǒng)一編碼成固定長度向量容易造成信息損失而且將每幀語音視為了具有相同的重要性,與實際情況不符的問題。本文提出了一種基于LSTM的自注意力機制模型,將情緒隱藏向量表示為情緒的幀級隱藏向量的加權(quán)平均值,其中幀級隱藏向量的權(quán)重由注意機制自動學習,使得模型能夠提取出更具有情緒代表性的特征來區(qū)分不同語音情緒,提升情緒識別準確率。2.針對LSTM模型單一子空間的特征表示。在自注意力的基礎(chǔ)上,本文還提出了多頭的注意力機制模型去學習不同子空間位置的特征表示,使得模型能夠在多個子空間捕捉到更全面的情緒特征,從而提高情緒識別的準確度。...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖1-2人類語音效果和情感之間最一般的對應(yīng)關(guān)系??
在服務(wù)行業(yè)顧客的體驗?zāi)軌蚝芎玫姆磻?yīng)在顧客的情緒里,如果將來語音情緒??識別的技術(shù)應(yīng)用到服務(wù)行業(yè),那管理者就能從客戶的語音情緒中去檢測某項服務(wù)??是否讓顧客喜歡,同時能夠檢測工作人員的客服態(tài)度。應(yīng)用如圖1-3所示:??梅語音?為投湃?化解萏戶淸??寺工作熱??自動篩?鍵供判?緒,提高客?清保證工作??J'jVX宋?選分類?劊依B?戶滿藏度態(tài)度??麵?|錄音丨丨投訴|丨客戶簡緒及11窖服熱磨度??’?I檢測?M杻準I?I?時識別?(I?提醒??槿型?I?語宿情感識^1?廳??判別數(shù)據(jù)j?語音信號的聲學特征?j??圖1-3服務(wù)行業(yè)語音情感識別應(yīng)用??在娛樂行業(yè)里,近年來網(wǎng)絡(luò)平臺占據(jù)了大家大部分的時間,流量就是金錢,??將語音情緒識別與個性化推薦結(jié)合,能在感知到人們情緒的時刻做出相對應(yīng)的個??性推薦,成為那個最懂你的平臺軟件,提高顧客和產(chǎn)品之間的黏性。??在健康行業(yè)里,抑郁癥是個屢見不鮮的話題,隨著社會高速發(fā)展,人們身上??的精神壓力也越來越大,抑郁癥的發(fā)病率持續(xù)上升,而抑郁癥正是由于長期的情??緒低迷并且沒有得到及時的緩解和救治導(dǎo)致,如果將語音情緒識別與手機手環(huán)等??相結(jié)合
,。??1.2.2語音情感識別研究現(xiàn)狀??語音情感識別一般是由兩個基本步驟組成,特征提取和分類,近年來很多學??者致力于這兩方面的研究,取得了許多突破性的進展,在特征提取方面,人們從??語音中發(fā)現(xiàn)并提取了一組與情緒狀態(tài)緊密相關(guān)的特征[1],作者使用短時窗口滑動??的方式提取了一組6373個特征的特征集,Eyben等人[2]提出了一個更加簡潔而??有效的數(shù)據(jù)集叫做?Geneva?Minima丨istic?Acoustic?Parameter?Set?(GeMAPS),這個??數(shù)據(jù)集是由62個特征組成,并且后續(xù)擴展了?GeMAPS數(shù)據(jù)集包含88個特征作??為基準可以用來驗證后續(xù)的研究,在論文中這88個特征主要和傳統(tǒng)靜態(tài)機器學??習相結(jié)合,比如SVM,能夠在語音情感識別中有不錯的表現(xiàn),除此之外還有一些??常見的語音特征,比如:基于共振峰的特征、基于能量的特征,還有一些經(jīng)過譜??變換的特征,基于統(tǒng)計學的特征Tegear-Energy-Operator等,語音經(jīng)過譜變換后??得到語音譜圖如圖1-4所示�?傮w上來說近些年有許許多多的特征被提出用于語??音情緒識別,但同時另一個方面,分類器上的優(yōu)化也是近年來的一個研究熱點。??
【參考文獻】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別方法[J]. 邵兵,杜鵬飛. 科技創(chuàng)新導(dǎo)報. 2016(06)
[2]語音情感識別研究進展綜述[J]. 韓文靜,李海峰,阮華斌,馬琳. 軟件學報. 2014(01)
本文編號:2910849
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖1-2人類語音效果和情感之間最一般的對應(yīng)關(guān)系??
在服務(wù)行業(yè)顧客的體驗?zāi)軌蚝芎玫姆磻?yīng)在顧客的情緒里,如果將來語音情緒??識別的技術(shù)應(yīng)用到服務(wù)行業(yè),那管理者就能從客戶的語音情緒中去檢測某項服務(wù)??是否讓顧客喜歡,同時能夠檢測工作人員的客服態(tài)度。應(yīng)用如圖1-3所示:??梅語音?為投湃?化解萏戶淸??寺工作熱??自動篩?鍵供判?緒,提高客?清保證工作??J'jVX宋?選分類?劊依B?戶滿藏度態(tài)度??麵?|錄音丨丨投訴|丨客戶簡緒及11窖服熱磨度??’?I檢測?M杻準I?I?時識別?(I?提醒??槿型?I?語宿情感識^1?廳??判別數(shù)據(jù)j?語音信號的聲學特征?j??圖1-3服務(wù)行業(yè)語音情感識別應(yīng)用??在娛樂行業(yè)里,近年來網(wǎng)絡(luò)平臺占據(jù)了大家大部分的時間,流量就是金錢,??將語音情緒識別與個性化推薦結(jié)合,能在感知到人們情緒的時刻做出相對應(yīng)的個??性推薦,成為那個最懂你的平臺軟件,提高顧客和產(chǎn)品之間的黏性。??在健康行業(yè)里,抑郁癥是個屢見不鮮的話題,隨著社會高速發(fā)展,人們身上??的精神壓力也越來越大,抑郁癥的發(fā)病率持續(xù)上升,而抑郁癥正是由于長期的情??緒低迷并且沒有得到及時的緩解和救治導(dǎo)致,如果將語音情緒識別與手機手環(huán)等??相結(jié)合
,。??1.2.2語音情感識別研究現(xiàn)狀??語音情感識別一般是由兩個基本步驟組成,特征提取和分類,近年來很多學??者致力于這兩方面的研究,取得了許多突破性的進展,在特征提取方面,人們從??語音中發(fā)現(xiàn)并提取了一組與情緒狀態(tài)緊密相關(guān)的特征[1],作者使用短時窗口滑動??的方式提取了一組6373個特征的特征集,Eyben等人[2]提出了一個更加簡潔而??有效的數(shù)據(jù)集叫做?Geneva?Minima丨istic?Acoustic?Parameter?Set?(GeMAPS),這個??數(shù)據(jù)集是由62個特征組成,并且后續(xù)擴展了?GeMAPS數(shù)據(jù)集包含88個特征作??為基準可以用來驗證后續(xù)的研究,在論文中這88個特征主要和傳統(tǒng)靜態(tài)機器學??習相結(jié)合,比如SVM,能夠在語音情感識別中有不錯的表現(xiàn),除此之外還有一些??常見的語音特征,比如:基于共振峰的特征、基于能量的特征,還有一些經(jīng)過譜??變換的特征,基于統(tǒng)計學的特征Tegear-Energy-Operator等,語音經(jīng)過譜變換后??得到語音譜圖如圖1-4所示�?傮w上來說近些年有許許多多的特征被提出用于語??音情緒識別,但同時另一個方面,分類器上的優(yōu)化也是近年來的一個研究熱點。??
【參考文獻】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別方法[J]. 邵兵,杜鵬飛. 科技創(chuàng)新導(dǎo)報. 2016(06)
[2]語音情感識別研究進展綜述[J]. 韓文靜,李海峰,阮華斌,馬琳. 軟件學報. 2014(01)
本文編號:2910849
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2910849.html
最近更新
教材專著