基于神經(jīng)網(wǎng)絡(luò)的語音情感識別方法研究
發(fā)布時間:2021-02-07 15:24
隨著計算機行業(yè)的不斷發(fā)展,人工智能走進(jìn)人們的生活,通過語音實現(xiàn)人機交互正逐漸成為主流的人機交互方式。語音情感識別能夠讓機器感知人類的情緒,聽懂人的情感,在心理健康狀態(tài)監(jiān)控、教育輔助、個性化內(nèi)容推薦、客服質(zhì)量監(jiān)控方面都具有廣泛應(yīng)用前景。但目前語音情感識別系統(tǒng)的識別率較低,不足以大規(guī)模商用,因此,提高情感識別準(zhǔn)確度是一個亟待解決的難題。語音情感識別的系統(tǒng)框架主要包括兩部分:語音情感特征提取和情感分類。本文在語音情感特征提取和情感識別網(wǎng)絡(luò)模型方面做了以下工作:1.提出一種基于語譜圖的RGB統(tǒng)計譜圖的新特征。在原有語譜圖的基礎(chǔ)上,首先運用圖像處理的方法,對語譜圖提取RGB分量,生成新的三種RGB譜圖;其次,利用統(tǒng)計學(xué)函數(shù)對RGB分量圖譜進(jìn)行擴維,生成新的統(tǒng)計圖譜;最后,在擁有4層卷積的CNN網(wǎng)絡(luò)上進(jìn)行特征有效性驗證。仿真實驗結(jié)果顯示,均值譜圖識別準(zhǔn)確率為57.2%,方差譜圖識別準(zhǔn)確率為68.1%,最大值譜圖識別準(zhǔn)確率為54.2%。實驗表明本文改進(jìn)的RGB統(tǒng)計圖譜可以實現(xiàn)對語音情感的分類,新特征有效。2.針對語音信號的時序性特點,使用有記憶特性的長短時記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行語音情感分類。針對不同語音特...
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音情感識別系統(tǒng)框圖
2.語音情感識別基礎(chǔ)12圖2.2喚醒度與效價的情感空間模型Fig.2.2EmotionalspacemodelofArousal-Valence2.3語音情感語料庫現(xiàn)階段進(jìn)行的語音情感研究,大都是在專門的語音情感數(shù)據(jù)庫上進(jìn)行的,一方面是因為這種專業(yè)的語料庫采集到底語料資源比較全面,在語音信號的處理上,也做得比較好,對于情感的標(biāo)簽備注,相對比較統(tǒng)一,對情感的測試驗證體系相對完備,認(rèn)可度高,用自己構(gòu)建的情感數(shù)據(jù)庫,情感認(rèn)可度可能不足,再有就是對于前期的數(shù)據(jù)采集,實驗設(shè)備也沒有專業(yè)的實驗室完備,所以綜合幾方面的原因,大多數(shù)的情感識別研究,所使用的數(shù)據(jù)還都是正規(guī)的情感語料庫數(shù)據(jù),很少有自己構(gòu)建的數(shù)據(jù)庫。這些專業(yè)的情感語料庫,在演繹情感的方法上,一般可以分為3類,第一種是模擬情感,通過前期的情緒醞釀,已到達(dá)對情感的充分表達(dá),這種是有針對性的自主引導(dǎo)的;第二種是被引發(fā)情感,通過將一些帶有特定情感的故事,或是看一些帶有濃重感情色彩的影片,激發(fā)說話者情感;第三種是自發(fā)式情感,不帶前兩種的引導(dǎo)色彩,全憑演繹者自發(fā)展現(xiàn)各種感情,相對的這種語料庫較少。現(xiàn)在的多數(shù)語料庫大都采用表演的方式,以確保感情的充沛。表2.2列舉了4個常用的情感數(shù)據(jù)庫,通過對比可以看出,現(xiàn)有的數(shù)據(jù)庫大都為表演性情感表達(dá),并且數(shù)據(jù)庫規(guī)模差別也比較大。所以在研究中數(shù)據(jù)庫的選取對實驗結(jié)果影響不可忽視。
遼寧科技大學(xué)碩士學(xué)位論文173.語音信號的預(yù)處理語音信號的預(yù)處理一般分為3個步驟:第一步,預(yù)加重;第二步,分幀加窗;第三步,端點檢測。3.1語音信號語處理3.1.1預(yù)加重預(yù)加重,是語音信號預(yù)處理的第一步,之所以在最開始進(jìn)行預(yù)加重處理,主要是因為,聲音都是由聲帶振動發(fā)出的,聲音經(jīng)過聲帶后,還要經(jīng)過口腔,在這個過程中,由于口唇輻射對語音信號存在的影響,使得聲音信號在高頻部分對這種影響表現(xiàn)得非常明顯,具體表現(xiàn)為出現(xiàn)了高頻跌落現(xiàn)象,預(yù)加重就是為了對這個問題進(jìn)行處理。它通過使用數(shù)字濾波器,升高語音信號高頻部分,有效緩解高頻部分語音成分過小的現(xiàn)象。語音信號的預(yù)加重一般通過一階FIR高通數(shù)字濾波器來實現(xiàn),該濾波器的傳遞函數(shù)是為:1z1)(zH(3.1)式中,α為預(yù)加重系數(shù),0.9<α<1.0。高通數(shù)字濾波器的幅頻特性和相頻特性如下圖3.1所示。圖3.1數(shù)字濾波器的幅頻特性與相頻特性Fig.3.1Amplitude-frequencycharacteristicsandphase-frequencycharacteristicsofdigitalfilters設(shè)n時刻的語音采樣值為x(n),經(jīng)過預(yù)加重處理后的結(jié)果為y()=()(1),這里=0.98。
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)BP-Adaboost和HMM混合模型的方言情感識別[J]. 冀常鵬,程琳,李鋒. 成都信息工程大學(xué)學(xué)報. 2019(05)
[2]利用語音與文本特征融合改善語音情感識別[J]. 馮亞琴,沈凌潔,胡婷婷,王蔚. 數(shù)據(jù)采集與處理. 2019(04)
[3]基于語譜圖提取深度空間注意特征的語音情感識別算法[J]. 王金華,應(yīng)娜,朱辰都,劉兆森,蔡哲棟. 電信科學(xué). 2019(07)
[4]用于跨庫語音情感識別的DBN特征融合方法[J]. 張昕然,巨曉正,宋鵬,查誠,趙力. 信號處理. 2017(05)
[5]基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[J]. 田熙燕,徐君鵬,杜留鋒. 河南科技學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[6]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格. 計算機科學(xué). 2016(10)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別方法[J]. 邵兵,杜鵬飛. 科技創(chuàng)新導(dǎo)報. 2016(06)
[8]基于稀疏特征遷移的語音情感識別[J]. 宋鵬,金赟,查誠,趙力. 數(shù)據(jù)采集與處理. 2016(02)
[9]基于模糊K近鄰的語音情感識別[J]. 紀(jì)正飚,王吉林,趙力. 微電子學(xué)與計算機. 2015(03)
[10]基于多模態(tài)信息融合的語音意圖理解方法[J]. 鄭彬彬,賈珈,蔡蓮紅. 中國科技論文在線. 2011(07)
博士論文
[1]基于特征學(xué)習(xí)的語音情感識別算法研究[D]. 查誠.東南大學(xué) 2017
[2]基于聽覺仿生的目標(biāo)聲音識別系統(tǒng)研究[D]. 張文娟.中國科學(xué)院研究生院(長春光學(xué)精密機械與物理研究所) 2012
[3]語音情感識別的關(guān)鍵技術(shù)研究[D]. 尤鳴宇.浙江大學(xué) 2007
[4]基于語音信號的情感識別研究[D]. 金學(xué)成.中國科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]基于深度學(xué)習(xí)的表情和姿態(tài)雙模態(tài)情感識別[D]. 郭迪.南京郵電大學(xué) 2019
[2]語音情感識別中語譜圖紋理特征提取算法研究[D]. 劉泳海.合肥工業(yè)大學(xué) 2018
本文編號:3022425
【文章來源】:遼寧科技大學(xué)遼寧省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
語音情感識別系統(tǒng)框圖
2.語音情感識別基礎(chǔ)12圖2.2喚醒度與效價的情感空間模型Fig.2.2EmotionalspacemodelofArousal-Valence2.3語音情感語料庫現(xiàn)階段進(jìn)行的語音情感研究,大都是在專門的語音情感數(shù)據(jù)庫上進(jìn)行的,一方面是因為這種專業(yè)的語料庫采集到底語料資源比較全面,在語音信號的處理上,也做得比較好,對于情感的標(biāo)簽備注,相對比較統(tǒng)一,對情感的測試驗證體系相對完備,認(rèn)可度高,用自己構(gòu)建的情感數(shù)據(jù)庫,情感認(rèn)可度可能不足,再有就是對于前期的數(shù)據(jù)采集,實驗設(shè)備也沒有專業(yè)的實驗室完備,所以綜合幾方面的原因,大多數(shù)的情感識別研究,所使用的數(shù)據(jù)還都是正規(guī)的情感語料庫數(shù)據(jù),很少有自己構(gòu)建的數(shù)據(jù)庫。這些專業(yè)的情感語料庫,在演繹情感的方法上,一般可以分為3類,第一種是模擬情感,通過前期的情緒醞釀,已到達(dá)對情感的充分表達(dá),這種是有針對性的自主引導(dǎo)的;第二種是被引發(fā)情感,通過將一些帶有特定情感的故事,或是看一些帶有濃重感情色彩的影片,激發(fā)說話者情感;第三種是自發(fā)式情感,不帶前兩種的引導(dǎo)色彩,全憑演繹者自發(fā)展現(xiàn)各種感情,相對的這種語料庫較少。現(xiàn)在的多數(shù)語料庫大都采用表演的方式,以確保感情的充沛。表2.2列舉了4個常用的情感數(shù)據(jù)庫,通過對比可以看出,現(xiàn)有的數(shù)據(jù)庫大都為表演性情感表達(dá),并且數(shù)據(jù)庫規(guī)模差別也比較大。所以在研究中數(shù)據(jù)庫的選取對實驗結(jié)果影響不可忽視。
遼寧科技大學(xué)碩士學(xué)位論文173.語音信號的預(yù)處理語音信號的預(yù)處理一般分為3個步驟:第一步,預(yù)加重;第二步,分幀加窗;第三步,端點檢測。3.1語音信號語處理3.1.1預(yù)加重預(yù)加重,是語音信號預(yù)處理的第一步,之所以在最開始進(jìn)行預(yù)加重處理,主要是因為,聲音都是由聲帶振動發(fā)出的,聲音經(jīng)過聲帶后,還要經(jīng)過口腔,在這個過程中,由于口唇輻射對語音信號存在的影響,使得聲音信號在高頻部分對這種影響表現(xiàn)得非常明顯,具體表現(xiàn)為出現(xiàn)了高頻跌落現(xiàn)象,預(yù)加重就是為了對這個問題進(jìn)行處理。它通過使用數(shù)字濾波器,升高語音信號高頻部分,有效緩解高頻部分語音成分過小的現(xiàn)象。語音信號的預(yù)加重一般通過一階FIR高通數(shù)字濾波器來實現(xiàn),該濾波器的傳遞函數(shù)是為:1z1)(zH(3.1)式中,α為預(yù)加重系數(shù),0.9<α<1.0。高通數(shù)字濾波器的幅頻特性和相頻特性如下圖3.1所示。圖3.1數(shù)字濾波器的幅頻特性與相頻特性Fig.3.1Amplitude-frequencycharacteristicsandphase-frequencycharacteristicsofdigitalfilters設(shè)n時刻的語音采樣值為x(n),經(jīng)過預(yù)加重處理后的結(jié)果為y()=()(1),這里=0.98。
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)BP-Adaboost和HMM混合模型的方言情感識別[J]. 冀常鵬,程琳,李鋒. 成都信息工程大學(xué)學(xué)報. 2019(05)
[2]利用語音與文本特征融合改善語音情感識別[J]. 馮亞琴,沈凌潔,胡婷婷,王蔚. 數(shù)據(jù)采集與處理. 2019(04)
[3]基于語譜圖提取深度空間注意特征的語音情感識別算法[J]. 王金華,應(yīng)娜,朱辰都,劉兆森,蔡哲棟. 電信科學(xué). 2019(07)
[4]用于跨庫語音情感識別的DBN特征融合方法[J]. 張昕然,巨曉正,宋鵬,查誠,趙力. 信號處理. 2017(05)
[5]基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[J]. 田熙燕,徐君鵬,杜留鋒. 河南科技學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[6]面向非平衡文本情感分類的TSF特征選擇方法[J]. 王杰,李德玉,王素格. 計算機科學(xué). 2016(10)
[7]基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別方法[J]. 邵兵,杜鵬飛. 科技創(chuàng)新導(dǎo)報. 2016(06)
[8]基于稀疏特征遷移的語音情感識別[J]. 宋鵬,金赟,查誠,趙力. 數(shù)據(jù)采集與處理. 2016(02)
[9]基于模糊K近鄰的語音情感識別[J]. 紀(jì)正飚,王吉林,趙力. 微電子學(xué)與計算機. 2015(03)
[10]基于多模態(tài)信息融合的語音意圖理解方法[J]. 鄭彬彬,賈珈,蔡蓮紅. 中國科技論文在線. 2011(07)
博士論文
[1]基于特征學(xué)習(xí)的語音情感識別算法研究[D]. 查誠.東南大學(xué) 2017
[2]基于聽覺仿生的目標(biāo)聲音識別系統(tǒng)研究[D]. 張文娟.中國科學(xué)院研究生院(長春光學(xué)精密機械與物理研究所) 2012
[3]語音情感識別的關(guān)鍵技術(shù)研究[D]. 尤鳴宇.浙江大學(xué) 2007
[4]基于語音信號的情感識別研究[D]. 金學(xué)成.中國科學(xué)技術(shù)大學(xué) 2007
碩士論文
[1]基于深度學(xué)習(xí)的表情和姿態(tài)雙模態(tài)情感識別[D]. 郭迪.南京郵電大學(xué) 2019
[2]語音情感識別中語譜圖紋理特征提取算法研究[D]. 劉泳海.合肥工業(yè)大學(xué) 2018
本文編號:3022425
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3022425.html
最近更新
教材專著