基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究

發(fā)布時間：2017-05-03 21:14

本文關(guān)鍵詞：基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究，由筆耕文化傳播整理發(fā)布。

【摘要】：人類的語音作為人與人之間溝通的重要手段和情感表達的重要媒介,已經(jīng)成為人工智能的重要研究方向。在傳統(tǒng)的語音情感識別中,如何提取最具判別性的特征已成為很多研究者關(guān)注的內(nèi)容,其中一個重要的挑戰(zhàn)就是在情感特征提取過程中把情感相關(guān)因素和情感無關(guān)因素(如環(huán)境、說話人等的差異)進行分離,使提取的情感特征具有更強的泛化性。傳統(tǒng)的語音情感識別有一個前提:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自同一個語料庫,也就是兩者具有相同的數(shù)據(jù)分布。但是,由于語音數(shù)據(jù)是從不同的設(shè)備和記錄環(huán)境下獲取的,它們在語言、情感的種類、標記方案等方面存在很大的差異,這時候訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)就具有不同的數(shù)據(jù)分布,傳統(tǒng)的語音情感識別方法已經(jīng)不能很好地解決這個問題。域適應(yīng),作為一種特殊的遷移學(xué)習(xí)方法,被證明可以有效地解決不同域之間數(shù)據(jù)分布存在差異的問題。本文針對傳統(tǒng)的語音情感識別,提出了可鑒別語音情感特征學(xué)習(xí)方法;針對跨庫的語音情感識別,分別提出了基于先驗共享的半監(jiān)督域適應(yīng)方法,和基于標簽監(jiān)督和特征分解的無監(jiān)督域適應(yīng)方法。具體研究內(nèi)容如下:1)提出可鑒別語音情感特征學(xué)習(xí)方法。主要目的是對情感相關(guān)因素和情感無關(guān)因素進行分離,從而提取情感相關(guān)的特征。該方法包括四個步驟。首先,對語音數(shù)據(jù)進行預(yù)處理,得到語譜特征。然后進行無監(jiān)督特征學(xué)習(xí),從語譜特征中提取若干個小塊進行無監(jiān)督預(yù)訓(xùn)練,得到核(權(quán)重和偏置),利用不同尺寸的小塊就能訓(xùn)練不同尺寸的核,然后對整個輸入語譜特征利用核進行卷積、池化,并堆疊不同尺寸的池化特征,得到一個初步的粗糙特征表示。接著進行半監(jiān)督特征學(xué)習(xí),將粗糙特征作為輸入并映射成兩部分,一部分和情感相關(guān),另一部分和情感無關(guān)�？偟膿p失函數(shù)由四部分組成:重構(gòu)損失函數(shù)、正交損失函數(shù)、判別損失函數(shù)和認證損失函數(shù)。通過正交損失函數(shù),將情感相關(guān)的特征和情感無關(guān)的特征進行初步的劃分。接下來對情感相關(guān)的特征進行一些約束。通過判別損失函數(shù),增大不同種類情感的情感相關(guān)特征之間的距離;通過認證損失函數(shù),減小同一種類情感的情感特征之間的距離。最后,將半監(jiān)督特征學(xué)習(xí)得到的情感相關(guān)特征作為一段音頻的最終特征表示,結(jié)合相應(yīng)的情感標簽,進行分類器的訓(xùn)練。實驗在INTERSPEECH 2009情感挑戰(zhàn)賽的五類任務(wù)上進行評估,利用該方法學(xué)習(xí)得到的情感相關(guān)特征的識別率明顯高于在同等條件下使用傳統(tǒng)聲學(xué)特征的識別率。2)提出基于先驗共享的語音情感遷移學(xué)習(xí)方法。主要目的是希望通過共享先驗,使得目標域中有標簽樣本比較少的那些類,能夠從源域中相關(guān)的類獲得一些有用的信息,從而改善目標域的分類性能。提出的模型是一個兩層的神經(jīng)網(wǎng)絡(luò)模型,第一層是特征提取層,第二層是softmax分類器。第二層參數(shù)其實是各個類的分類器參數(shù),在每類都有充足有標簽樣本的情況下,各個類的分類器參數(shù)一般都是獨立的,但在半監(jiān)督域適應(yīng)下,目標域中的每個類只有很少的有標簽樣本,只用這些有標簽樣本不足以訓(xùn)練一個性能出色的分類器,因此本方法對相關(guān)的類的分類器參數(shù)加上一個共同的先驗(也就是相關(guān)類的分類器權(quán)重向量從同一個分布中產(chǎn)生)。該方法包括三個步驟。首先,對語音數(shù)據(jù)預(yù)處理,得到一個384維特征。然后,利用源域和目標域的無標簽數(shù)據(jù)進行預(yù)訓(xùn)練共享隱藏層自動編碼器,用于初始化模型的第一層參數(shù)。最后,利用源域和目標域的有標簽數(shù)據(jù)進行訓(xùn)練整個兩層模型。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEECH 2009情感挑戰(zhàn)賽的兩類任務(wù)上進行評估。實驗結(jié)果表明,在目標域有標簽樣本比較少的情況下,提出的基于先驗共享方法的召回率要高于沒有先驗共享的方法,并且高于傳統(tǒng)的機器學(xué)習(xí)方法。3)提出基于標簽監(jiān)督和特征分解的語音情感遷移學(xué)習(xí)方法。主要目的是同時學(xué)習(xí)具有域不變性和情感判別性的特征,來彌補域之間的差異,并且學(xué)到任務(wù)相關(guān)的特征。該方法所提出的模型是一個前向神經(jīng)網(wǎng)絡(luò)模型,包括三個部分:特征提取,情感標簽預(yù)測,域標簽預(yù)測。首先將輸入數(shù)據(jù)解開成兩部分:情感相關(guān)特征和情感無關(guān)特征,然后將情感相關(guān)特征進行層次非線性轉(zhuǎn)換得到高層情感特征,進一步采用高層特征進行情感標簽和域標簽的預(yù)測。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEECH2009情感挑戰(zhàn)賽的兩類任務(wù)上進行評估。實驗結(jié)果表明,該方法的召回率要明顯高于傳統(tǒng)的機器學(xué)習(xí)方法和其他一些域適應(yīng)方法。
【關(guān)鍵詞】：語音情感識別 特征學(xué)習(xí) 深度學(xué)習(xí) 遷移學(xué)習(xí) 域適應(yīng)
【學(xué)位授予單位】：江蘇大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TN912.34
【目錄】：

摘要4-6
ABSTRACT6-11
第一章緒論11-20
1.1 研究背景及意義11-12
1.2 語音情感識別相關(guān)研究現(xiàn)狀12-17
1.2.1 情感狀態(tài)描述模型12-14
1.2.2 語音情感庫14-15
1.2.3 語音情感特征15
1.2.4 語音情感識別方法15-16
1.2.5 語音情感識別挑戰(zhàn)賽16-17
1.3 語音情感識別的主要挑戰(zhàn)17
1.3.1 傳統(tǒng)的語音情感識別挑戰(zhàn)17
1.3.2 跨庫的語音情感識別挑戰(zhàn)17
1.4 本文的主要貢獻17-18
1.5 論文的組織結(jié)構(gòu)18-20
第二章語音情感識別相關(guān)技術(shù)20-31
2.1 引言20
2.2 深度學(xué)習(xí)20-24
2.2.1 自動編碼器20-23
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)23-24
2.3 遷移學(xué)習(xí)24-27
2.4 域適應(yīng)27-29
2.4.1 基于實例的域適應(yīng)方法27-28
2.4.2 基于特征的域適應(yīng)方法28-29
2.5 語音情感識別方法29-31
2.5.1 傳統(tǒng)的語音情感識別方法29
2.5.2 跨庫的語音情感識別方法29-31
第三章可鑒別語音情感特征學(xué)習(xí)方法31-39
3.1 引言31-32
3.2 無監(jiān)督特征學(xué)習(xí)32-33
3.3 半監(jiān)督特征學(xué)習(xí)33-35
3.4 實驗設(shè)計與分析35-37
3.4.1 數(shù)據(jù)庫35
3.4.2 參數(shù)選擇35-36
3.4.3 實驗設(shè)置36-37
3.4.4 實驗結(jié)果37
3.5 本章小結(jié)37-39
第四章基于先驗共享的語音情感遷移學(xué)習(xí)方法39-46
4.1 引言39-40
4.2 無監(jiān)督預(yù)訓(xùn)練40-41
4.3 先驗共享41-42
4.4 實驗設(shè)計與分析42-45
4.4.1 數(shù)據(jù)庫42-43
4.4.2 實驗設(shè)置43
4.4.3 模型比較43
4.4.4 實驗結(jié)果43-45
4.5 本章小結(jié)45-46
第五章基于標簽監(jiān)督和特征分解的語音情感遷移學(xué)習(xí)方法46-56
5.1 引言46-47
5.2 模型介紹47-51
5.2.1 情感判別和域不變的特征學(xué)習(xí)模型EDFLM47-49
5.2.2 改進的情感判別和域不變的特征學(xué)習(xí)模型E_EDFLM49-50
5.2.3 識別方法50-51
5.3 實驗設(shè)計與分析51-55
5.3.1 數(shù)據(jù)庫51-52
5.3.2 實驗設(shè)置52-53
5.3.3 實驗結(jié)果53-55
5.4 本章小結(jié)55-56
第六章總結(jié)與展望56-58
6.1 總結(jié)56-57
6.2 展望57-58
參考文獻58-64
致謝64-65
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文65

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 趙力;黃程韋;;實用語音情感識別中的若干關(guān)鍵技術(shù)[J];數(shù)據(jù)采集與處理;2014年02期

2 陳建廈,李翠華;語音情感識別的研究進展[J];計算機工程;2005年13期

3 王茜;;一個語音情感識別系統(tǒng)的設(shè)計與實現(xiàn)[J];大眾科技;2006年08期

4 孫亞;;遠程教學(xué)中語音情感識別系統(tǒng)的研究與實現(xiàn)[J];長春理工大學(xué)學(xué)報(高教版);2008年02期

5 章國寶;宋清華;費樹岷;趙艷;;語音情感識別研究[J];計算機技術(shù)與發(fā)展;2009年01期

6 石瑛;胡學(xué)鋼;方磊;;基于決策樹的多特征語音情感識別[J];計算機技術(shù)與發(fā)展;2009年01期

7 趙臘生;張強;魏小鵬;;語音情感識別研究進展[J];計算機應(yīng)用研究;2009年02期

8 張石清;趙知勁;;噪聲背景下的語音情感識別[J];西南交通大學(xué)學(xué)報;2009年03期

9 黃程韋;金峗;王青云;趙艷;趙力;;基于特征空間分解與融合的語音情感識別[J];信號處理;2010年06期

10 袁健;賀祥;許華虎;馮肖維;劉玲;;服務(wù)機器人的語音情感識別與交互技術(shù)研究[J];小型微型計算機系統(tǒng);2010年07期

中國重要會議論文全文數(shù)據(jù)庫前8條

1 陳建廈;;語音情感識別綜述[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年

2 楊桃香;楊鑒;畢福昆;;基于模糊聚類的語音情感識別[A];第三屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議（HHME2007）論文集[C];2007年

3 羅武駿;包永強;趙力;;基于模糊支持向量機的語音情感識別方法[A];2012'中國西部聲學(xué)學(xué)術(shù)交流會論文集(Ⅱ)[C];2012年

4 王青;謝波;陳根才;;基于神經(jīng)網(wǎng)絡(luò)的漢語語音情感識別[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年

5 張鼎天;徐明星;;基于調(diào)制頻譜特征的自動語音情感識別[A];第十二屆全國人機語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

6 童燦;;基于boosting HMM的語音情感識別[A];2008年中國高校通信類院系學(xué)術(shù)研討會論文集（下冊）[C];2009年

7 戴明洋;楊大利;徐明星;;語音情感識別中UBM訓(xùn)練集的組成研究[A];第十一屆全國人機語音通訊學(xué)術(shù)會議論文集（一）[C];2011年

8 張衛(wèi);張雪英;孫穎;;基于HHT邊際Teager能量譜的語音情感識別[A];第十二屆全國人機語音通訊學(xué)術(shù)會議（NCMMSC'2013）論文集[C];2013年

中國博士學(xué)位論文全文數(shù)據(jù)庫前6條

1 孫亞新;語音情感識別中的特征提取與識別算法研究[D];華南理工大學(xué);2015年

2 韓文靜;語音情感識別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

3 謝波;普通話語音情感識別關(guān)鍵技術(shù)研究[D];浙江大學(xué);2006年

4 尤鳴宇;語音情感識別的關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年

5 劉佳;語音情感識別的研究與應(yīng)用[D];浙江大學(xué);2009年

6 趙臘生;語音情感特征提取與識別方法研究[D];大連理工大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 陳曉東;基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[D];華南理工大學(xué);2015年

2 孫志鋒;語音情感識別研究[D];陜西師范大學(xué);2015年

3 譚發(fā)曾;語音情感狀態(tài)模糊識別研究[D];電子科技大學(xué);2015年

4 陳鑫;相空間重構(gòu)在語音情感識別中的研究[D];長沙理工大學(xué);2014年

5 李昌群;基于特征選擇的語音情感識別[D];合肥工業(yè)大學(xué);2015年

6 陳文汐;基于核函數(shù)的語音情感識別技術(shù)的研究[D];東南大學(xué);2015年

7 薛文韜;基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究[D];江蘇大學(xué);2016年

8 韓文靜;基于神經(jīng)網(wǎng)絡(luò)的語音情感識別技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

9 王穎;自適應(yīng)語音情感識別方法研究[D];江蘇大學(xué);2009年

10 梁智蘭;基于獨立分量分析的語音情感識別研究[D];哈爾濱工程大學(xué);2009年

本文關(guān)鍵詞：基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究，由筆耕文化傳播整理發(fā)布。

，

本文編號：343791

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/343791.html

上一篇：多天線系統(tǒng)的無線信息和能量傳輸機制
下一篇：基于多體糾纏量子盲簽名協(xié)議的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究