基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:人類的語音作為人與人之間溝通的重要手段和情感表達的重要媒介,已經(jīng)成為人工智能的重要研究方向。在傳統(tǒng)的語音情感識別中,如何提取最具判別性的特征已成為很多研究者關(guān)注的內(nèi)容,其中一個重要的挑戰(zhàn)就是在情感特征提取過程中把情感相關(guān)因素和情感無關(guān)因素(如環(huán)境、說話人等的差異)進行分離,使提取的情感特征具有更強的泛化性。傳統(tǒng)的語音情感識別有一個前提:訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自同一個語料庫,也就是兩者具有相同的數(shù)據(jù)分布。但是,由于語音數(shù)據(jù)是從不同的設(shè)備和記錄環(huán)境下獲取的,它們在語言、情感的種類、標記方案等方面存在很大的差異,這時候訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)就具有不同的數(shù)據(jù)分布,傳統(tǒng)的語音情感識別方法已經(jīng)不能很好地解決這個問題。域適應(yīng),作為一種特殊的遷移學(xué)習(xí)方法,被證明可以有效地解決不同域之間數(shù)據(jù)分布存在差異的問題。本文針對傳統(tǒng)的語音情感識別,提出了可鑒別語音情感特征學(xué)習(xí)方法;針對跨庫的語音情感識別,分別提出了基于先驗共享的半監(jiān)督域適應(yīng)方法,和基于標簽監(jiān)督和特征分解的無監(jiān)督域適應(yīng)方法。具體研究內(nèi)容如下:1)提出可鑒別語音情感特征學(xué)習(xí)方法。主要目的是對情感相關(guān)因素和情感無關(guān)因素進行分離,從而提取情感相關(guān)的特征。該方法包括四個步驟。首先,對語音數(shù)據(jù)進行預(yù)處理,得到語譜特征。然后進行無監(jiān)督特征學(xué)習(xí),從語譜特征中提取若干個小塊進行無監(jiān)督預(yù)訓(xùn)練,得到核(權(quán)重和偏置),利用不同尺寸的小塊就能訓(xùn)練不同尺寸的核,然后對整個輸入語譜特征利用核進行卷積、池化,并堆疊不同尺寸的池化特征,得到一個初步的粗糙特征表示。接著進行半監(jiān)督特征學(xué)習(xí),將粗糙特征作為輸入并映射成兩部分,一部分和情感相關(guān),另一部分和情感無關(guān)?偟膿p失函數(shù)由四部分組成:重構(gòu)損失函數(shù)、正交損失函數(shù)、判別損失函數(shù)和認證損失函數(shù)。通過正交損失函數(shù),將情感相關(guān)的特征和情感無關(guān)的特征進行初步的劃分。接下來對情感相關(guān)的特征進行一些約束。通過判別損失函數(shù),增大不同種類情感的情感相關(guān)特征之間的距離;通過認證損失函數(shù),減小同一種類情感的情感特征之間的距離。最后,將半監(jiān)督特征學(xué)習(xí)得到的情感相關(guān)特征作為一段音頻的最終特征表示,結(jié)合相應(yīng)的情感標簽,進行分類器的訓(xùn)練。實驗在INTERSPEECH 2009情感挑戰(zhàn)賽的五類任務(wù)上進行評估,利用該方法學(xué)習(xí)得到的情感相關(guān)特征的識別率明顯高于在同等條件下使用傳統(tǒng)聲學(xué)特征的識別率。2)提出基于先驗共享的語音情感遷移學(xué)習(xí)方法。主要目的是希望通過共享先驗,使得目標域中有標簽樣本比較少的那些類,能夠從源域中相關(guān)的類獲得一些有用的信息,從而改善目標域的分類性能。提出的模型是一個兩層的神經(jīng)網(wǎng)絡(luò)模型,第一層是特征提取層,第二層是softmax分類器。第二層參數(shù)其實是各個類的分類器參數(shù),在每類都有充足有標簽樣本的情況下,各個類的分類器參數(shù)一般都是獨立的,但在半監(jiān)督域適應(yīng)下,目標域中的每個類只有很少的有標簽樣本,只用這些有標簽樣本不足以訓(xùn)練一個性能出色的分類器,因此本方法對相關(guān)的類的分類器參數(shù)加上一個共同的先驗(也就是相關(guān)類的分類器權(quán)重向量從同一個分布中產(chǎn)生)。該方法包括三個步驟。首先,對語音數(shù)據(jù)預(yù)處理,得到一個384維特征。然后,利用源域和目標域的無標簽數(shù)據(jù)進行預(yù)訓(xùn)練共享隱藏層自動編碼器,用于初始化模型的第一層參數(shù)。最后,利用源域和目標域的有標簽數(shù)據(jù)進行訓(xùn)練整個兩層模型。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEECH 2009情感挑戰(zhàn)賽的兩類任務(wù)上進行評估。實驗結(jié)果表明,在目標域有標簽樣本比較少的情況下,提出的基于先驗共享方法的召回率要高于沒有先驗共享的方法,并且高于傳統(tǒng)的機器學(xué)習(xí)方法。3)提出基于標簽監(jiān)督和特征分解的語音情感遷移學(xué)習(xí)方法。主要目的是同時學(xué)習(xí)具有域不變性和情感判別性的特征,來彌補域之間的差異,并且學(xué)到任務(wù)相關(guān)的特征。該方法所提出的模型是一個前向神經(jīng)網(wǎng)絡(luò)模型,包括三個部分:特征提取,情感標簽預(yù)測,域標簽預(yù)測。首先將輸入數(shù)據(jù)解開成兩部分:情感相關(guān)特征和情感無關(guān)特征,然后將情感相關(guān)特征進行層次非線性轉(zhuǎn)換得到高層情感特征,進一步采用高層特征進行情感標簽和域標簽的預(yù)測。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEECH2009情感挑戰(zhàn)賽的兩類任務(wù)上進行評估。實驗結(jié)果表明,該方法的召回率要明顯高于傳統(tǒng)的機器學(xué)習(xí)方法和其他一些域適應(yīng)方法。
【關(guān)鍵詞】:語音情感識別 特征學(xué)習(xí) 深度學(xué)習(xí) 遷移學(xué)習(xí) 域適應(yīng)
【學(xué)位授予單位】:江蘇大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TN912.34
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-20
- 1.1 研究背景及意義11-12
- 1.2 語音情感識別相關(guān)研究現(xiàn)狀12-17
- 1.2.1 情感狀態(tài)描述模型12-14
- 1.2.2 語音情感庫14-15
- 1.2.3 語音情感特征15
- 1.2.4 語音情感識別方法15-16
- 1.2.5 語音情感識別挑戰(zhàn)賽16-17
- 1.3 語音情感識別的主要挑戰(zhàn)17
- 1.3.1 傳統(tǒng)的語音情感識別挑戰(zhàn)17
- 1.3.2 跨庫的語音情感識別挑戰(zhàn)17
- 1.4 本文的主要貢獻17-18
- 1.5 論文的組織結(jié)構(gòu)18-20
- 第二章 語音情感識別相關(guān)技術(shù)20-31
- 2.1 引言20
- 2.2 深度學(xué)習(xí)20-24
- 2.2.1 自動編碼器20-23
- 2.2.2 卷積神經(jīng)網(wǎng)絡(luò)23-24
- 2.3 遷移學(xué)習(xí)24-27
- 2.4 域適應(yīng)27-29
- 2.4.1 基于實例的域適應(yīng)方法27-28
- 2.4.2 基于特征的域適應(yīng)方法28-29
- 2.5 語音情感識別方法29-31
- 2.5.1 傳統(tǒng)的語音情感識別方法29
- 2.5.2 跨庫的語音情感識別方法29-31
- 第三章 可鑒別語音情感特征學(xué)習(xí)方法31-39
- 3.1 引言31-32
- 3.2 無監(jiān)督特征學(xué)習(xí)32-33
- 3.3 半監(jiān)督特征學(xué)習(xí)33-35
- 3.4 實驗設(shè)計與分析35-37
- 3.4.1 數(shù)據(jù)庫35
- 3.4.2 參數(shù)選擇35-36
- 3.4.3 實驗設(shè)置36-37
- 3.4.4 實驗結(jié)果37
- 3.5 本章小結(jié)37-39
- 第四章 基于先驗共享的語音情感遷移學(xué)習(xí)方法39-46
- 4.1 引言39-40
- 4.2 無監(jiān)督預(yù)訓(xùn)練40-41
- 4.3 先驗共享41-42
- 4.4 實驗設(shè)計與分析42-45
- 4.4.1 數(shù)據(jù)庫42-43
- 4.4.2 實驗設(shè)置43
- 4.4.3 模型比較43
- 4.4.4 實驗結(jié)果43-45
- 4.5 本章小結(jié)45-46
- 第五章 基于標簽監(jiān)督和特征分解的語音情感遷移學(xué)習(xí)方法46-56
- 5.1 引言46-47
- 5.2 模型介紹47-51
- 5.2.1 情感判別和域不變的特征學(xué)習(xí)模型EDFLM47-49
- 5.2.2 改進的情感判別和域不變的特征學(xué)習(xí)模型E_EDFLM49-50
- 5.2.3 識別方法50-51
- 5.3 實驗設(shè)計與分析51-55
- 5.3.1 數(shù)據(jù)庫51-52
- 5.3.2 實驗設(shè)置52-53
- 5.3.3 實驗結(jié)果53-55
- 5.4 本章小結(jié)55-56
- 第六章 總結(jié)與展望56-58
- 6.1 總結(jié)56-57
- 6.2 展望57-58
- 參考文獻58-64
- 致謝64-65
- 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文65
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙力;黃程韋;;實用語音情感識別中的若干關(guān)鍵技術(shù)[J];數(shù)據(jù)采集與處理;2014年02期
2 陳建廈,李翠華;語音情感識別的研究進展[J];計算機工程;2005年13期
3 王茜;;一個語音情感識別系統(tǒng)的設(shè)計與實現(xiàn)[J];大眾科技;2006年08期
4 孫亞;;遠程教學(xué)中語音情感識別系統(tǒng)的研究與實現(xiàn)[J];長春理工大學(xué)學(xué)報(高教版);2008年02期
5 章國寶;宋清華;費樹岷;趙艷;;語音情感識別研究[J];計算機技術(shù)與發(fā)展;2009年01期
6 石瑛;胡學(xué)鋼;方磊;;基于決策樹的多特征語音情感識別[J];計算機技術(shù)與發(fā)展;2009年01期
7 趙臘生;張強;魏小鵬;;語音情感識別研究進展[J];計算機應(yīng)用研究;2009年02期
8 張石清;趙知勁;;噪聲背景下的語音情感識別[J];西南交通大學(xué)學(xué)報;2009年03期
9 黃程韋;金峗;王青云;趙艷;趙力;;基于特征空間分解與融合的語音情感識別[J];信號處理;2010年06期
10 袁健;賀祥;許華虎;馮肖維;劉玲;;服務(wù)機器人的語音情感識別與交互技術(shù)研究[J];小型微型計算機系統(tǒng);2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 陳建廈;;語音情感識別綜述[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年
2 楊桃香;楊鑒;畢福昆;;基于模糊聚類的語音情感識別[A];第三屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2007)論文集[C];2007年
3 羅武駿;包永強;趙力;;基于模糊支持向量機的語音情感識別方法[A];2012'中國西部聲學(xué)學(xué)術(shù)交流會論文集(Ⅱ)[C];2012年
4 王青;謝波;陳根才;;基于神經(jīng)網(wǎng)絡(luò)的漢語語音情感識別[A];第一屆中國情感計算及智能交互學(xué)術(shù)會議論文集[C];2003年
5 張鼎天;徐明星;;基于調(diào)制頻譜特征的自動語音情感識別[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
6 童燦;;基于boosting HMM的語音情感識別[A];2008年中國高校通信類院系學(xué)術(shù)研討會論文集(下冊)[C];2009年
7 戴明洋;楊大利;徐明星;;語音情感識別中UBM訓(xùn)練集的組成研究[A];第十一屆全國人機語音通訊學(xué)術(shù)會議論文集(一)[C];2011年
8 張衛(wèi);張雪英;孫穎;;基于HHT邊際Teager能量譜的語音情感識別[A];第十二屆全國人機語音通訊學(xué)術(shù)會議(NCMMSC'2013)論文集[C];2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 孫亞新;語音情感識別中的特征提取與識別算法研究[D];華南理工大學(xué);2015年
2 韓文靜;語音情感識別關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
3 謝波;普通話語音情感識別關(guān)鍵技術(shù)研究[D];浙江大學(xué);2006年
4 尤鳴宇;語音情感識別的關(guān)鍵技術(shù)研究[D];浙江大學(xué);2007年
5 劉佳;語音情感識別的研究與應(yīng)用[D];浙江大學(xué);2009年
6 趙臘生;語音情感特征提取與識別方法研究[D];大連理工大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳曉東;基于卷積神經(jīng)網(wǎng)絡(luò)的語音情感識別[D];華南理工大學(xué);2015年
2 孫志鋒;語音情感識別研究[D];陜西師范大學(xué);2015年
3 譚發(fā)曾;語音情感狀態(tài)模糊識別研究[D];電子科技大學(xué);2015年
4 陳鑫;相空間重構(gòu)在語音情感識別中的研究[D];長沙理工大學(xué);2014年
5 李昌群;基于特征選擇的語音情感識別[D];合肥工業(yè)大學(xué);2015年
6 陳文汐;基于核函數(shù)的語音情感識別技術(shù)的研究[D];東南大學(xué);2015年
7 薛文韜;基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究[D];江蘇大學(xué);2016年
8 韓文靜;基于神經(jīng)網(wǎng)絡(luò)的語音情感識別技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
9 王穎;自適應(yīng)語音情感識別方法研究[D];江蘇大學(xué);2009年
10 梁智蘭;基于獨立分量分析的語音情感識別研究[D];哈爾濱工程大學(xué);2009年
本文關(guān)鍵詞:基于深度學(xué)習(xí)和遷移學(xué)習(xí)的語音情感識別方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:343791
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/343791.html