基于深度學習和遷移學習的環(huán)境聲音識別
本文關(guān)鍵詞:基于深度學習和遷移學習的環(huán)境聲音識別
更多相關(guān)文章: 環(huán)境聲音識別 特征融合 深度學習 遷移學習
【摘要】:作為一種感知周圍環(huán)境十分有效的方法,環(huán)境聲音識別(Enviorment Sound Recognition,ESR)被廣泛的應用在機器人導航、移動機器人、音頻檢索、音頻取證以及其它基于情景感知、可穿戴的應用中。目前,多種經(jīng)典的分類器被廣泛的應用在ESR問題中,但其性能還遠未達到理想的水平,為了進一步提升ESR性能,本文首先引入了深度學習技術(shù),深度神經(jīng)網(wǎng)絡(luò)作為一種高性能、多層級的神經(jīng)網(wǎng)絡(luò),已經(jīng)被廣泛證明在提取數(shù)據(jù)特征和建立識別模型方面具有一定優(yōu)勢。聲音因采集時無方向要求、且始終蘊含環(huán)境信息等優(yōu)勢,在環(huán)境識別時扮演主要角色,但考慮到一般情況下采集音頻時容易獲取若干輔助的視頻信息,而且顯然多模態(tài)信息更有助于提升環(huán)境識別的準確率,所以本文在構(gòu)建基于深度神經(jīng)網(wǎng)的環(huán)境識別方法時,同時利用音頻特征和輔助視頻特征。此外,針對在實際應用中環(huán)境類別非常多,新的識別需求不斷涌現(xiàn),針對新類別的數(shù)據(jù)標注和訓練開銷過大的問題,提出基于遷移學習的環(huán)境聲音識別方法,基于已建模的相似環(huán)境類,和新類別的少量標注數(shù)據(jù),學習得到新環(huán)境類別模型。本文將深度神經(jīng)網(wǎng)絡(luò)應用在環(huán)境聲音識別問題中,為了充分利用聲音特征和輔助視頻特征,本文對如何融合兩種模態(tài)信息進行探討,提出兩種特征融合方法,分別為基于特征的融合以及基于模型的融合;谔卣魅诤系沫h(huán)境聲音識別方法,將音頻特征和視頻特征直接拼接作為深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)的輸入,并通過訓練DBN進行環(huán)境場景的識別;基于模型融合的環(huán)境聲音識別方法分別對音頻信息和輔助視頻信息建立DBN模型,并調(diào)至最優(yōu)性能,然后用一個新的DBN用來代替原有兩個DBN的輸出層以實現(xiàn)模型融合,最終通過訓練新的DBN進行環(huán)境聲音識別。實驗結(jié)果表明,基于模型融合的方法取得了最好的效果,識別性能相較于其它方法和基線系統(tǒng)有明顯的提升本文提出基于遷移學習的環(huán)境聲音建模方法,堆疊去噪自編碼網(wǎng)絡(luò)(Stacked Denoised Auto Encoder,SDA)的無監(jiān)督訓練較為簡單,并能良好的學習數(shù)據(jù)集的特征,為其和遷移學習的融合提供了良好的基礎(chǔ)。本文在遷移學習的框架下,結(jié)合SDA網(wǎng)絡(luò),通過衡量新環(huán)境類別的語料與現(xiàn)有環(huán)境語料之間的關(guān)系實現(xiàn)識別模型的遷移,實驗表明此方法能有效地區(qū)分新場景,準確率有明顯提升。在遷移學習理論框架下,反觀DBN的預訓練與微調(diào)過程,提出基于通用預訓練的方法。該方法采用擴大DBN預訓練數(shù)據(jù)集規(guī)模的策略,達到待識別數(shù)據(jù)只需在此通用預訓練基礎(chǔ)上進行快速的微調(diào)過程即可實現(xiàn)分類的目的。實驗結(jié)果表明,此方法可以顯著的提升待識別數(shù)據(jù)的性能,且用以擴大訓練集的數(shù)據(jù)可以包括非場景數(shù)據(jù),初步實驗表明,部分說話人數(shù)據(jù)的加入有利于提升系統(tǒng)的穩(wěn)定性和魯棒性。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TN912.34
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張宏超;聲音識別簡介[J];信息與控制;1979年03期
2 劉礫;日研制成功世界上第一個連續(xù)聲音識別系統(tǒng)[J];國外自動化;1979年Z1期
3 王憲忠;;前景光明的聲音識別技術(shù)[J];華夏星火;2001年09期
4 郭利剛;方土富;;智能聲音識別技術(shù)在廣播電視廣告監(jiān)測中的應用[J];廣播與電視技術(shù);2006年12期
5 施智雄;;基于聲音識別的氣味發(fā)生裝置設(shè)計與實現(xiàn)[J];電聲技術(shù);2009年05期
6 蔡時昊;顏偉國;;智能聲音識別技術(shù)構(gòu)建廣播電視廣告節(jié)目監(jiān)測系統(tǒng)[J];信息通信;2012年03期
7 王再歡;唐云建;韓鵬;;一種利用聲音識別的森林盜伐檢測方法[J];計算機工程與應用;2012年30期
8 甘振新 ,金世龍;關(guān)于聲音識別的一些研究課題[J];信息與控制;1979年03期
9 千葉 ,成美 ,劉小立 ,祝景成;聲音識別技術(shù)的現(xiàn)狀與未來[J];國外自動化;1983年02期
10 碧仁 ,陳淑媛;國內(nèi)外市場大視野[J];現(xiàn)代情報;1993年01期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 楊曜;郭斌;於志文;;一種基于背景聲音識別的社會情境感知方法[A];第八屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2012)論文集PCC[C];2012年
2 張明瀚;石為人;丁寧;;一種基于學習的異常聲音識別研究[A];2009中國儀器儀表與測控技術(shù)大會論文集[C];2009年
3 高思澤;倪邦發(fā);張貴英;趙常軍;肖才錦;劉存兄;劉超;管永精;;過熱液滴探測器的聲音識別系統(tǒng)設(shè)計[A];第十二屆全國活化分析學術(shù)交流會論文摘要匯編[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 日立邋編譯;聲音識別:下一代手機輸入接口[N];中國電子報;2007年
2 本報駐以色列記者 田學科;藏在舌尖上的“身份證”[N];科技日報;2006年
3 李莉;反恐戰(zhàn)場另類“靈眼”[N];中國國防報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 張文娟;基于聽覺仿生的目標聲音識別系統(tǒng)研究[D];中國科學院研究生院(長春光學精密機械與物理研究所);2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 張楠;西湖之聲“杭州味道”品牌戰(zhàn)略方案評估和建議[D];浙江大學;2015年
2 張?zhí)K楠;基于視頻跟蹤與多模型聲音識別的豬行為檢測與分析[D];太原理工大學;2016年
3 張小霞;基于能量檢測的復雜環(huán)境聲音識別[D];福州大學;2014年
4 尤冠瑜;基于時間編碼的環(huán)境聲音識別[D];福州大學;2013年
5 王熙;基于多頻段譜減法的魯棒性生態(tài)環(huán)境聲音識別[D];福州大學;2013年
6 顏鑫;真實噪聲下利用抗噪冪歸一化倒譜系數(shù)的兩層魯棒環(huán)境聲音識別[D];福州大學;2013年
7 史秋瑩;基于深度學習和遷移學習的環(huán)境聲音識別[D];哈爾濱工業(yè)大學;2016年
8 胡志峰;基于嵌入式聲音識別技術(shù)的列車預警研究[D];西南交通大學;2007年
9 黃偉鴻;工廠噪聲環(huán)境下聲音識別系統(tǒng)的設(shè)計與實現(xiàn)[D];中山大學;2014年
10 吳弘;空中目標聲音識別技術(shù)的研究[D];南京理工大學;2004年
,本文編號:1218500
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/1218500.html