天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

聲音事件識(shí)別中的有效特征提取方法研究

發(fā)布時(shí)間:2017-08-20 22:09

  本文關(guān)鍵詞:聲音事件識(shí)別中的有效特征提取方法研究


  更多相關(guān)文章: 聲音事件識(shí)別 特征表示 特征融合 深層神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò) 頻譜圖特征 耳蝸圖特征


【摘要】:近些年來(lái),作為聲音識(shí)別中的一個(gè)新興的研究方向,“聲音事件識(shí)別”因其廣泛的應(yīng)用前景,越來(lái)越受到研究學(xué)者們的關(guān)注。通過(guò)對(duì)聲音事件,例如敲門聲、掌聲、腳步聲,甚至鳥(niǎo)鳴聲等,進(jìn)行識(shí)別,能夠感知所處的環(huán)境,并偵測(cè)出其發(fā)生的變化。因此,聲音事件識(shí)別可以用于無(wú)人看守的安全監(jiān)管、醫(yī)療救助,以及機(jī)器的智能化,同時(shí)也為實(shí)現(xiàn)更好的人機(jī)交互體驗(yàn)提供了可能。一方面,在幾十年的發(fā)展過(guò)程中,研究學(xué)者們針對(duì)聲音事件的識(shí)別任務(wù),提出了一系列的特征提取方法和相應(yīng)的識(shí)別系統(tǒng),取得了突飛猛進(jìn)的發(fā)展和進(jìn)步。另一方面,隨著人工智能技術(shù)的不斷發(fā)展和突破,作為深度學(xué)習(xí)理論內(nèi)容的一部分,深層神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的信息抽取和建模能力,在模式識(shí)別,自動(dòng)控制,智能機(jī)器等諸多領(lǐng)域取得了顯著的成就,尤其是在語(yǔ)音識(shí)別,圖像理解等領(lǐng)域獲得了突飛猛進(jìn)的性能提升。目前聲音事件識(shí)別系統(tǒng)在噪聲環(huán)境較弱的情況下,識(shí)別效果很理想。但受聲音事件自身特性的影響,隨著噪聲強(qiáng)度的不斷增加,相應(yīng)的識(shí)別效果普遍較差,未能取得令人滿意的識(shí)別性能。為此,本文研究的重點(diǎn)和方向是,利用深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的對(duì)于信息提取和特征抽象的能力,提出能夠?qū)?fù)雜噪聲魯棒的有效特征表示方法,進(jìn)一步提升聲音事件識(shí)別系統(tǒng)在噪聲環(huán)境下的識(shí)別效果。主要包括以下幾個(gè)方面內(nèi)容:首先,提出了一種時(shí)頻域非線性降采樣的特征表示方法。由于傳統(tǒng)的二維頻譜圖特征同時(shí)包含有時(shí)、頻域的信息,為了使得到的頻譜圖特征具有更強(qiáng)的可區(qū)分性,本文提出了一種數(shù)據(jù)驅(qū)動(dòng)式的時(shí)域和頻域非線性降采樣策略。頻域上,通過(guò)分析噪聲和不同種類的聲音事件在不同頻段上分布的差異性信息,確定相應(yīng)的非線性降采樣邊界,對(duì)頻譜圖進(jìn)行頻域的非線性降采樣。另一方面,在時(shí)域上,利用斐波那契數(shù)列來(lái)獲取頻譜圖中不同長(zhǎng)短的時(shí)域幀信息,并進(jìn)行非線性降采樣的操作。經(jīng)過(guò)上述不同非線性降采樣操作后得到的特征,將被送入相應(yīng)的深層神經(jīng)網(wǎng)絡(luò)中進(jìn)一步提取高層的抽象信息,并最終用來(lái)對(duì)聲音事件進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,,利用頻域方差非線性映射的特征表示方法,能獲得較優(yōu)的性能提升,特別是在強(qiáng)噪聲的環(huán)境下。其次,提出了一種基于神經(jīng)網(wǎng)絡(luò)的譜圖時(shí)頻域融合的特征表示方法。在將耳蝸圖特征引入聲音事件識(shí)別的基礎(chǔ)上,嘗試?yán)蒙顚由窠?jīng)網(wǎng)絡(luò)對(duì)兩種不同的時(shí)頻二維特征圖進(jìn)行拼接和融合,獲得更有效的特征表示方法;诓煌纳窠(jīng)網(wǎng)絡(luò),提出了兩種不同的特征融合策略,即文中提出的“雙通道特征融合”和“底層特征融合”。其中,雙通道的特征融合方法利用了卷積神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu),將頻譜圖和耳蝸圖同時(shí)送入卷積神經(jīng)網(wǎng)絡(luò)的不同通道中,經(jīng)過(guò)卷積操作后再進(jìn)行特征的拼接;而底層特征融合的方法是,在將不同譜圖特征送入神經(jīng)網(wǎng)絡(luò)之前就進(jìn)行拼接融合。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),經(jīng)過(guò)特征融合后的系統(tǒng)性能有顯著的提升,且基于卷積神經(jīng)網(wǎng)絡(luò)的底層特征融合的系統(tǒng)性能更優(yōu)。最后,在前兩部分研究的基礎(chǔ)上,提出了基于神經(jīng)網(wǎng)絡(luò)的譜圖多分辨融合的特征表示方法。從綜合利用譜圖信息的局部和全局特征的角度出發(fā),同樣采用上述兩種不同的特征融合策略,對(duì)不同分辨率的譜圖特征進(jìn)行拼接融合。為了獲取不同分辨率信息的譜圖特征,我們采用不同的窗長(zhǎng)和窗移對(duì)原始的音頻信號(hào)進(jìn)行處理。若窗長(zhǎng)和窗移較短,則譜圖特征中的時(shí)域分辨率較高,但頻域的分辨率則較差,可以獲得較好的局部信息:反之,則能在較大的窗長(zhǎng)和窗移下獲得較為完整的全局信息。這兩種不同分辨率的譜圖特征,彼此具有互補(bǔ)性,通過(guò)融合能更好對(duì)聲音事件進(jìn)行區(qū)分和識(shí)別。實(shí)驗(yàn)結(jié)果也證明,利用不同分辨率譜圖特征融合的方法可以進(jìn)一步提升系統(tǒng)的識(shí)別準(zhǔn)確率,并在強(qiáng)噪聲環(huán)境下表現(xiàn)優(yōu)異。
【關(guān)鍵詞】:聲音事件識(shí)別 特征表示 特征融合 深層神經(jīng)網(wǎng)絡(luò) 卷積神經(jīng)網(wǎng)絡(luò) 頻譜圖特征 耳蝸圖特征
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TN912.34
【目錄】:
  • 摘要5-7
  • ABSTRACT7-14
  • 主要符號(hào)對(duì)照表14-15
  • 第一章 緒論15-25
  • 1.1 聲音事件識(shí)別簡(jiǎn)介15-18
  • 1.1.1 研究方向15-16
  • 1.1.2 相關(guān)應(yīng)用16-17
  • 1.1.3 面臨挑戰(zhàn)17-18
  • 1.2 聲音事件識(shí)別系統(tǒng)框架18-19
  • 1.3 研究現(xiàn)狀19-21
  • 1.3.1 發(fā)展歷程19-20
  • 1.3.2 存在問(wèn)題20-21
  • 1.4 數(shù)據(jù)集介紹21-22
  • 1.5 本文研究?jī)?nèi)容及組織框架22-25
  • 1.5.1主要內(nèi)容22-23
  • 1.5.2 本文的組織框架23-25
  • 第二章 聲音事件識(shí)別的特征提取方法綜述25-35
  • 2.1 傳統(tǒng)特征25-28
  • 2.1.1 平穩(wěn)特征25-27
  • 2.1.2 非平穩(wěn)特征27-28
  • 2.2 基于神經(jīng)網(wǎng)絡(luò)的特征28-33
  • 2.2.1 深度神經(jīng)網(wǎng)絡(luò)28-32
  • 2.2.2 卷積神經(jīng)網(wǎng)絡(luò)32-33
  • 2.3 本章小結(jié)33-35
  • 第三章 基于時(shí)頻域非線性映射的特征表示35-47
  • 3.1 基于頻域方差非線性映射的特征表示35-44
  • 3.1.1 研究動(dòng)機(jī)35-36
  • 3.1.2 頻域篩選的頻譜圖特征(FSM-SIF)36-37
  • 3.1.3 頻域方差的計(jì)算37-38
  • 3.1.4 非線性映射邊界的確定38-40
  • 3.1.5 系統(tǒng)框架及實(shí)驗(yàn)配置40-41
  • 3.1.6 實(shí)驗(yàn)結(jié)果與討論41-44
  • 3.2 基于時(shí)域非線性映射的特征表示44-45
  • 3.3 本章小結(jié)45-47
  • 第四章 基于神經(jīng)網(wǎng)絡(luò)的譜圖時(shí)頻域融合特征表示47-57
  • 4.1 研究動(dòng)機(jī)47
  • 4.2 耳蝸圖特征的引入47-50
  • 4.2.1 耳蝸圖簡(jiǎn)介47-48
  • 4.2.2 耳蝸圖與DNN48-49
  • 4.2.3 耳蝸圖與CNN49-50
  • 4.3 去噪處理50-51
  • 4.4 雙通道特征融合51-53
  • 4.4.1 實(shí)驗(yàn)框架52-53
  • 4.4.2 實(shí)驗(yàn)結(jié)果53
  • 4.5 底層特征融合53-55
  • 4.5.1 實(shí)驗(yàn)框架53-54
  • 4.5.2 實(shí)驗(yàn)結(jié)果54-55
  • 4.6 本章小結(jié)55-57
  • 第五章 基于神經(jīng)網(wǎng)絡(luò)的譜圖多分辨率融合特征表示57-67
  • 5.1 研究動(dòng)機(jī)57
  • 5.2 實(shí)驗(yàn)框架57-59
  • 5.3 頻譜圖多分辨率融合的特征表示59-61
  • 5.3.1 實(shí)驗(yàn)配置59
  • 5.3.2 分辨率的確定59-60
  • 5.3.3 實(shí)驗(yàn)結(jié)果60-61
  • 5.4 耳蝸圖多分辨率融合的特征表示61-63
  • 5.4.1 實(shí)驗(yàn)配置61
  • 5.4.2 分辨率的確定61-63
  • 5.4.3 實(shí)驗(yàn)結(jié)果63
  • 5.5 不同融合特征性能對(duì)比63-66
  • 5.6 本章小結(jié)66-67
  • 第六章 總結(jié)67-71
  • 6.1 本文的主要貢獻(xiàn)67-68
  • 6.2 后續(xù)研究展望68-71
  • 參考文獻(xiàn)71-75
  • 致謝75-77
  • 在讀期間發(fā)表的學(xué)術(shù)論文與取得的研究成果77-78

【參考文獻(xiàn)】

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 冷嚴(yán);復(fù)雜音頻的事件檢測(cè)與分類中的關(guān)鍵問(wèn)題研究[D];北京郵電大學(xué);2012年



本文編號(hào):709134

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/709134.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c1c2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本特黄特色大片免费观看| 不卡中文字幕在线视频| 欧美日韩精品综合一区| 国产水滴盗摄一区二区| 精品al亚洲麻豆一区| 丰满人妻熟妇乱又伦精另类视频| 欧美美女视频在线免费看| 偷拍美女洗澡免费视频| 91人妻人人揉人人澡人| 日本高清一区免费不卡| 91欧美日韩一区人妻少妇| 亚洲男人的天堂色偷偷| 成人亚洲国产精品一区不卡| 欧美日韩国产一级91| 久久99亚洲小姐精品综合| 国产午夜精品亚洲精品国产| 大香蕉久草网一区二区三区| 久久精品福利在线观看| 久久99精品日韩人妻| 国产精品久久熟女吞精| 午夜福利激情性生活免费视频| 中文字幕日产乱码一区二区| 欧美日韩亚洲巨色人妻| 日韩成人动画在线观看| 亚洲欧美日韩综合在线成成| 日本理论片午夜在线观看| 中文字幕免费观看亚洲视频| 久草热视频这里只有精品| 尹人大香蕉中文在线播放| 亚洲伦片免费偷拍一区| 欧美日韩亚洲巨色人妻| 久久精品亚洲精品一区| 日韩欧美在线看一卡一卡| 欧美亚洲国产日韩一区二区| 色偷偷亚洲女人天堂观看| 婷婷激情五月天丁香社区| 丰满熟女少妇一区二区三区| 中文字幕精品一区二区三| 爱草草在线观看免费视频| 男人把女人操得嗷嗷叫| 中国一区二区三区不卡|