基于神經(jīng)網(wǎng)絡(luò)的魯棒雙耳聲源定位研究
發(fā)布時間:2021-01-15 07:10
聲源定位技術(shù)作為語音信號處理系統(tǒng)的重要前端,在視頻會議、助聽器、機器人聽覺等方面有廣泛的應(yīng)用。聲源定位算法包括基于麥克風陣列的定位算法和基于雙耳的定位算法。基于雙耳的聲源定位模擬人耳聽覺感知的特性,從而實現(xiàn)定位,但以往的雙耳聲源定位算法在混響與噪聲中定位性能顯著下降。本文結(jié)合近年來興起的神經(jīng)網(wǎng)絡(luò),以雙耳空間信息為基礎(chǔ),研究魯棒的雙耳聲源定位算法。本文主要分析和實現(xiàn)了兩種基于神經(jīng)網(wǎng)絡(luò)的雙耳聲源定位算法:基于子帶深度神經(jīng)網(wǎng)絡(luò)的雙耳聲源定位算法和基于長短期記憶網(wǎng)絡(luò)的雙耳聲源定位算法。(1)基于子帶深度神經(jīng)網(wǎng)絡(luò)的雙耳聲源定位算法�;谧訋疃壬窠�(jīng)網(wǎng)絡(luò)DNN(Deep Neural Networks)的雙耳聲源定位算法是對原有基于DNN定位算法的改進。原有算法是基于全頻帶的,而子帶定位算法模擬人耳的時頻分析特性,將雙耳聲信號劃分為多個子帶,利用子帶的雙耳空間定位特征參數(shù)互相關(guān)函數(shù)CCF(Cross Correlation Function)和耳間強度差I(lǐng)ID(Interaural Intensity Difference),建立子帶DNN。在子帶內(nèi),將聲源定位看做多分類問題,同時根據(jù)乘積規(guī)則和求...
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
人耳的生理結(jié)構(gòu)
如圖2-2 所示。由坐標(r, θ,φ)來表示聲源的位置信息。其中,r 表示聲源到原點的距離,取值范圍為 0≤ r <+∞;θ 表示方向矢量在水平面的投影與中垂面的夾角,θ=0°表示正前方,θ=90°、180°和-90°分別表示頭部的正右方、正后方和正左方,-180°≤θ≤180°;仰角φ表示仰角,即方向矢量與水平面的夾角,范圍為-90°≤φ≤90°,在垂直方向,φ=-90°、0°和+90°分別表?
ITD原理示意圖
【參考文獻】:
期刊論文
[1]基于子帶信噪比估計和軟判決的魯棒雙耳聲源定位算法[J]. 周琳,趙小燕,程旭,李擬珺,吳鎮(zhèn)揚. 東南大學學報(自然科學版). 2015(04)
碩士論文
[1]魯棒的雙耳語音分離算法的研究[D]. 徐耀.東南大學 2017
[2]基于雙耳聲源定位的魯棒語音分離研究[D]. 束佳明.東南大學 2016
[3]基于雙耳空間信息的語音分離研究[D]. 李梟雄.東南大學 2015
本文編號:2978477
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
人耳的生理結(jié)構(gòu)
如圖2-2 所示。由坐標(r, θ,φ)來表示聲源的位置信息。其中,r 表示聲源到原點的距離,取值范圍為 0≤ r <+∞;θ 表示方向矢量在水平面的投影與中垂面的夾角,θ=0°表示正前方,θ=90°、180°和-90°分別表示頭部的正右方、正后方和正左方,-180°≤θ≤180°;仰角φ表示仰角,即方向矢量與水平面的夾角,范圍為-90°≤φ≤90°,在垂直方向,φ=-90°、0°和+90°分別表?
ITD原理示意圖
【參考文獻】:
期刊論文
[1]基于子帶信噪比估計和軟判決的魯棒雙耳聲源定位算法[J]. 周琳,趙小燕,程旭,李擬珺,吳鎮(zhèn)揚. 東南大學學報(自然科學版). 2015(04)
碩士論文
[1]魯棒的雙耳語音分離算法的研究[D]. 徐耀.東南大學 2017
[2]基于雙耳聲源定位的魯棒語音分離研究[D]. 束佳明.東南大學 2016
[3]基于雙耳空間信息的語音分離研究[D]. 李梟雄.東南大學 2015
本文編號:2978477
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2978477.html
最近更新
教材專著