基于深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的聲學(xué)家庭行為識別
發(fā)布時(shí)間:2022-01-16 07:12
家庭環(huán)境的行為識別是智能家居領(lǐng)域的重要研究方向,也是智能輔助及安全監(jiān)控服務(wù)的核心與關(guān)鍵。聲學(xué)傳感器能夠采集到豐富的特征,易于部署且價(jià)格低廉;诼晫W(xué)傳感器的家庭行為識別的應(yīng)用場景更加貼近實(shí)際生活。由于家庭環(huán)境的聲學(xué)行為數(shù)據(jù)集的樣本數(shù)較少,且各類別間樣本嚴(yán)重不平衡,導(dǎo)致現(xiàn)有的基于聲學(xué)傳感器的行為識別模型的效果不佳。本文研究的重點(diǎn)和方向是結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí),解決家庭環(huán)境的聲學(xué)數(shù)據(jù)的樣本量不足且分類不平衡問題,并進(jìn)一步提升家庭環(huán)境聲學(xué)行為識別的效果。本文的主要工作如下:(1)除了在原始音頻上做數(shù)據(jù)增強(qiáng)方法外,提出了3種基于頻譜圖的數(shù)據(jù)增強(qiáng)方法,解決了家庭環(huán)境的聲學(xué)數(shù)據(jù)存在樣本不足的問題,提升模型的魯棒性。此外,使用諧波與沖擊拆解算法過濾頻譜圖中的噪聲,并利用GLU(Gated Linear Unit)進(jìn)一步抑制噪聲,提升模型性能。(2)提出了一種基于深度學(xué)習(xí)的家庭聲學(xué)行為識別網(wǎng)絡(luò)。提高結(jié)合CNN與RNN,同時(shí)對頻域特征以及時(shí)序相關(guān)特征進(jìn)行提取,并通過在CNN網(wǎng)絡(luò)中引入SE Net及DenseNet,加強(qiáng)了對CNN不同層特征的利用,提高對頻率特征的提取。此外,引入時(shí)間分布全連接層以及基于E...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
Mel帶通濾波器組
第2章相關(guān)技術(shù)介紹上海師范大學(xué)碩士學(xué)位論文8所得的結(jié)果便允許我們使用倒譜平均減法,其為一種對信道的歸一化技術(shù)。最終,可以采用對數(shù)變換后的濾波器組能量進(jìn)行離散余弦轉(zhuǎn)換,因?yàn)闉V波器組均為相互重疊,之間的能量亦是彼此相互關(guān)聯(lián)的;而離散余弦轉(zhuǎn)換可以去除能量的相關(guān)性。離散余弦變換系數(shù)越高,表示濾波器能量組的能量轉(zhuǎn)換速度越快,而此類變換會(huì)導(dǎo)致音頻識別模型性能的降低,因此通常會(huì)丟棄較高的部分,來提升模型的性能。MFCC操作的簡化步驟如下:將獲取的音頻信號剪裁為一個(gè)個(gè)較短的鄭逐幀計(jì)算其功率譜。使用一組Mel濾波器,將其作用至功率譜上,并對每一濾波器中得到的能量進(jìn)行求和操作。對每一濾波器獲得的能量采取對數(shù)變換。對上述這組對數(shù)變換后的濾波器組進(jìn)行離散余弦轉(zhuǎn)換操作。保留離散余弦轉(zhuǎn)換的部分參數(shù),而丟棄其余參數(shù)。通常情況下,基于Mel標(biāo)度的帶通濾波器組的圖形化展示如圖2-1所示:圖2-1Mel帶通濾波器組除MFCC特征外,頻譜圖也是較為常用的聲學(xué)特征。頻譜圖也被稱為頻譜瀑布或聲紋,為音頻信號在頻域上的圖形化表示,其隨著水平坐標(biāo)軸(例如時(shí)間)或其他刻度上的變換進(jìn)行轉(zhuǎn)換。頻譜圖可用于基于音頻信號的識別任務(wù),因此其也被廣泛地應(yīng)用于音頻處理、語音處理、聲吶系統(tǒng)及雷達(dá)系統(tǒng)等領(lǐng)域的研發(fā)中。頻譜圖的常見表示方式為:以時(shí)間為橫軸,以頻率為縱軸,使用圖中的點(diǎn)的顏色來代表某一時(shí)間點(diǎn)上該頻率的振動(dòng)幅度。如圖2-2所示。圖2-2常見的頻譜圖的表示形式
上海師范大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)介紹11型以及二者的結(jié)合體。生成式的深度學(xué)習(xí)模型是根據(jù)數(shù)據(jù)集來求聯(lián)合概率(,),接著根據(jù)先驗(yàn)概率()以及()的組合,求得條件概率(|)作為最終的預(yù)測模型,一個(gè)經(jīng)典的例子是受限制玻爾茲曼機(jī)的RBM[38]。判別式模型則是根據(jù)數(shù)據(jù)集固有特征,直接對概率分布(|)進(jìn)行求解,例如卷積神經(jīng)網(wǎng)絡(luò)[39]。第三類的結(jié)合體模型顧名思義,就是前面兩個(gè)結(jié)構(gòu)的聯(lián)合應(yīng)用。圖2-3神經(jīng)元結(jié)構(gòu)2.3.1基本神經(jīng)元結(jié)構(gòu)深度學(xué)習(xí)[40]網(wǎng)絡(luò)的基礎(chǔ)單位是神經(jīng)元,神經(jīng)元的具體結(jié)構(gòu)如圖2-5所示。圖中,包括多個(gè)神經(jīng)元輸入,=0,1,…,以及根據(jù)其計(jì)算的輸出值y,其中0=1對應(yīng)于偏置值。神經(jīng)元通過權(quán)值以及偏置值的結(jié)合,確定了中間狀態(tài)的值,則輸出可以被表示成:()=(∑=0)公式(2-3)以上公式中,為連接層的權(quán)值,當(dāng)其為正時(shí),表示其所對應(yīng)的神經(jīng)元正處于激發(fā)態(tài),相反地,其為負(fù)值時(shí),則表示其所對應(yīng)的神經(jīng)元正處于抑制態(tài)。式中,n表示輸入特征的個(gè)數(shù),為神經(jīng)元所對應(yīng)的輸出,為計(jì)算所發(fā)生的時(shí)間,f(.)為激活函數(shù),通常也被稱輸出轉(zhuǎn)換函數(shù),用來為模型增加非線性特征。常見的激活函數(shù)有如下幾種:(1)Sigmoid函數(shù),如圖2-6第1行第1列所示,Sigmoid函數(shù)可以通過下式來表示:()=11+,0<()<1公式(2-4)(2)Tanh函數(shù),如圖2-6的第2行第1列所示,Tanh函數(shù)是對Sigmoid函數(shù)的一種優(yōu)化變體。(3)ReLU函數(shù),如第3行第1列所示,其公式為:
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的翻錄語音檢測算法[J]. 李璨,王讓定,嚴(yán)迪群. 計(jì)算機(jī)應(yīng)用. 2018(01)
[2]基于語音頻譜融合特征的手機(jī)來源識別[J]. 裴安山,王讓定,嚴(yán)迪群. 計(jì)算機(jī)應(yīng)用. 2018(03)
[3]受限波爾茲曼機(jī)[J]. 張春霞,姬楠楠,王冠偉. 工程數(shù)學(xué)學(xué)報(bào). 2015(02)
本文編號:3592184
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
Mel帶通濾波器組
第2章相關(guān)技術(shù)介紹上海師范大學(xué)碩士學(xué)位論文8所得的結(jié)果便允許我們使用倒譜平均減法,其為一種對信道的歸一化技術(shù)。最終,可以采用對數(shù)變換后的濾波器組能量進(jìn)行離散余弦轉(zhuǎn)換,因?yàn)闉V波器組均為相互重疊,之間的能量亦是彼此相互關(guān)聯(lián)的;而離散余弦轉(zhuǎn)換可以去除能量的相關(guān)性。離散余弦變換系數(shù)越高,表示濾波器能量組的能量轉(zhuǎn)換速度越快,而此類變換會(huì)導(dǎo)致音頻識別模型性能的降低,因此通常會(huì)丟棄較高的部分,來提升模型的性能。MFCC操作的簡化步驟如下:將獲取的音頻信號剪裁為一個(gè)個(gè)較短的鄭逐幀計(jì)算其功率譜。使用一組Mel濾波器,將其作用至功率譜上,并對每一濾波器中得到的能量進(jìn)行求和操作。對每一濾波器獲得的能量采取對數(shù)變換。對上述這組對數(shù)變換后的濾波器組進(jìn)行離散余弦轉(zhuǎn)換操作。保留離散余弦轉(zhuǎn)換的部分參數(shù),而丟棄其余參數(shù)。通常情況下,基于Mel標(biāo)度的帶通濾波器組的圖形化展示如圖2-1所示:圖2-1Mel帶通濾波器組除MFCC特征外,頻譜圖也是較為常用的聲學(xué)特征。頻譜圖也被稱為頻譜瀑布或聲紋,為音頻信號在頻域上的圖形化表示,其隨著水平坐標(biāo)軸(例如時(shí)間)或其他刻度上的變換進(jìn)行轉(zhuǎn)換。頻譜圖可用于基于音頻信號的識別任務(wù),因此其也被廣泛地應(yīng)用于音頻處理、語音處理、聲吶系統(tǒng)及雷達(dá)系統(tǒng)等領(lǐng)域的研發(fā)中。頻譜圖的常見表示方式為:以時(shí)間為橫軸,以頻率為縱軸,使用圖中的點(diǎn)的顏色來代表某一時(shí)間點(diǎn)上該頻率的振動(dòng)幅度。如圖2-2所示。圖2-2常見的頻譜圖的表示形式
上海師范大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)介紹11型以及二者的結(jié)合體。生成式的深度學(xué)習(xí)模型是根據(jù)數(shù)據(jù)集來求聯(lián)合概率(,),接著根據(jù)先驗(yàn)概率()以及()的組合,求得條件概率(|)作為最終的預(yù)測模型,一個(gè)經(jīng)典的例子是受限制玻爾茲曼機(jī)的RBM[38]。判別式模型則是根據(jù)數(shù)據(jù)集固有特征,直接對概率分布(|)進(jìn)行求解,例如卷積神經(jīng)網(wǎng)絡(luò)[39]。第三類的結(jié)合體模型顧名思義,就是前面兩個(gè)結(jié)構(gòu)的聯(lián)合應(yīng)用。圖2-3神經(jīng)元結(jié)構(gòu)2.3.1基本神經(jīng)元結(jié)構(gòu)深度學(xué)習(xí)[40]網(wǎng)絡(luò)的基礎(chǔ)單位是神經(jīng)元,神經(jīng)元的具體結(jié)構(gòu)如圖2-5所示。圖中,包括多個(gè)神經(jīng)元輸入,=0,1,…,以及根據(jù)其計(jì)算的輸出值y,其中0=1對應(yīng)于偏置值。神經(jīng)元通過權(quán)值以及偏置值的結(jié)合,確定了中間狀態(tài)的值,則輸出可以被表示成:()=(∑=0)公式(2-3)以上公式中,為連接層的權(quán)值,當(dāng)其為正時(shí),表示其所對應(yīng)的神經(jīng)元正處于激發(fā)態(tài),相反地,其為負(fù)值時(shí),則表示其所對應(yīng)的神經(jīng)元正處于抑制態(tài)。式中,n表示輸入特征的個(gè)數(shù),為神經(jīng)元所對應(yīng)的輸出,為計(jì)算所發(fā)生的時(shí)間,f(.)為激活函數(shù),通常也被稱輸出轉(zhuǎn)換函數(shù),用來為模型增加非線性特征。常見的激活函數(shù)有如下幾種:(1)Sigmoid函數(shù),如圖2-6第1行第1列所示,Sigmoid函數(shù)可以通過下式來表示:()=11+,0<()<1公式(2-4)(2)Tanh函數(shù),如圖2-6的第2行第1列所示,Tanh函數(shù)是對Sigmoid函數(shù)的一種優(yōu)化變體。(3)ReLU函數(shù),如第3行第1列所示,其公式為:
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的翻錄語音檢測算法[J]. 李璨,王讓定,嚴(yán)迪群. 計(jì)算機(jī)應(yīng)用. 2018(01)
[2]基于語音頻譜融合特征的手機(jī)來源識別[J]. 裴安山,王讓定,嚴(yán)迪群. 計(jì)算機(jī)應(yīng)用. 2018(03)
[3]受限波爾茲曼機(jī)[J]. 張春霞,姬楠楠,王冠偉. 工程數(shù)學(xué)學(xué)報(bào). 2015(02)
本文編號:3592184
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3592184.html
最近更新
教材專著