基于神經(jīng)網(wǎng)絡(luò)的聲音事件檢測(cè)技術(shù)研究
發(fā)布時(shí)間:2020-12-24 09:42
機(jī)器聽覺,是指機(jī)器利用聲音傳感器采集音頻數(shù)據(jù),并對(duì)其進(jìn)行分析從而判斷聲音的來源、變化等過程的技術(shù),聲音事件檢測(cè)(Sound Event Detection,SED)是其重要內(nèi)容之一。聲音事件檢測(cè)就是將采集到的聲音進(jìn)行分類,并判斷當(dāng)前發(fā)生的事件或所處的場(chǎng)景,在智能家居、安防監(jiān)控、無人駕駛等領(lǐng)域有著廣闊的應(yīng)用前景。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,利用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行聲音事件檢測(cè)已經(jīng)成為了越來越多研究者的選擇。目前,該領(lǐng)域的研究主要存在兩方面的難點(diǎn),其一是缺少帶有聲音事件起、止時(shí)間的強(qiáng)標(biāo)記數(shù)據(jù)情況下,如何利用弱標(biāo)記、甚至是無標(biāo)記數(shù)據(jù)進(jìn)行學(xué)習(xí);第二是對(duì)于更符合實(shí)際生活場(chǎng)景的多聲音事件檢測(cè)系統(tǒng),如何強(qiáng)化聲音事件的特征,提高識(shí)別的準(zhǔn)確率。圍繞上述兩個(gè)問題,本文開展了以下研究:首先,優(yōu)化了使用弱標(biāo)簽數(shù)據(jù)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu),在充分利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)提取上下文信息基礎(chǔ)上,使用殘差網(wǎng)絡(luò)(ResNet)替代卷積神經(jīng)網(wǎng)絡(luò)(CNN),加深網(wǎng)絡(luò)深度,充分利用弱標(biāo)記數(shù)據(jù),同時(shí)使用通道注意力機(jī)制,強(qiáng)化特征提取,改善識(shí)別效果;其次,構(gòu)建半監(jiān)督學(xué)習(xí)框架Mean-Teacher模型,利用強(qiáng)標(biāo)記數(shù)據(jù)、弱標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
多聲音事件檢測(cè)任務(wù)
電子科技大學(xué)碩士學(xué)位論文8果與標(biāo)簽向量之間的損失函數(shù),通過最小化損失函數(shù)、防止過擬合等,得到最終的模型參數(shù);在測(cè)試階段,則僅輸入聲音樣本,通過判斷系統(tǒng)給出的判決結(jié)果與已知的該樣本標(biāo)簽進(jìn)行比對(duì),從而獲得系統(tǒng)的準(zhǔn)確率等性能評(píng)價(jià)指標(biāo)。顯然,并不能將參與訓(xùn)練的聲音樣本用來測(cè)試樣本性能,因此訓(xùn)練集與測(cè)試集的劃分必須是互斥的。根據(jù)聲音片段與標(biāo)簽的對(duì)應(yīng)關(guān)系,可分為強(qiáng)標(biāo)簽數(shù)據(jù)和弱標(biāo)簽數(shù)據(jù)。對(duì)于強(qiáng)標(biāo)簽數(shù)據(jù),標(biāo)簽可以對(duì)應(yīng)到聲音事件的起止時(shí)刻,假設(shè)給出的數(shù)據(jù)集包含N條聲音樣本,他們分別屬于L個(gè)聲音事件,對(duì)每一個(gè)樣本按照50ms/癥50%幀重疊進(jìn)行分幀操作,則第i幀數(shù)據(jù)的起始時(shí)間為(i-1)*50ms,結(jié)束時(shí)間為i*50ms,每幀的時(shí)間長(zhǎng)度為50ms,若該幀的持續(xù)時(shí)間包含在事件的時(shí)間范圍內(nèi),則其標(biāo)簽向量L(i)=1,否則L(i)=0;對(duì)于弱標(biāo)簽數(shù)據(jù),其標(biāo)簽并不包含各類事件的具體起始時(shí)間,因此各幀的標(biāo)簽數(shù)據(jù)均設(shè)置為統(tǒng)一的值,即若該條聲音樣本被標(biāo)記為事件,則各幀的標(biāo)簽向量L(i)=1,否則各幀的L(i)=0。圖2-1多聲音事件檢測(cè)系統(tǒng)框架圖對(duì)于單聲音事件檢測(cè)來說,任何一段聲音樣本,標(biāo)簽向量中只能有一個(gè)位置對(duì)應(yīng)為1,其余均對(duì)應(yīng)為0;而對(duì)于本文探討的多聲音事件檢測(cè)而言,標(biāo)簽向量并不是互斥的,即可能出現(xiàn)同一條聲音樣本或同一幀數(shù)據(jù),可能出現(xiàn)標(biāo)簽向量中兩個(gè)甚至多個(gè)位置的值為1。2.1.2評(píng)價(jià)指標(biāo)單聲音事件檢測(cè)本質(zhì)上仍然是一個(gè)分類系統(tǒng),其性能評(píng)價(jià)指標(biāo)也與其他的分類系統(tǒng)相似。但是,隨著多聲音事件檢測(cè)與弱標(biāo)簽的聲音事件檢測(cè)任務(wù)的出現(xiàn)與快速發(fā)展,單純的準(zhǔn)確率指標(biāo)并不能很好地反映系統(tǒng)性能。目前,較為公認(rèn)的評(píng)價(jià)指標(biāo)是由A.Mesaros,及T.Heittola,andT.Virtanen在文獻(xiàn)[31]中提出的F-Score及ER
電子科技大學(xué)碩士學(xué)位論文10的輸出矩陣,只有當(dāng)輸出矩陣中事件的起、止時(shí)間與標(biāo)簽矩陣中一致時(shí)(一般誤差200ms以內(nèi)即可認(rèn)為是一致),才可視為判斷正確,即在響應(yīng)的時(shí)間范圍內(nèi)標(biāo)注TP,否則在該時(shí)間范圍內(nèi)標(biāo)注為FN或FP。因此,基于事件的計(jì)算方式,其輸出矩陣與標(biāo)記矩陣按照事件數(shù)對(duì)應(yīng),不按照幀數(shù)對(duì)應(yīng),其得到的各中間值也是與整個(gè)時(shí)間范圍內(nèi)的事件數(shù)相關(guān)的。圖2-2基于事件的中間量計(jì)算方式而基于片段的計(jì)算方式,如圖2-3所示,則是將聲音樣本按照某個(gè)固定時(shí)間長(zhǎng)度分幀后,為每一幀打上標(biāo)簽,根據(jù)每一幀的輸出結(jié)果構(gòu)造輸出矩陣。這時(shí),輸出矩陣與標(biāo)記矩陣是一個(gè)大小固定的尺寸,即縱向由聲音事件種類數(shù)決定,橫向代表所有鄭將每一幀對(duì)應(yīng)的輸出矩陣和標(biāo)簽矩陣進(jìn)行對(duì)比并,得出每一幀相應(yīng)的TP、FP、FN值,再將各幀的情況匯總,得到整個(gè)時(shí)間范圍內(nèi)的中間量的值。圖2-3基于片段的中間量計(jì)算方式
【參考文獻(xiàn)】:
期刊論文
[1]基于多尺度特征融合的小尺度行人檢測(cè)[J]. 羅強(qiáng),蓋佳航,鄭宏宇. 軟件. 2019(12)
博士論文
[1]復(fù)雜音頻的事件檢測(cè)與分類中的關(guān)鍵問題研究[D]. 冷嚴(yán).北京郵電大學(xué) 2012
碩士論文
[1]基于深度特征的說話人辨認(rèn)技術(shù)研究[D]. 顧婷.南京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的聲學(xué)場(chǎng)景分類與聲音事件檢測(cè)[D]. 李先苦.華南理工大學(xué) 2019
[3]基于神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究[D]. 邱子璇.電子科技大學(xué) 2019
[4]基于深度學(xué)習(xí)的聲音事件識(shí)別研究[D]. 王詩佳.東南大學(xué) 2018
[5]基于注意力機(jī)制的聲音場(chǎng)景深度分類模型研究[D]. 夏子琪.浙江大學(xué) 2018
[6]基于多通道的分層特征提取的圖像識(shí)別[D]. 祝璞.中國(guó)科學(xué)技術(shù)大學(xué) 2016
本文編號(hào):2935429
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:80 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
多聲音事件檢測(cè)任務(wù)
電子科技大學(xué)碩士學(xué)位論文8果與標(biāo)簽向量之間的損失函數(shù),通過最小化損失函數(shù)、防止過擬合等,得到最終的模型參數(shù);在測(cè)試階段,則僅輸入聲音樣本,通過判斷系統(tǒng)給出的判決結(jié)果與已知的該樣本標(biāo)簽進(jìn)行比對(duì),從而獲得系統(tǒng)的準(zhǔn)確率等性能評(píng)價(jià)指標(biāo)。顯然,并不能將參與訓(xùn)練的聲音樣本用來測(cè)試樣本性能,因此訓(xùn)練集與測(cè)試集的劃分必須是互斥的。根據(jù)聲音片段與標(biāo)簽的對(duì)應(yīng)關(guān)系,可分為強(qiáng)標(biāo)簽數(shù)據(jù)和弱標(biāo)簽數(shù)據(jù)。對(duì)于強(qiáng)標(biāo)簽數(shù)據(jù),標(biāo)簽可以對(duì)應(yīng)到聲音事件的起止時(shí)刻,假設(shè)給出的數(shù)據(jù)集包含N條聲音樣本,他們分別屬于L個(gè)聲音事件,對(duì)每一個(gè)樣本按照50ms/癥50%幀重疊進(jìn)行分幀操作,則第i幀數(shù)據(jù)的起始時(shí)間為(i-1)*50ms,結(jié)束時(shí)間為i*50ms,每幀的時(shí)間長(zhǎng)度為50ms,若該幀的持續(xù)時(shí)間包含在事件的時(shí)間范圍內(nèi),則其標(biāo)簽向量L(i)=1,否則L(i)=0;對(duì)于弱標(biāo)簽數(shù)據(jù),其標(biāo)簽并不包含各類事件的具體起始時(shí)間,因此各幀的標(biāo)簽數(shù)據(jù)均設(shè)置為統(tǒng)一的值,即若該條聲音樣本被標(biāo)記為事件,則各幀的標(biāo)簽向量L(i)=1,否則各幀的L(i)=0。圖2-1多聲音事件檢測(cè)系統(tǒng)框架圖對(duì)于單聲音事件檢測(cè)來說,任何一段聲音樣本,標(biāo)簽向量中只能有一個(gè)位置對(duì)應(yīng)為1,其余均對(duì)應(yīng)為0;而對(duì)于本文探討的多聲音事件檢測(cè)而言,標(biāo)簽向量并不是互斥的,即可能出現(xiàn)同一條聲音樣本或同一幀數(shù)據(jù),可能出現(xiàn)標(biāo)簽向量中兩個(gè)甚至多個(gè)位置的值為1。2.1.2評(píng)價(jià)指標(biāo)單聲音事件檢測(cè)本質(zhì)上仍然是一個(gè)分類系統(tǒng),其性能評(píng)價(jià)指標(biāo)也與其他的分類系統(tǒng)相似。但是,隨著多聲音事件檢測(cè)與弱標(biāo)簽的聲音事件檢測(cè)任務(wù)的出現(xiàn)與快速發(fā)展,單純的準(zhǔn)確率指標(biāo)并不能很好地反映系統(tǒng)性能。目前,較為公認(rèn)的評(píng)價(jià)指標(biāo)是由A.Mesaros,及T.Heittola,andT.Virtanen在文獻(xiàn)[31]中提出的F-Score及ER
電子科技大學(xué)碩士學(xué)位論文10的輸出矩陣,只有當(dāng)輸出矩陣中事件的起、止時(shí)間與標(biāo)簽矩陣中一致時(shí)(一般誤差200ms以內(nèi)即可認(rèn)為是一致),才可視為判斷正確,即在響應(yīng)的時(shí)間范圍內(nèi)標(biāo)注TP,否則在該時(shí)間范圍內(nèi)標(biāo)注為FN或FP。因此,基于事件的計(jì)算方式,其輸出矩陣與標(biāo)記矩陣按照事件數(shù)對(duì)應(yīng),不按照幀數(shù)對(duì)應(yīng),其得到的各中間值也是與整個(gè)時(shí)間范圍內(nèi)的事件數(shù)相關(guān)的。圖2-2基于事件的中間量計(jì)算方式而基于片段的計(jì)算方式,如圖2-3所示,則是將聲音樣本按照某個(gè)固定時(shí)間長(zhǎng)度分幀后,為每一幀打上標(biāo)簽,根據(jù)每一幀的輸出結(jié)果構(gòu)造輸出矩陣。這時(shí),輸出矩陣與標(biāo)記矩陣是一個(gè)大小固定的尺寸,即縱向由聲音事件種類數(shù)決定,橫向代表所有鄭將每一幀對(duì)應(yīng)的輸出矩陣和標(biāo)簽矩陣進(jìn)行對(duì)比并,得出每一幀相應(yīng)的TP、FP、FN值,再將各幀的情況匯總,得到整個(gè)時(shí)間范圍內(nèi)的中間量的值。圖2-3基于片段的中間量計(jì)算方式
【參考文獻(xiàn)】:
期刊論文
[1]基于多尺度特征融合的小尺度行人檢測(cè)[J]. 羅強(qiáng),蓋佳航,鄭宏宇. 軟件. 2019(12)
博士論文
[1]復(fù)雜音頻的事件檢測(cè)與分類中的關(guān)鍵問題研究[D]. 冷嚴(yán).北京郵電大學(xué) 2012
碩士論文
[1]基于深度特征的說話人辨認(rèn)技術(shù)研究[D]. 顧婷.南京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的聲學(xué)場(chǎng)景分類與聲音事件檢測(cè)[D]. 李先苦.華南理工大學(xué) 2019
[3]基于神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究[D]. 邱子璇.電子科技大學(xué) 2019
[4]基于深度學(xué)習(xí)的聲音事件識(shí)別研究[D]. 王詩佳.東南大學(xué) 2018
[5]基于注意力機(jī)制的聲音場(chǎng)景深度分類模型研究[D]. 夏子琪.浙江大學(xué) 2018
[6]基于多通道的分層特征提取的圖像識(shí)別[D]. 祝璞.中國(guó)科學(xué)技術(shù)大學(xué) 2016
本文編號(hào):2935429
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2935429.html
最近更新
教材專著