基于多模態(tài)生成對(duì)抗網(wǎng)絡(luò)和三元組損失的說(shuō)話人識(shí)別
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖
從圖1中可以看出,網(wǎng)絡(luò)的最初始輸入分別為人臉圖片和語(yǔ)音信號(hào),在輸入GAN之前,圖1分別對(duì)它們進(jìn)行預(yù)處理。語(yǔ)音部分采用傳統(tǒng)語(yǔ)音識(shí)別中常用的梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficients,MFCC)特征,考慮到說(shuō)話人識(shí)別任務(wù)中的樣本是一個(gè)時(shí)域窗口....
圖2 不同margin值的ROC
其中,假正率表示不匹配樣本中被判斷成匹配樣本的比例,與通常的ROC曲線不同,本文圖中真正率表示的是匹配樣本中被正確判斷,并且被正確識(shí)別出ID的比例。可以從圖2看到,margin取0.2時(shí),對(duì)應(yīng)的ROC曲線的AUC面積最大,因此本文最終采用0.2的margin值。而對(duì)于閾值的選取,....
圖3 不同閾值的識(shí)別結(jié)果
由于預(yù)訓(xùn)練GAN已經(jīng)使得兩個(gè)模態(tài)的特征在公共空間距離靠近,為了驗(yàn)證使用3元組損失訓(xùn)練特征匹配判斷網(wǎng)絡(luò)的必要性,本文對(duì)比了選用公共層特征進(jìn)行識(shí)別與選用特征匹配判斷網(wǎng)絡(luò)特征進(jìn)行識(shí)別的實(shí)驗(yàn)結(jié)果。其中直接選用公共層特征的實(shí)驗(yàn)結(jié)果如圖5所示。圖5中所示匹配準(zhǔn)確率表示匹配樣本和不匹配樣本分別....
圖4 是否具有公共層的ROC曲線對(duì)比
從圖5(c)中可以看到,在總準(zhǔn)確率指標(biāo)上,有特征匹配判斷網(wǎng)絡(luò)的識(shí)別結(jié)果明顯優(yōu)于無(wú)特征匹配判斷網(wǎng)絡(luò)的識(shí)別結(jié)果。從圖5(a),圖5(b),圖5(c),可以發(fā)現(xiàn)不使用特征匹配判斷網(wǎng)絡(luò)時(shí),不論樣本的兩個(gè)模態(tài)是否匹配,特征的余弦距離都趨近于1。因此該實(shí)驗(yàn)驗(yàn)證了特征匹配判斷網(wǎng)絡(luò)能有效地拉遠(yuǎn)不....
本文編號(hào):4031985
本文鏈接:http://sikaile.net/kejilunwen/wltx/4031985.html