天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多模態(tài)生成對抗網(wǎng)絡(luò)和三元組損失的說話人識別

發(fā)布時(shí)間:2025-02-08 21:05
   為了挖掘說話人識別領(lǐng)域中人臉和語音的相關(guān)性,該文設(shè)計(jì)多模態(tài)生成對抗網(wǎng)絡(luò)(GAN),將人臉特征和語音特征映射到聯(lián)系更加緊密的公共空間,隨后利用3元組損失對兩個(gè)模態(tài)的聯(lián)系進(jìn)一步約束,拉近相同個(gè)體跨模態(tài)樣本的特征距離,拉遠(yuǎn)不同個(gè)體跨模態(tài)樣本的特征距離。最后通過計(jì)算公共空間特征的跨模態(tài)余弦距離判斷人臉和語音是否匹配,并使用Softmax識別說話人身份。實(shí)驗(yàn)結(jié)果表明,該方法能有效地提升說話人識別準(zhǔn)確率。

【文章頁數(shù)】:7 頁

【部分圖文】:

圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖

圖1 本文所提網(wǎng)絡(luò)結(jié)構(gòu)圖

從圖1中可以看出,網(wǎng)絡(luò)的最初始輸入分別為人臉圖片和語音信號,在輸入GAN之前,圖1分別對它們進(jìn)行預(yù)處理。語音部分采用傳統(tǒng)語音識別中常用的梅爾倒譜系數(shù)(MelFrequencyCepstrumCoefficients,MFCC)特征,考慮到說話人識別任務(wù)中的樣本是一個(gè)時(shí)域窗口....


圖2 不同margin值的ROC

圖2 不同margin值的ROC

其中,假正率表示不匹配樣本中被判斷成匹配樣本的比例,與通常的ROC曲線不同,本文圖中真正率表示的是匹配樣本中被正確判斷,并且被正確識別出ID的比例?梢詮膱D2看到,margin取0.2時(shí),對應(yīng)的ROC曲線的AUC面積最大,因此本文最終采用0.2的margin值。而對于閾值的選取,....


圖3 不同閾值的識別結(jié)果

圖3 不同閾值的識別結(jié)果

由于預(yù)訓(xùn)練GAN已經(jīng)使得兩個(gè)模態(tài)的特征在公共空間距離靠近,為了驗(yàn)證使用3元組損失訓(xùn)練特征匹配判斷網(wǎng)絡(luò)的必要性,本文對比了選用公共層特征進(jìn)行識別與選用特征匹配判斷網(wǎng)絡(luò)特征進(jìn)行識別的實(shí)驗(yàn)結(jié)果。其中直接選用公共層特征的實(shí)驗(yàn)結(jié)果如圖5所示。圖5中所示匹配準(zhǔn)確率表示匹配樣本和不匹配樣本分別....


圖4 是否具有公共層的ROC曲線對比

圖4 是否具有公共層的ROC曲線對比

從圖5(c)中可以看到,在總準(zhǔn)確率指標(biāo)上,有特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果明顯優(yōu)于無特征匹配判斷網(wǎng)絡(luò)的識別結(jié)果。從圖5(a),圖5(b),圖5(c),可以發(fā)現(xiàn)不使用特征匹配判斷網(wǎng)絡(luò)時(shí),不論樣本的兩個(gè)模態(tài)是否匹配,特征的余弦距離都趨近于1。因此該實(shí)驗(yàn)驗(yàn)證了特征匹配判斷網(wǎng)絡(luò)能有效地拉遠(yuǎn)不....



本文編號:4031985

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/4031985.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11119***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com