天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于人臉和語音深度特征融合的說話人識(shí)別與標(biāo)注算法研究

發(fā)布時(shí)間:2025-04-01 05:18
  說話人鑒定在眾多實(shí)際安全領(lǐng)域有重要應(yīng)用,然而基于單一模態(tài)生物特征的鑒定模型易受環(huán)境因素變化的影響。通常較單一模態(tài),多模態(tài)特征融合方法可以提供更豐富和更全面的本質(zhì)信息,并且近年來得到了越來越多的關(guān)注。因此,有效的多模態(tài)特征融合方法發(fā)展對這些安全應(yīng)用領(lǐng)域具有重要的實(shí)際意義.本文首先闡述有效的語音人臉特征融合的說話人識(shí)別方法,其中融合方法基于多模態(tài)特征融合的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。人臉特征通過卷積神經(jīng)網(wǎng)絡(luò)提取得到,語音特征則通過手工提取的高層語義特征,以此實(shí)現(xiàn)人臉特征與語音特征之間的兼容,同時(shí)整個(gè)過程端到端實(shí)現(xiàn),可以達(dá)到自動(dòng)學(xué)習(xí)特征融合映射關(guān)系。本文針對不同人臉語音特征融合的網(wǎng)絡(luò)作出不同層次的融合方式的比較,進(jìn)而得出不同層次融合對最終識(shí)別性能的影響。最終的實(shí)驗(yàn)結(jié)果表明多模態(tài)特征融合的方法較單模型方法性能更為高效,通過對比不同層次的特征融合方法,發(fā)現(xiàn)特征層融合方法較決策層融合方法更為有效。其次闡述了基于人臉語音特征融合的方法,本文進(jìn)一步提出了基于注意力機(jī)制的人臉語音特征融合的說話人標(biāo)注算法。首先通過VGG-face得到對應(yīng)的人臉特征以及語音的MFCCs,作為后續(xù)網(wǎng)絡(luò)輸入,后本文針對語音特征的編碼提出兩種不...

【文章頁數(shù)】:84 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第1章 引言
    1.1 課題背景及研究意義
    1.2 多生物特征融合
    1.3 基于人臉和語音的特征融合研究現(xiàn)狀
    1.4 論文內(nèi)容與組織結(jié)構(gòu)
    1.5 本章小節(jié)
第2章 深度學(xué)習(xí)相關(guān)理論介紹
    2.1 幾種典型深度學(xué)習(xí)基礎(chǔ)方法介紹
        2.1.1 受限玻爾茲曼機(jī)
        2.1.2 卷積神經(jīng)網(wǎng)絡(luò)
        2.1.3 遞歸神經(jīng)網(wǎng)絡(luò)
    2.2 多模深度學(xué)習(xí)介紹
    2.3 本章小結(jié)
第3章 基于多模關(guān)聯(lián)深度神經(jīng)網(wǎng)絡(luò)的人臉和語音特征融合算法
    3.1 引言
    3.2 人臉和語音的特征提取
        3.2.1 基于自定義卷積層的人臉特征提取
        3.2.2 語音特征MFCCs提取
    3.3 多樣化特征融合特征層融合算法
        3.3.1 特征層拼接融合
        3.3.2 特征層深度特征非線性拼接融合
        3.3.3 決策層特征相加融合
        3.3.4 決策層深度特征非線性相加融合
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 數(shù)據(jù)集:Friends
        3.4.2 實(shí)驗(yàn)設(shè)置
        3.4.3 人臉模型
        3.4.4 人臉語音多模型
    3.5 本章小結(jié)
第4章 基于注意力機(jī)制的人臉語音特征融合及說話人標(biāo)注算法
    4.1 引言
    4.2 說話人標(biāo)注相關(guān)工作
        4.2.1 基于單模型的說話人標(biāo)注方法
        4.2.2 基于多模型的說話人標(biāo)注方法
    4.3 說話人標(biāo)注模型
        4.3.1 問題與解決方法公式化
        4.3.2 基于VGG-face的人臉特征提取方法
        4.3.3 基于LSTM或卷積的語音特征提取方法
        4.3.4 共性語義顯著性特征方法
        4.3.5 基于低秩矩陣分解的雙線性融合方法
    4.4 實(shí)驗(yàn)與結(jié)果分析
        4.4.1 數(shù)據(jù)預(yù)處理
        4.4.2 評價(jià)標(biāo)準(zhǔn)
        4.4.3 語音編碼模塊性能與分析
        4.4.4 說話人標(biāo)注性能與分析
    4.5 本章小結(jié)
第5章 結(jié)束語
    5.1 本文工作總結(jié)
    5.2 本文工作展望
參考文獻(xiàn)
致謝
個(gè)人簡歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果



本文編號:4038983

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/wltx/4038983.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76431***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com