基于音視頻的跨模態(tài)說話人檢索和識(shí)別
發(fā)布時(shí)間:2021-05-21 03:45
基于音視頻的跨模態(tài)檢索和匹配是一項(xiàng)尋找人臉和語音之間對(duì)應(yīng)關(guān)系的任務(wù),大量認(rèn)知科學(xué)方面的研究已經(jīng)證實(shí)了人類擁有匹配同一人的面部信息和聲音的能力,這對(duì)于創(chuàng)建自然的人機(jī)交互系統(tǒng)以及其他多媒體應(yīng)用很有啟發(fā)意義。針對(duì)人臉語音等帶有身份信息的音視頻跨模態(tài)數(shù)據(jù),本文通過以下幾個(gè)方面進(jìn)行人臉語音跨模態(tài)檢索和匹配實(shí)驗(yàn)研究:(1)提出一種基于自編碼器結(jié)構(gòu)的的人臉語音跨模態(tài)說話人標(biāo)注方法,并引入聯(lián)合一致性原則,結(jié)合帶有標(biāo)簽信息的訓(xùn)練數(shù)據(jù),構(gòu)建音視頻跨模態(tài)檢索和匹配模型。在特征提取階段,利用基于卷積神經(jīng)網(wǎng)絡(luò)的方法提取人臉圖像特征,利用基于深度信念網(wǎng)絡(luò)的方法提取語音數(shù)據(jù)的特征,最終在自編碼器模型的輸出層接入softmax回歸損失,加入有監(jiān)督訓(xùn)練策略,并針對(duì)跨模態(tài)交叉信息擴(kuò)展為三種不同的模型結(jié)構(gòu)。(2)提出一種基于協(xié)同注意力機(jī)制的人臉語音跨模態(tài)匹配和檢索模型,為了更好的融合語音和人臉信息,在特征提取階段,利用VGG-16和Soundnet提取人臉和語音特征。該模型學(xué)習(xí)人臉圖像特征和語音特征之間的共同子空間嵌入,引入聯(lián)合自注意力機(jī)制強(qiáng)化原始特征的相關(guān)性,并采用三重正負(fù)樣本的訓(xùn)練方法,使共同子空間上的模態(tài)內(nèi)距離較小,...
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 課題背景及研究意義
1.2 人臉和語音特征提取
1.3 跨模態(tài)檢索與匹配
1.4 基于音視頻的跨模態(tài)說話人檢索與匹配
1.5 論文內(nèi)容與組織結(jié)構(gòu)
1.6 本章小結(jié)
第2章 跨模態(tài)說話人識(shí)別相關(guān)方法和數(shù)據(jù)集
2.1 深度信念網(wǎng)絡(luò)
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的概念
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.1 前饋網(wǎng)絡(luò)與循環(huán)網(wǎng)絡(luò)
2.3.2 時(shí)序反向傳播算法
2.3.3 長(zhǎng)短時(shí)記憶門
2.4 人臉語音跨模態(tài)檢索常用數(shù)據(jù)集
2.4.1 情景劇數(shù)據(jù)集
2.4.2 名人訪談數(shù)據(jù)集
2.5 本章小結(jié)
第3章 結(jié)合有監(jiān)督自編碼器的跨音視頻說話人標(biāo)注
3.1 人臉語音深度特征提取
3.1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉特征提取
3.1.2 基于深度信念網(wǎng)絡(luò)的語音特征提取
3.2 有監(jiān)督聯(lián)合一致性自編碼器模型
3.2.1 Super-Corr-NN模型
3.2.2 Super-Corr-AE模型
3.2.3 Super-Cross-AE模型
3.2.4 Super-Full-AE模型
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.3.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析
3.4 本章小結(jié)
第4章 結(jié)合協(xié)同注意力結(jié)構(gòu)的跨模態(tài)檢索模型
4.1 人臉語音特征提取
4.1.1 人臉圖像特征提取
4.1.2 語音特征提取
4.2 結(jié)合協(xié)同注意力結(jié)構(gòu)的跨模態(tài)檢索模型
4.2.1 協(xié)同注意力結(jié)構(gòu)
4.2.2 共同子空間映射
4.2.3 三元組正負(fù)樣本損失
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 靜態(tài)圖片數(shù)據(jù)集
4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.3.3 跨模態(tài)檢索任務(wù)實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
第5章 基于長(zhǎng)短時(shí)記憶門的動(dòng)態(tài)跨模態(tài)檢索匹配模型
5.1 人臉和語音序列特征提取
5.1.1 人臉序列關(guān)鍵點(diǎn)特征提取
5.1.2 語音序列特征提取
5.2 人臉語音跨模態(tài)檢索和匹配模型
5.2.1 結(jié)合長(zhǎng)短時(shí)記憶門結(jié)構(gòu)的編碼-解碼模型
5.2.2 隱藏層約束和損失函數(shù)
5.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析
5.3.1 動(dòng)態(tài)序列數(shù)據(jù)集
5.3.2 模型訓(xùn)練過程
5.3.3 跨模態(tài)任務(wù)性能分析
5.4 本章小結(jié)
第6章 結(jié)束語
6.1 本文工作總結(jié)
6.2 本文工作展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號(hào):3198984
【文章來源】:華僑大學(xué)福建省
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 課題背景及研究意義
1.2 人臉和語音特征提取
1.3 跨模態(tài)檢索與匹配
1.4 基于音視頻的跨模態(tài)說話人檢索與匹配
1.5 論文內(nèi)容與組織結(jié)構(gòu)
1.6 本章小結(jié)
第2章 跨模態(tài)說話人識(shí)別相關(guān)方法和數(shù)據(jù)集
2.1 深度信念網(wǎng)絡(luò)
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展
2.2.2 卷積神經(jīng)網(wǎng)絡(luò)的概念
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.1 前饋網(wǎng)絡(luò)與循環(huán)網(wǎng)絡(luò)
2.3.2 時(shí)序反向傳播算法
2.3.3 長(zhǎng)短時(shí)記憶門
2.4 人臉語音跨模態(tài)檢索常用數(shù)據(jù)集
2.4.1 情景劇數(shù)據(jù)集
2.4.2 名人訪談數(shù)據(jù)集
2.5 本章小結(jié)
第3章 結(jié)合有監(jiān)督自編碼器的跨音視頻說話人標(biāo)注
3.1 人臉語音深度特征提取
3.1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的人臉特征提取
3.1.2 基于深度信念網(wǎng)絡(luò)的語音特征提取
3.2 有監(jiān)督聯(lián)合一致性自編碼器模型
3.2.1 Super-Corr-NN模型
3.2.2 Super-Corr-AE模型
3.2.3 Super-Cross-AE模型
3.2.4 Super-Full-AE模型
3.3 實(shí)驗(yàn)結(jié)果與分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集
3.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
3.3.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析
3.4 本章小結(jié)
第4章 結(jié)合協(xié)同注意力結(jié)構(gòu)的跨模態(tài)檢索模型
4.1 人臉語音特征提取
4.1.1 人臉圖像特征提取
4.1.2 語音特征提取
4.2 結(jié)合協(xié)同注意力結(jié)構(gòu)的跨模態(tài)檢索模型
4.2.1 協(xié)同注意力結(jié)構(gòu)
4.2.2 共同子空間映射
4.2.3 三元組正負(fù)樣本損失
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 靜態(tài)圖片數(shù)據(jù)集
4.3.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.3.3 跨模態(tài)檢索任務(wù)實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
第5章 基于長(zhǎng)短時(shí)記憶門的動(dòng)態(tài)跨模態(tài)檢索匹配模型
5.1 人臉和語音序列特征提取
5.1.1 人臉序列關(guān)鍵點(diǎn)特征提取
5.1.2 語音序列特征提取
5.2 人臉語音跨模態(tài)檢索和匹配模型
5.2.1 結(jié)合長(zhǎng)短時(shí)記憶門結(jié)構(gòu)的編碼-解碼模型
5.2.2 隱藏層約束和損失函數(shù)
5.3 實(shí)驗(yàn)結(jié)果對(duì)比與分析
5.3.1 動(dòng)態(tài)序列數(shù)據(jù)集
5.3.2 模型訓(xùn)練過程
5.3.3 跨模態(tài)任務(wù)性能分析
5.4 本章小結(jié)
第6章 結(jié)束語
6.1 本文工作總結(jié)
6.2 本文工作展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果
本文編號(hào):3198984
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3198984.html
最近更新
教材專著