天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

基于語(yǔ)音與人臉參數(shù)化表示的跨模態(tài)稠密深度網(wǎng)絡(luò)學(xué)習(xí)方法

發(fā)布時(shí)間:2021-10-27 09:07
  為了提高跨模態(tài)人臉表示與合成的性能,針對(duì)語(yǔ)音與人臉圖像2種模態(tài)數(shù)據(jù),提出一種基于人臉參數(shù)化表示與稠密深度網(wǎng)絡(luò)相結(jié)合的面部生成方法。針對(duì)輸入語(yǔ)音模態(tài),通過(guò)對(duì)信號(hào)進(jìn)行頻譜變換,將一維時(shí)域信號(hào)轉(zhuǎn)換到二維頻率域,可提取頻域上穩(wěn)健的特征描述;針對(duì)輸出圖像模態(tài),利用主動(dòng)外觀模型對(duì)不同面部區(qū)域獨(dú)立建模以降低區(qū)域間的相關(guān)性,并提取緊湊的人臉參數(shù)化特征;為了獲得有效的跨模態(tài)學(xué)習(xí)性能,提出采用稠密連接的深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)音、圖像2種模態(tài)的回歸預(yù)測(cè),并通過(guò)預(yù)測(cè)的人臉參數(shù)進(jìn)行面部重構(gòu),所采用的深度網(wǎng)絡(luò)模型可以加強(qiáng)特征傳播與特征復(fù)用,有利于增強(qiáng)面部細(xì)節(jié)的合成。在2組音視頻數(shù)據(jù)集上驗(yàn)證了提出方法的有效性。 

【文章來(lái)源】:重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020,32(05)北大核心CSCD

【文章頁(yè)數(shù)】:7 頁(yè)

【部分圖文】:

基于語(yǔ)音與人臉參數(shù)化表示的跨模態(tài)稠密深度網(wǎng)絡(luò)學(xué)習(xí)方法


模型框架圖

語(yǔ)音,特征提取,信號(hào)


由于語(yǔ)音信號(hào)具有短時(shí)穩(wěn)定性,所以對(duì)語(yǔ)音信號(hào)進(jìn)行采樣時(shí),選取語(yǔ)音幀長(zhǎng)為20~30 ms。同時(shí),為了減少幀之間的變化,確保采樣時(shí)相鄰幀之間有重疊交叉區(qū)域,從而獲取到平穩(wěn)的語(yǔ)音信號(hào)。3)幀加窗。

過(guò)程圖,模態(tài),語(yǔ)音,圖像


2個(gè)數(shù)據(jù)集(2種不同語(yǔ)言)在訓(xùn)練過(guò)程中的模型收斂效果如圖5。圖5中橫坐標(biāo)表示模型學(xué)習(xí)的迭代次數(shù),縱坐標(biāo)表示迭代過(guò)程中的損失函數(shù)值。紅色、藍(lán)色曲線分別表示SAVEE,CCTV數(shù)據(jù)集的跨模態(tài)學(xué)習(xí)收斂效果?梢钥闯,隨著迭代次數(shù)的增加,損失函數(shù)的值不斷遞減,大約迭代至250 000次時(shí),損失值接近最小值?傮w上,在2組音視頻同步的多模態(tài)數(shù)據(jù)上,本文采用的深度網(wǎng)絡(luò)均可以收斂至比較理想的狀態(tài)。2.3 與其它深度模型的對(duì)比


本文編號(hào):3461292

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3461292.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e706b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com