基于語音與人臉參數(shù)化表示的跨模態(tài)稠密深度網(wǎng)絡學習方法
發(fā)布時間:2021-10-27 09:07
為了提高跨模態(tài)人臉表示與合成的性能,針對語音與人臉圖像2種模態(tài)數(shù)據(jù),提出一種基于人臉參數(shù)化表示與稠密深度網(wǎng)絡相結合的面部生成方法。針對輸入語音模態(tài),通過對信號進行頻譜變換,將一維時域信號轉換到二維頻率域,可提取頻域上穩(wěn)健的特征描述;針對輸出圖像模態(tài),利用主動外觀模型對不同面部區(qū)域獨立建模以降低區(qū)域間的相關性,并提取緊湊的人臉參數(shù)化特征;為了獲得有效的跨模態(tài)學習性能,提出采用稠密連接的深度卷積神經(jīng)網(wǎng)絡學習語音、圖像2種模態(tài)的回歸預測,并通過預測的人臉參數(shù)進行面部重構,所采用的深度網(wǎng)絡模型可以加強特征傳播與特征復用,有利于增強面部細節(jié)的合成。在2組音視頻數(shù)據(jù)集上驗證了提出方法的有效性。
【文章來源】:重慶郵電大學學報(自然科學版). 2020,32(05)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
模型框架圖
由于語音信號具有短時穩(wěn)定性,所以對語音信號進行采樣時,選取語音幀長為20~30 ms。同時,為了減少幀之間的變化,確保采樣時相鄰幀之間有重疊交叉區(qū)域,從而獲取到平穩(wěn)的語音信號。3)幀加窗。
2個數(shù)據(jù)集(2種不同語言)在訓練過程中的模型收斂效果如圖5。圖5中橫坐標表示模型學習的迭代次數(shù),縱坐標表示迭代過程中的損失函數(shù)值。紅色、藍色曲線分別表示SAVEE,CCTV數(shù)據(jù)集的跨模態(tài)學習收斂效果?梢钥闯,隨著迭代次數(shù)的增加,損失函數(shù)的值不斷遞減,大約迭代至250 000次時,損失值接近最小值。總體上,在2組音視頻同步的多模態(tài)數(shù)據(jù)上,本文采用的深度網(wǎng)絡均可以收斂至比較理想的狀態(tài)。2.3 與其它深度模型的對比
本文編號:3461292
【文章來源】:重慶郵電大學學報(自然科學版). 2020,32(05)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
模型框架圖
由于語音信號具有短時穩(wěn)定性,所以對語音信號進行采樣時,選取語音幀長為20~30 ms。同時,為了減少幀之間的變化,確保采樣時相鄰幀之間有重疊交叉區(qū)域,從而獲取到平穩(wěn)的語音信號。3)幀加窗。
2個數(shù)據(jù)集(2種不同語言)在訓練過程中的模型收斂效果如圖5。圖5中橫坐標表示模型學習的迭代次數(shù),縱坐標表示迭代過程中的損失函數(shù)值。紅色、藍色曲線分別表示SAVEE,CCTV數(shù)據(jù)集的跨模態(tài)學習收斂效果?梢钥闯,隨著迭代次數(shù)的增加,損失函數(shù)的值不斷遞減,大約迭代至250 000次時,損失值接近最小值。總體上,在2組音視頻同步的多模態(tài)數(shù)據(jù)上,本文采用的深度網(wǎng)絡均可以收斂至比較理想的狀態(tài)。2.3 與其它深度模型的對比
本文編號:3461292
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3461292.html
最近更新
教材專著