基于深度學(xué)習(xí)的唇讀識別研究
【文章頁數(shù)】:86 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2用于形狀建模的68個地標(biāo)點實例
第2章唇讀視頻特征提取的方法9圖2-2用于形狀建模的68個地標(biāo)點實例形狀s由N個并置的地標(biāo)點坐標(biāo)(x,y)組成的2N維向量描述。1122,,,,],[,TNNyxyxxys(2-2)使用主成分分析(PCA)找到形狀變化的主要模式,即最大方差的方向。有效的形狀變化映射到該特征空間的....
圖3-1循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)
方案,也可以使用神經(jīng)網(wǎng)絡(luò)預(yù)測概率。Ngram近似的一個問題是它限制了用于預(yù)測詞語的歷史。為了解決這個問題,Mikolov等[30]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型(RNNLM)。這種形式的模型的簡單說明如圖3-1所示。左側(cè)圖展示了使用的拓?fù)浣Y(jié)構(gòu),包括用于生成歷史向量的....
圖4-1英文唇讀數(shù)
天津大學(xué)碩士學(xué)位論文36幀,幀率為25fps)。十二、LRS數(shù)據(jù)集Chung等[20]建立了LRS數(shù)據(jù)集。該數(shù)據(jù)集由BBC電視臺的數(shù)千個口語句子組成。每個句子最多長100個字符。訓(xùn)練、驗證和測試集根據(jù)播出日期進(jìn)行劃分。預(yù)訓(xùn)練集有96318個片段,訓(xùn)練集由45839個片段組成,驗證....
圖4-1英文唇讀數(shù)據(jù)集的樣例展示
天津大學(xué)碩士學(xué)位論文36幀,幀率為25fps)。十二、LRS數(shù)據(jù)集Chung等[20]建立了LRS數(shù)據(jù)集。該數(shù)據(jù)集由BBC電視臺的數(shù)千個口語句子組成。每個句子最多長100個字符。訓(xùn)練、驗證和測試集根據(jù)播出日期進(jìn)行劃分。預(yù)訓(xùn)練集有96318個片段,訓(xùn)練集由45839個片段組成,驗證....
本文編號:3940710
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3940710.html