基于深度學(xué)習(xí)的唇讀識別研究

發(fā)布時間：2024-03-28 00:14

　　機(jī)器唇讀,是一種非常新穎,只使用視覺信息即可理解講話內(nèi)容的技術(shù)。唇讀識別是人工智能和計算機(jī)視覺領(lǐng)域重要的研究課題,借助唇部特征的辨識,可將其應(yīng)用在后天聾啞人士的語言功能重建、刑事偵查、身份認(rèn)證等領(lǐng)域。人工智能在現(xiàn)代社會的各個學(xué)科和領(lǐng)域中已經(jīng)得到了廣泛地應(yīng)用,在各個領(lǐng)域都取得了很好的效果。以深度學(xué)習(xí)為核心的人工智能技術(shù)克服了一般機(jī)器學(xué)習(xí)方法中人工提取特征的困難,實現(xiàn)了機(jī)器自主提取特征的過程。唇讀識別可以簡單分為詞語級和句子級兩大類,詞語級可以看做是判別式分類問題,而句子級可以看做是判別式序列到序列問題。目前,國內(nèi)外已有學(xué)者開始研究自然場景下的唇讀識別,并取得了一些成就,但研究的語言種類主要是英語。有關(guān)漢語的自然場景下的唇讀識別研究目前鮮有觸及。因此本文對唇讀識別技術(shù)充分調(diào)研后,重點落在了自然場景下漢語唇讀識別問題。本文的主要研究工作如下:1、對國內(nèi)外的唇讀識別技術(shù)進(jìn)行了深入的對比研究,尤其是基于深度學(xué)習(xí)的唇讀識別研究,初步確定了研究課題的整個工作流程。2、唇讀識別領(lǐng)域取得進(jìn)展的主要障礙之一是數(shù)據(jù)集的匱乏。目前英文唇讀數(shù)據(jù)集也并不充分,可用的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不足以訓(xùn)練可擴(kuò)展的模型。而漢語更是沒有...

【文章頁數(shù)】：86 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2-2用于形狀建模的68個地標(biāo)點實例

第2章唇讀視頻特征提取的方法9圖2-2用于形狀建模的68個地標(biāo)點實例形狀s由N個并置的地標(biāo)點坐標(biāo)(x,y)組成的2N維向量描述。1122,,,,],[,TNNyxyxxys(2-2)使用主成分分析（PCA）找到形狀變化的主要模式，即最大方差的方向。有效的形狀變化映射到該特征空間的....

圖3-1循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型（RNNLM）

方案，也可以使用神經(jīng)網(wǎng)絡(luò)預(yù)測概率。Ngram近似的一個問題是它限制了用于預(yù)測詞語的歷史。為了解決這個問題，Mikolov等[30]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型（RNNLM）。這種形式的模型的簡單說明如圖3-1所示。左側(cè)圖展示了使用的拓?fù)浣Y(jié)構(gòu)，包括用于生成歷史向量的....

圖4-1英文唇讀數(shù)

天津大學(xué)碩士學(xué)位論文36幀，幀率為25fps）。十二、LRS數(shù)據(jù)集Chung等[20]建立了LRS數(shù)據(jù)集。該數(shù)據(jù)集由BBC電視臺的數(shù)千個口語句子組成。每個句子最多長100個字符。訓(xùn)練、驗證和測試集根據(jù)播出日期進(jìn)行劃分。預(yù)訓(xùn)練集有96318個片段，訓(xùn)練集由45839個片段組成，驗證....

圖4-1英文唇讀數(shù)據(jù)集的樣例展示

天津大學(xué)碩士學(xué)位論文36幀，幀率為25fps）。十二、LRS數(shù)據(jù)集Chung等[20]建立了LRS數(shù)據(jù)集。該數(shù)據(jù)集由BBC電視臺的數(shù)千個口語句子組成。每個句子最多長100個字符。訓(xùn)練、驗證和測試集根據(jù)播出日期進(jìn)行劃分。預(yù)訓(xùn)練集有96318個片段，訓(xùn)練集由45839個片段組成，驗證....

本文編號：3940710

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3940710.html

上一篇：閉環(huán)傳感器控制回路噪聲抑制方法研究
下一篇：基于物聯(lián)網(wǎng)技術(shù)的智能水肥一體機(jī)控制系統(tǒng)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的唇讀識別研究