天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

多粒度唇語識(shí)別技術(shù)研究

發(fā)布時(shí)間:2021-08-10 17:14
  唇語識(shí)別是指利用計(jì)算機(jī)視覺技術(shù)根據(jù)說話人講話過程中唇部變化識(shí)別出說話內(nèi)容的技術(shù)。要實(shí)現(xiàn)準(zhǔn)確的唇語識(shí)別,需要克服許多挑戰(zhàn),包括說話過程中說話人姿態(tài)的變化、所說內(nèi)容的多樣性、以及說話時(shí)的光照條件等。針對(duì)這些挑戰(zhàn),本文以多粒度信息融合的唇語識(shí)別方法為核心展開研究。具體來說,一方面,許多詞發(fā)音近似,導(dǎo)致說話過程中這些詞對(duì)應(yīng)的唇部變化較難區(qū)分。對(duì)此,本文針對(duì)各個(gè)時(shí)刻進(jìn)行特征提取與增強(qiáng),形成側(cè)重表現(xiàn)各個(gè)時(shí)刻的局部空域變化的細(xì)粒度模式,增強(qiáng)不同詞之間的差異性;另一方面,雖然不同人的說話習(xí)慣、姿態(tài)變化等可能各不相同,但同樣的語音內(nèi)容通常會(huì)引起具有一致性規(guī)律的面部變化。為此,本文提取各個(gè)近鄰時(shí)空域內(nèi)的顯著性運(yùn)動(dòng)模式,構(gòu)建視覺表達(dá)的中粒度模式,捕捉各個(gè)單詞對(duì)應(yīng)的面部變化規(guī)律;最后,本文通過引入前后時(shí)刻的關(guān)聯(lián)性,提取從整個(gè)序列層面考慮的全局模式,形成能魯棒應(yīng)對(duì)不同說話習(xí)慣、視頻中不同光照條件等非一致性的表達(dá)。本文主要完成了以下工作:1)協(xié)助構(gòu)建了一個(gè)大規(guī)模普通話單詞唇語數(shù)據(jù)集LRW-1000?紤]到深度學(xué)習(xí)算法離不開大規(guī)模的數(shù)據(jù),本文標(biāo)注了一個(gè)單詞級(jí)的普通話唇語數(shù)據(jù)集LRW-1000,為本文的方法實(shí)驗(yàn)奠定了... 

【文章來源】:中國科學(xué)院大學(xué)(中國科學(xué)院大學(xué)人工智能學(xué)院)北京市

【文章頁數(shù)】:61 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

多粒度唇語識(shí)別技術(shù)研究


圖1.1唇語識(shí)別的相關(guān)應(yīng)用示例??Figure?1.1?Application?examples?for?lip-reading??

模型圖,卷積,模型,方法


?產(chǎn)生整個(gè)序列的最終表示。該方法在當(dāng)前具有挑戰(zhàn)性的數(shù)據(jù)集LRW上取得了優(yōu)??異的結(jié)果,證明了這種多塔式結(jié)構(gòu)的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??圖1.2基于全2D卷積模型的唇語識(shí)別方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??圖1.3基于全3D卷積模型的唇語識(shí)別方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷積網(wǎng)絡(luò)的模型。在唇語識(shí)別中廣泛使用3D卷積層的一個(gè)??直接原因是源于3D卷積神經(jīng)網(wǎng)絡(luò)在動(dòng)作識(shí)別p31中的成功。以全3D網(wǎng)絡(luò)為前端??的一個(gè)代表性工作是LipNet[r。矗菽P。如圖1.3所示,它的前端網(wǎng)絡(luò)包含了三個(gè)??3D卷積層,這些層將輸入的原始視頻轉(zhuǎn)換為短時(shí)時(shí)空特征,隨后輸入后續(xù)的門??控循環(huán)單兀與Connectionist?Temporal?Classification?(CTC)損失函數(shù),得到最終??的預(yù)測結(jié)果,

模型圖,卷積,模型,方法


?產(chǎn)生整個(gè)序列的最終表示。該方法在當(dāng)前具有挑戰(zhàn)性的數(shù)據(jù)集LRW上取得了優(yōu)??異的結(jié)果,證明了這種多塔式結(jié)構(gòu)的有效性。??softmax??conv3?-?fcB??P〇〇I2?3k3??conv2?3x3?256??convld?1x1?98??concat?fWxHx?1200J??pooH?3x3?pooH?3x3?poo!?1?3x3??convl?3x3?48?…conv1?3x3?48?…convl?3x3?48??S?...?1?...?■??MT??圖1.2基于全2D卷積模型的唇語識(shí)別方法[22]??Figure?1.2?Lip-reading?method?based?on?full?2D?convolution?model??t?frames?STC-NN?4-?Spatial?Pooling?Bi-OEU?Linear?CTC?\<ms??(x3)?(x2)??圖1.3基于全3D卷積模型的唇語識(shí)別方法[24]??Figure?1.3?Lip-reading?method?based?on?full?3D?convolution?model??(2)基于全3D卷積網(wǎng)絡(luò)的模型。在唇語識(shí)別中廣泛使用3D卷積層的一個(gè)??直接原因是源于3D卷積神經(jīng)網(wǎng)絡(luò)在動(dòng)作識(shí)別p31中的成功。以全3D網(wǎng)絡(luò)為前端??的一個(gè)代表性工作是LipNet[r。矗菽P汀H鐖D1.3所示,它的前端網(wǎng)絡(luò)包含了三個(gè)??3D卷積層,這些層將輸入的原始視頻轉(zhuǎn)換為短時(shí)時(shí)空特征,隨后輸入后續(xù)的門??控循環(huán)單兀與Connectionist?Temporal?Classification?(CTC)損失函數(shù),得到最終??的預(yù)測結(jié)果,

【參考文獻(xiàn)】:
期刊論文
[1]高安全性人臉識(shí)別系統(tǒng)中的唇語識(shí)別算法研究[J]. 任玉強(qiáng),田國棟,周祥東,呂江靖,周曦.  計(jì)算機(jī)應(yīng)用研究. 2017(04)
[2]身份認(rèn)證中灰度共生矩陣和小波分析的活體人臉檢測算法[J]. 曹瑜,涂玲,毋立芳.  信號(hào)處理. 2014(07)



本文編號(hào):3334463

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3334463.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c4284***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com