融合生理信息的多模態(tài)唇讀技術(shù)研究
發(fā)布時(shí)間:2021-01-23 21:22
作為人與計(jì)算機(jī)或者其他設(shè)備溝通的橋梁,人機(jī)交互技術(shù)在“智能化”科技和需求的雙輪驅(qū)動(dòng)下,經(jīng)歷了單純從鼠標(biāo)、鍵盤(pán)的接觸式交互到多模態(tài)信息非接觸式交互的重大變革。作為重要的非接觸式交互方式,唇讀技術(shù)不僅突破了應(yīng)用場(chǎng)景的限制,在噪聲環(huán)境下輔助語(yǔ)音識(shí)別,且隨著三維空間體感傳感器的出現(xiàn),唇讀技術(shù)有了更廣闊的發(fā)展前景。對(duì)唇部運(yùn)動(dòng)信息的全面提取和有效表征直接關(guān)系著語(yǔ)義信息的準(zhǔn)確表達(dá),唇動(dòng)特征提取的完備性和代表性直接影響著語(yǔ)義內(nèi)容的識(shí)別以及語(yǔ)義情感的判斷。對(duì)于唇動(dòng)特征提取,當(dāng)前所存在的共同的難點(diǎn)在于:對(duì)于人們說(shuō)話(huà)方式的巨大差異,所采用的特征提取方法無(wú)法作為一種通用的方法來(lái)全面有效地表征唇動(dòng)信息。為此,本論文旨在研究融合面部肌肉生理信息的多模態(tài)唇動(dòng)識(shí)別,研究?jī)?nèi)容主要包括基于Kinect的多模態(tài)數(shù)據(jù)采集、預(yù)處理、面部肌肉模型建立、肌肉模型映射、特征提取和基于DenseNet的訓(xùn)練識(shí)別。首先,基于Kinect V2.0,采集了話(huà)者唇動(dòng)過(guò)程中的多模態(tài)信息,包括音頻、彩色圖像和深度數(shù)據(jù)。數(shù)據(jù)采集完成后,進(jìn)行了一系列的數(shù)據(jù)預(yù)處理操作。對(duì)圖像數(shù)據(jù),分別進(jìn)行了人臉檢測(cè)、唇部定位和數(shù)據(jù)擴(kuò)張。對(duì)深度數(shù)據(jù),糾正了話(huà)者錄制過(guò)程...
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)錄制環(huán)境圖
天津大學(xué)碩士學(xué)位論文12圖2-3音頻標(biāo)注可視化2.2.2圖像數(shù)據(jù)通過(guò)Kinect捕捉的彩色圖像分辨率為1920×1080,幀率為30fps。在進(jìn)行特征提取之前,需要先確定ROI,即對(duì)唇區(qū)進(jìn)行定位。唇區(qū)定位是將包含唇部區(qū)域的圖像以矩形框圈出來(lái),以此來(lái)去除圖像中的冗余信息。唇區(qū)定位是唇讀系統(tǒng)中一個(gè)不可或缺的環(huán)節(jié),定位是否準(zhǔn)確將直接關(guān)系著后續(xù)特征提取的代表性進(jìn)而影響實(shí)驗(yàn)最終的準(zhǔn)確性。直接從復(fù)雜背景中抽娶分割出唇部區(qū)域難度較大,因此本論文首先對(duì)圖像進(jìn)行人臉檢測(cè),然后從人臉?lè)秶鷥?nèi)定位唇部區(qū)域。人臉檢測(cè)是指對(duì)動(dòng)態(tài)或靜止的圖像進(jìn)行檢測(cè),然后將圖像分成兩部分。人臉區(qū)域和非人臉區(qū)域。本文基于OpenCV視覺(jué)庫(kù)(OpenSourceComputerVisionLibrary)的級(jí)聯(lián)分類(lèi)器對(duì)圖像中的人臉進(jìn)行檢測(cè)。具體的流程包括四個(gè)步驟:1)加載待檢測(cè)圖像:首先利用opencv.imread()函數(shù)加載待檢測(cè)圖像,并判斷待檢測(cè)的圖像格式是否符合要求,防止錯(cuò)誤的文件格式引起程序崩潰。2)圖像預(yù)處理:利用OpenCV視覺(jué)庫(kù)中的顏色空間轉(zhuǎn)換函數(shù),對(duì)符合格式要求的待檢測(cè)圖像進(jìn)行灰度化處理和直方圖均衡化,使圖像中可能存在的人臉特征突出。3)加載本地訓(xùn)練好的分類(lèi)器:利用CascadeClassifier()函數(shù)加載本地分類(lèi)器haarcascade_frontalface_alt.xml。4)檢測(cè)人臉區(qū)域:利用detectMultiScale()函數(shù),確定圖像中的haar特征,并利用分類(lèi)器對(duì)待檢測(cè)圖像進(jìn)行快速高效的人臉定位。5)根據(jù)檢測(cè)結(jié)果輸出人臉區(qū)域:如果待檢測(cè)圖像中包含人臉區(qū)域,detectMultiScale()函數(shù)將會(huì)返回包含人臉區(qū)域矩形框的坐標(biāo),根據(jù)該坐標(biāo)對(duì)稱(chēng)向外擴(kuò)展,可以得到包含整個(gè)頭部區(qū)域的圖像信息。通過(guò)OpenCV確定彩色圖像中的人臉區(qū)域后,利用Dlib官方訓(xùn)練好的模型
天津大學(xué)碩士學(xué)位論文24k代表某個(gè)孤立詞樣本的第k幀,一個(gè)音節(jié)發(fā)音過(guò)程中的N幀圖像的形狀特征構(gòu)成了該音節(jié)的形狀特征:11111[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-2)由于不同話(huà)者的唇部形狀和發(fā)音方法不同,表現(xiàn)為發(fā)相同音節(jié)時(shí)不同話(huà)者唇形有較大差異。因此,單純利用唇部寬度、高度、形狀受話(huà)者個(gè)體差異影響較大,為了更準(zhǔn)確的表達(dá)不同話(huà)者說(shuō)話(huà)方式的相似性,論文引入如下比例特征,2411222133121,,,,,shapekhhhhhwFhhhwww(4-3)比例特征中,各項(xiàng)依次表示上唇內(nèi)側(cè)高度與外側(cè)高度的比例、下唇內(nèi)側(cè)高度與外側(cè)高度的比例、上唇外側(cè)與下唇外側(cè)的比例、上唇外側(cè)與外側(cè)輪廓半寬度的比例、上唇內(nèi)側(cè)高度與內(nèi)側(cè)輪廓半寬度的比例、以及內(nèi)外側(cè)輪廓半寬度的比例。通過(guò)比例特征,準(zhǔn)確的刻畫(huà)了當(dāng)前唇形所處狀態(tài),并且減弱了不同話(huà)者唇部生理差異對(duì)實(shí)驗(yàn)的影響。最終的形狀特征為:22122[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-4)4.1.2角度特征Yargic等人[24]以15個(gè)表示顏色的土耳其詞作為語(yǔ)料,用Kinect錄制了10個(gè)話(huà)者面部的121個(gè)面部深度特征點(diǎn),其中唇部特征點(diǎn)有18個(gè)。基于18個(gè)面部特征點(diǎn),Yargic等人提取了29個(gè)角度特征。分別利用基于曼哈頓距離和歐幾里得距離的K最近鄰算法,對(duì)每個(gè)角度特征進(jìn)行了評(píng)估,最后確定了識(shí)別效果最好的四個(gè)角度,如圖4-2所示。圖4-2四個(gè)最好的唇部角度特征[24]
【參考文獻(xiàn)】:
期刊論文
[1]基于DT-CWT和PCA的唇部特征提取方法[J]. 梁亞玲,杜明輝. 電視技術(shù). 2011(03)
博士論文
[1]基于Kinect的主動(dòng)外觀(guān)模型及在表情動(dòng)畫(huà)上的應(yīng)用[D]. 王慶祥.山東大學(xué) 2014
碩士論文
[1]視頻唇部視覺(jué)特征提取與跟蹤技術(shù)研究[D]. 耿松.北方工業(yè)大學(xué) 2016
[2]基于Kinect的自然人機(jī)交互系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馬風(fēng)力.浙江大學(xué) 2016
[3]基于多元統(tǒng)計(jì)的口型特征提取[D]. 李倩玉.華北電力大學(xué) 2013
本文編號(hào):2995947
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)錄制環(huán)境圖
天津大學(xué)碩士學(xué)位論文12圖2-3音頻標(biāo)注可視化2.2.2圖像數(shù)據(jù)通過(guò)Kinect捕捉的彩色圖像分辨率為1920×1080,幀率為30fps。在進(jìn)行特征提取之前,需要先確定ROI,即對(duì)唇區(qū)進(jìn)行定位。唇區(qū)定位是將包含唇部區(qū)域的圖像以矩形框圈出來(lái),以此來(lái)去除圖像中的冗余信息。唇區(qū)定位是唇讀系統(tǒng)中一個(gè)不可或缺的環(huán)節(jié),定位是否準(zhǔn)確將直接關(guān)系著后續(xù)特征提取的代表性進(jìn)而影響實(shí)驗(yàn)最終的準(zhǔn)確性。直接從復(fù)雜背景中抽娶分割出唇部區(qū)域難度較大,因此本論文首先對(duì)圖像進(jìn)行人臉檢測(cè),然后從人臉?lè)秶鷥?nèi)定位唇部區(qū)域。人臉檢測(cè)是指對(duì)動(dòng)態(tài)或靜止的圖像進(jìn)行檢測(cè),然后將圖像分成兩部分。人臉區(qū)域和非人臉區(qū)域。本文基于OpenCV視覺(jué)庫(kù)(OpenSourceComputerVisionLibrary)的級(jí)聯(lián)分類(lèi)器對(duì)圖像中的人臉進(jìn)行檢測(cè)。具體的流程包括四個(gè)步驟:1)加載待檢測(cè)圖像:首先利用opencv.imread()函數(shù)加載待檢測(cè)圖像,并判斷待檢測(cè)的圖像格式是否符合要求,防止錯(cuò)誤的文件格式引起程序崩潰。2)圖像預(yù)處理:利用OpenCV視覺(jué)庫(kù)中的顏色空間轉(zhuǎn)換函數(shù),對(duì)符合格式要求的待檢測(cè)圖像進(jìn)行灰度化處理和直方圖均衡化,使圖像中可能存在的人臉特征突出。3)加載本地訓(xùn)練好的分類(lèi)器:利用CascadeClassifier()函數(shù)加載本地分類(lèi)器haarcascade_frontalface_alt.xml。4)檢測(cè)人臉區(qū)域:利用detectMultiScale()函數(shù),確定圖像中的haar特征,并利用分類(lèi)器對(duì)待檢測(cè)圖像進(jìn)行快速高效的人臉定位。5)根據(jù)檢測(cè)結(jié)果輸出人臉區(qū)域:如果待檢測(cè)圖像中包含人臉區(qū)域,detectMultiScale()函數(shù)將會(huì)返回包含人臉區(qū)域矩形框的坐標(biāo),根據(jù)該坐標(biāo)對(duì)稱(chēng)向外擴(kuò)展,可以得到包含整個(gè)頭部區(qū)域的圖像信息。通過(guò)OpenCV確定彩色圖像中的人臉區(qū)域后,利用Dlib官方訓(xùn)練好的模型
天津大學(xué)碩士學(xué)位論文24k代表某個(gè)孤立詞樣本的第k幀,一個(gè)音節(jié)發(fā)音過(guò)程中的N幀圖像的形狀特征構(gòu)成了該音節(jié)的形狀特征:11111[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-2)由于不同話(huà)者的唇部形狀和發(fā)音方法不同,表現(xiàn)為發(fā)相同音節(jié)時(shí)不同話(huà)者唇形有較大差異。因此,單純利用唇部寬度、高度、形狀受話(huà)者個(gè)體差異影響較大,為了更準(zhǔn)確的表達(dá)不同話(huà)者說(shuō)話(huà)方式的相似性,論文引入如下比例特征,2411222133121,,,,,shapekhhhhhwFhhhwww(4-3)比例特征中,各項(xiàng)依次表示上唇內(nèi)側(cè)高度與外側(cè)高度的比例、下唇內(nèi)側(cè)高度與外側(cè)高度的比例、上唇外側(cè)與下唇外側(cè)的比例、上唇外側(cè)與外側(cè)輪廓半寬度的比例、上唇內(nèi)側(cè)高度與內(nèi)側(cè)輪廓半寬度的比例、以及內(nèi)外側(cè)輪廓半寬度的比例。通過(guò)比例特征,準(zhǔn)確的刻畫(huà)了當(dāng)前唇形所處狀態(tài),并且減弱了不同話(huà)者唇部生理差異對(duì)實(shí)驗(yàn)的影響。最終的形狀特征為:22122[,,,,]TTTTshapeshapeshapekshapeNFFFF(4-4)4.1.2角度特征Yargic等人[24]以15個(gè)表示顏色的土耳其詞作為語(yǔ)料,用Kinect錄制了10個(gè)話(huà)者面部的121個(gè)面部深度特征點(diǎn),其中唇部特征點(diǎn)有18個(gè)。基于18個(gè)面部特征點(diǎn),Yargic等人提取了29個(gè)角度特征。分別利用基于曼哈頓距離和歐幾里得距離的K最近鄰算法,對(duì)每個(gè)角度特征進(jìn)行了評(píng)估,最后確定了識(shí)別效果最好的四個(gè)角度,如圖4-2所示。圖4-2四個(gè)最好的唇部角度特征[24]
【參考文獻(xiàn)】:
期刊論文
[1]基于DT-CWT和PCA的唇部特征提取方法[J]. 梁亞玲,杜明輝. 電視技術(shù). 2011(03)
博士論文
[1]基于Kinect的主動(dòng)外觀(guān)模型及在表情動(dòng)畫(huà)上的應(yīng)用[D]. 王慶祥.山東大學(xué) 2014
碩士論文
[1]視頻唇部視覺(jué)特征提取與跟蹤技術(shù)研究[D]. 耿松.北方工業(yè)大學(xué) 2016
[2]基于Kinect的自然人機(jī)交互系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 馬風(fēng)力.浙江大學(xué) 2016
[3]基于多元統(tǒng)計(jì)的口型特征提取[D]. 李倩玉.華北電力大學(xué) 2013
本文編號(hào):2995947
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2995947.html
最近更新
教材專(zhuān)著