基于Kinect輔助的機(jī)器人帶噪語(yǔ)音識(shí)別
發(fā)布時(shí)間:2018-02-10 00:29
本文關(guān)鍵詞: 仿人機(jī)器人 自身噪聲 自動(dòng)語(yǔ)音識(shí)別 Kinect 多模態(tài)系統(tǒng) 出處:《清華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2017年09期 論文類型:期刊論文
【摘要】:音視頻信息融合可以提升機(jī)器人在噪聲環(huán)境下的語(yǔ)音識(shí)別性能。然而受說(shuō)話者的頭部旋轉(zhuǎn)、唇部尺寸不一、距攝像頭距離不固定以及光照等因素影響,唇部信息不能得到有效的全面表征。該文提出融合機(jī)器人與Kinect的多模態(tài)系統(tǒng)。該系統(tǒng)采用Kinect獲取3-D數(shù)據(jù)和視覺(jué)信息,并使用3-D數(shù)據(jù)重構(gòu)側(cè)唇來(lái)補(bǔ)充音視頻信息。一系列基于特征融合和決策融合方法的結(jié)果表明:該文提出的多模態(tài)系統(tǒng)優(yōu)于基于音視頻單流和雙流的語(yǔ)音識(shí)別系統(tǒng),能夠輔助機(jī)器人在自身噪聲環(huán)境下的語(yǔ)音識(shí)別。
[Abstract]:Audio and video information fusion can improve the performance of robot speech recognition in noisy environment. However, it is affected by the speaker's head rotation, lip size, distance from camera and illumination, etc. This paper presents a multimodal system for fusion of robot and Kinect, which uses Kinect to obtain 3-D data and visual information. A series of methods based on feature fusion and decision fusion show that the proposed multi-modal system is superior to the speech recognition system based on audio and video single stream and double stream. It can assist the robot in speech recognition under its own noise environment.
【作者單位】: 天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;天津大學(xué)軟件學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61471259,61233009) 天津市自然科學(xué)基金資助項(xiàng)目(16JCZDJC35400)
【分類號(hào)】:TN912.34;TP242
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 陳嘉衍;基于Kinect的動(dòng)態(tài)虛擬聽(tīng)覺(jué)重放[D];華南理工大學(xué);2016年
,本文編號(hào):1499225
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1499225.html
最近更新
教材專著