當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于Kinect輔助的機(jī)器人帶噪語(yǔ)音識(shí)別

發(fā)布時(shí)間：2018-02-10 00:29

本文關(guān)鍵詞： 仿人機(jī)器人自身噪聲自動(dòng)語(yǔ)音識(shí)別 Kinect 多模態(tài)系統(tǒng)　出處：《清華大學(xué)學(xué)報(bào)(自然科學(xué)版)》2017年09期 　論文類型：期刊論文

【摘要】：音視頻信息融合可以提升機(jī)器人在噪聲環(huán)境下的語(yǔ)音識(shí)別性能。然而受說(shuō)話者的頭部旋轉(zhuǎn)、唇部尺寸不一、距攝像頭距離不固定以及光照等因素影響,唇部信息不能得到有效的全面表征。該文提出融合機(jī)器人與Kinect的多模態(tài)系統(tǒng)。該系統(tǒng)采用Kinect獲取3-D數(shù)據(jù)和視覺(jué)信息,并使用3-D數(shù)據(jù)重構(gòu)側(cè)唇來(lái)補(bǔ)充音視頻信息。一系列基于特征融合和決策融合方法的結(jié)果表明:該文提出的多模態(tài)系統(tǒng)優(yōu)于基于音視頻單流和雙流的語(yǔ)音識(shí)別系統(tǒng),能夠輔助機(jī)器人在自身噪聲環(huán)境下的語(yǔ)音識(shí)別。
[Abstract]:Audio and video information fusion can improve the performance of robot speech recognition in noisy environment. However, it is affected by the speaker's head rotation, lip size, distance from camera and illumination, etc. This paper presents a multimodal system for fusion of robot and Kinect, which uses Kinect to obtain 3-D data and visual information. A series of methods based on feature fusion and decision fusion show that the proposed multi-modal system is superior to the speech recognition system based on audio and video single stream and double stream. It can assist the robot in speech recognition under its own noise environment.
【作者單位】：天津大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;天津大學(xué)軟件學(xué)院;
【基金】：國(guó)家自然科學(xué)基金資助項(xiàng)目(61471259,61233009) 天津市自然科學(xué)基金資助項(xiàng)目(16JCZDJC35400)
【分類號(hào)】：TN912.34;TP242

【相似文獻(xiàn)】

相關(guān)碩士學(xué)位論文前1條

1 陳嘉衍;基于Kinect的動(dòng)態(tài)虛擬聽(tīng)覺(jué)重放[D];華南理工大學(xué);2016年

，

本文編號(hào)：1499225

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1499225.html

上一篇：基于視覺(jué)的機(jī)器人室內(nèi)定位算法研究與嵌入式實(shí)現(xiàn)
下一篇：論大數(shù)據(jù)監(jiān)控的本質(zhì)及其社會(huì)后果

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Kinect輔助的機(jī)器人帶噪語(yǔ)音識(shí)別