面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法
發(fā)布時(shí)間:2021-01-21 04:51
虛擬實(shí)驗(yàn)系統(tǒng)利用虛擬現(xiàn)實(shí)技術(shù)和可視化技術(shù)通過(guò)對(duì)相關(guān)理論知識(shí)、操作場(chǎng)景的可視化表達(dá),避免了真實(shí)操作所帶來(lái)的危險(xiǎn);降低了實(shí)驗(yàn)成本;實(shí)現(xiàn)了實(shí)驗(yàn)過(guò)程的“無(wú)人值守”。人機(jī)交互是虛擬實(shí)驗(yàn)系統(tǒng)各項(xiàng)功能的基本保障,然而當(dāng)前的虛擬實(shí)驗(yàn)系統(tǒng)交互設(shè)計(jì)往往以仿真和功能為中心,系統(tǒng)不能感知用戶意圖也無(wú)法主動(dòng)協(xié)助和指導(dǎo)用戶完成交互任務(wù),忽視了人的交互體驗(yàn)。本文針對(duì)現(xiàn)有的兩種自然交互方式手勢(shì)交互和語(yǔ)音交互以及多態(tài)融合方法進(jìn)行深入研究,旨在為虛擬實(shí)驗(yàn)系統(tǒng)建立一種自然和諧的人機(jī)交互模式,提高虛擬實(shí)驗(yàn)系統(tǒng)協(xié)助人完成交互任務(wù)的能力,同時(shí)降低人在交互過(guò)程中的操作負(fù)荷和認(rèn)知負(fù)荷。本文的主要目標(biāo)是探究多模態(tài)融合交互的實(shí)現(xiàn)機(jī)理,通過(guò)構(gòu)建手勢(shì)與語(yǔ)音融合交互算法框架,實(shí)現(xiàn)對(duì)用戶意圖的推理,提高虛擬實(shí)驗(yàn)系統(tǒng)的智能性。并提出一種虛實(shí)融合的多模態(tài)智能顯微鏡,通過(guò)設(shè)計(jì)智能顯微鏡硬件結(jié)構(gòu)與傳感器,使智能顯微鏡能夠給予用戶真實(shí)的操作感,同時(shí)還可以感知用戶操作意圖,凸顯多模態(tài)自然交互的優(yōu)勢(shì)。論文的主要?jiǎng)?chuàng)新點(diǎn)為以下三個(gè)方面:(1)大多數(shù)的虛擬實(shí)驗(yàn)系統(tǒng)無(wú)法感知用戶的交互意圖,本文面向虛擬實(shí)驗(yàn),提出了對(duì)人的意圖進(jìn)行理解的多模態(tài)融合框架及其關(guān)鍵算法,為多模...
【文章來(lái)源】:濟(jì)南大學(xué)山東省
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Kinect結(jié)構(gòu)
面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過(guò)這3中數(shù)據(jù)源可以獲得如下信息:(1)每個(gè)像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個(gè)人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個(gè)關(guān)節(jié)點(diǎn)集合,每個(gè)幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個(gè)人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢(shì)圖像,因此可以通過(guò)Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢(shì)追蹤的中心用來(lái)分割手勢(shì)圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時(shí)能夠得到除手勢(shì)區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢(shì)深度圖像,如圖2.3所示。圖2.3分割后的手勢(shì)深度圖像2.1.1手勢(shì)圖像的采集現(xiàn)有的基于機(jī)器視覺(jué)的手勢(shì)數(shù)據(jù)庫(kù)大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢(shì)識(shí)別的訓(xùn)練樣本,主要有以下兩個(gè)原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個(gè)人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識(shí)別過(guò)程中識(shí)別效果并不好;二是沒(méi)有針對(duì)虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢(shì)的
面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過(guò)這3中數(shù)據(jù)源可以獲得如下信息:(1)每個(gè)像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個(gè)人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個(gè)關(guān)節(jié)點(diǎn)集合,每個(gè)幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個(gè)人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢(shì)圖像,因此可以通過(guò)Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢(shì)追蹤的中心用來(lái)分割手勢(shì)圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時(shí)能夠得到除手勢(shì)區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢(shì)深度圖像,如圖2.3所示。圖2.3分割后的手勢(shì)深度圖像2.1.1手勢(shì)圖像的采集現(xiàn)有的基于機(jī)器視覺(jué)的手勢(shì)數(shù)據(jù)庫(kù)大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢(shì)識(shí)別的訓(xùn)練樣本,主要有以下兩個(gè)原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個(gè)人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識(shí)別過(guò)程中識(shí)別效果并不好;二是沒(méi)有針對(duì)虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢(shì)的
本文編號(hào):2990491
【文章來(lái)源】:濟(jì)南大學(xué)山東省
【文章頁(yè)數(shù)】:74 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Kinect結(jié)構(gòu)
面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過(guò)這3中數(shù)據(jù)源可以獲得如下信息:(1)每個(gè)像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個(gè)人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個(gè)關(guān)節(jié)點(diǎn)集合,每個(gè)幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個(gè)人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢(shì)圖像,因此可以通過(guò)Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢(shì)追蹤的中心用來(lái)分割手勢(shì)圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時(shí)能夠得到除手勢(shì)區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢(shì)深度圖像,如圖2.3所示。圖2.3分割后的手勢(shì)深度圖像2.1.1手勢(shì)圖像的采集現(xiàn)有的基于機(jī)器視覺(jué)的手勢(shì)數(shù)據(jù)庫(kù)大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢(shì)識(shí)別的訓(xùn)練樣本,主要有以下兩個(gè)原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個(gè)人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識(shí)別過(guò)程中識(shí)別效果并不好;二是沒(méi)有針對(duì)虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢(shì)的
面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括:彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源,如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過(guò)這3中數(shù)據(jù)源可以獲得如下信息:(1)每個(gè)像素為16-bit的深度圖像,該數(shù)據(jù)表示深度攝像頭到該物體的距離;(2)攝像頭視角范圍內(nèi)每個(gè)人的骨骼數(shù)據(jù)幀,數(shù)據(jù)幀是人體25個(gè)關(guān)節(jié)點(diǎn)集合,每個(gè)幀包含關(guān)節(jié)點(diǎn)3D位置和方向,Kinect最多能夠獲取6個(gè)人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢(shì)圖像,因此可以通過(guò)Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢(shì)追蹤的中心用來(lái)分割手勢(shì)圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息,此時(shí)能夠得到除手勢(shì)區(qū)域外其他區(qū)域?yàn)楹谏膱D像,然后利用包圍盒算法[73]得到分割后的手勢(shì)深度圖像,如圖2.3所示。圖2.3分割后的手勢(shì)深度圖像2.1.1手勢(shì)圖像的采集現(xiàn)有的基于機(jī)器視覺(jué)的手勢(shì)數(shù)據(jù)庫(kù)大多都是基于Kinect所采集的[56],然而并不能直接作為本文手勢(shì)識(shí)別的訓(xùn)練樣本,主要有以下兩個(gè)原因:一是采集樣本的多樣性不足,有的數(shù)據(jù)集只采集了一兩個(gè)人數(shù)據(jù),雖然樣本數(shù)量足夠但多樣性不足,在實(shí)際的識(shí)別過(guò)程中識(shí)別效果并不好;二是沒(méi)有針對(duì)虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集,而且手勢(shì)的
本文編號(hào):2990491
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2990491.html
最近更新
教材專著