當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法

發(fā)布時(shí)間：2021-01-21 04:51

　　虛擬實(shí)驗(yàn)系統(tǒng)利用虛擬現(xiàn)實(shí)技術(shù)和可視化技術(shù)通過(guò)對(duì)相關(guān)理論知識(shí)、操作場(chǎng)景的可視化表達(dá),避免了真實(shí)操作所帶來(lái)的危險(xiǎn);降低了實(shí)驗(yàn)成本;實(shí)現(xiàn)了實(shí)驗(yàn)過(guò)程的“無(wú)人值守”。人機(jī)交互是虛擬實(shí)驗(yàn)系統(tǒng)各項(xiàng)功能的基本保障,然而當(dāng)前的虛擬實(shí)驗(yàn)系統(tǒng)交互設(shè)計(jì)往往以仿真和功能為中心,系統(tǒng)不能感知用戶意圖也無(wú)法主動(dòng)協(xié)助和指導(dǎo)用戶完成交互任務(wù),忽視了人的交互體驗(yàn)。本文針對(duì)現(xiàn)有的兩種自然交互方式手勢(shì)交互和語(yǔ)音交互以及多態(tài)融合方法進(jìn)行深入研究,旨在為虛擬實(shí)驗(yàn)系統(tǒng)建立一種自然和諧的人機(jī)交互模式,提高虛擬實(shí)驗(yàn)系統(tǒng)協(xié)助人完成交互任務(wù)的能力,同時(shí)降低人在交互過(guò)程中的操作負(fù)荷和認(rèn)知負(fù)荷。本文的主要目標(biāo)是探究多模態(tài)融合交互的實(shí)現(xiàn)機(jī)理,通過(guò)構(gòu)建手勢(shì)與語(yǔ)音融合交互算法框架,實(shí)現(xiàn)對(duì)用戶意圖的推理,提高虛擬實(shí)驗(yàn)系統(tǒng)的智能性。并提出一種虛實(shí)融合的多模態(tài)智能顯微鏡,通過(guò)設(shè)計(jì)智能顯微鏡硬件結(jié)構(gòu)與傳感器,使智能顯微鏡能夠給予用戶真實(shí)的操作感,同時(shí)還可以感知用戶操作意圖,凸顯多模態(tài)自然交互的優(yōu)勢(shì)。論文的主要?jiǎng)?chuàng)新點(diǎn)為以下三個(gè)方面:（1）大多數(shù)的虛擬實(shí)驗(yàn)系統(tǒng)無(wú)法感知用戶的交互意圖,本文面向虛擬實(shí)驗(yàn),提出了對(duì)人的意圖進(jìn)行理解的多模態(tài)融合框架及其關(guān)鍵算法,為多模...

【文章來(lái)源】：濟(jì)南大學(xué)山東省

【文章頁(yè)數(shù)】：74 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

Kinect結(jié)構(gòu)

源數(shù)據(jù),圖像,手勢(shì),深度圖像

面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法12在數(shù)據(jù)獲取方面Kinect接口提供了6種數(shù)據(jù)源包括：彩色圖像(ColorFrameSource)、紅外圖像(InfraredFrameSource)、深度圖像(DepthFrameSource)、人體索引圖像(BodyIndexFrameSource)、人體骨架數(shù)據(jù)幀(BodyFrameSource)以及聲源數(shù)據(jù)。本文主要使用彩色圖像、深度圖像和人體骨架數(shù)據(jù)幀3中數(shù)據(jù)源，如圖2.2所示。圖2.2源數(shù)據(jù)圖像通過(guò)這3中數(shù)據(jù)源可以獲得如下信息：(1)每個(gè)像素為16-bit的深度圖像，該數(shù)據(jù)表示深度攝像頭到該物體的距離；(2)攝像頭視角范圍內(nèi)每個(gè)人的骨骼數(shù)據(jù)幀，數(shù)據(jù)幀是人體25個(gè)關(guān)節(jié)點(diǎn)集合，每個(gè)幀包含關(guān)節(jié)點(diǎn)3D位置和方向，Kinect最多能夠獲取6個(gè)人體的骨骼數(shù)據(jù)鄭由于本文只需要手勢(shì)圖像，因此可以通過(guò)Kinect直接獲取手掌關(guān)節(jié)點(diǎn)的位置信息作為手勢(shì)追蹤的中心用來(lái)分割手勢(shì)圖像。我們只保留與人手關(guān)節(jié)點(diǎn)在同一深度范圍內(nèi)的深度圖像信息，此時(shí)能夠得到除手勢(shì)區(qū)域外其他區(qū)域?yàn)楹谏膱D像，然后利用包圍盒算法[73]得到分割后的手勢(shì)深度圖像，如圖2.3所示。圖2.3分割后的手勢(shì)深度圖像2.1.1手勢(shì)圖像的采集現(xiàn)有的基于機(jī)器視覺(jué)的手勢(shì)數(shù)據(jù)庫(kù)大多都是基于Kinect所采集的[56]，然而并不能直接作為本文手勢(shì)識(shí)別的訓(xùn)練樣本，主要有以下兩個(gè)原因：一是采集樣本的多樣性不足，有的數(shù)據(jù)集只采集了一兩個(gè)人數(shù)據(jù)，雖然樣本數(shù)量足夠但多樣性不足，在實(shí)際的識(shí)別過(guò)程中識(shí)別效果并不好；二是沒(méi)有針對(duì)虛擬實(shí)驗(yàn)這一規(guī)定情境進(jìn)行數(shù)據(jù)采集，而且手勢(shì)的

深度圖像,手勢(shì),深度圖像

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2990491.html

上一篇：基于自適應(yīng)遺傳算法的LVS權(quán)值調(diào)度算法研究
下一篇：Combination method of conflict evidences based on evidence s

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向虛擬實(shí)驗(yàn)的手勢(shì)與語(yǔ)音融合算法