天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理

發(fā)布時間:2017-05-27 23:11

  本文關(guān)鍵詞:面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理,由筆耕文化傳播整理發(fā)布。


【摘要】:賦予智能系統(tǒng)以強(qiáng)大的學(xué)習(xí)能力以及豐富的人機(jī)交互功能是智能系統(tǒng)在動態(tài)不確定環(huán)境中完成復(fù)雜任務(wù)的必由之路。在實際的交互過程中,要想完成智能體與人類用戶的自然有效的交互,又需要對人類的意圖進(jìn)行正確的推斷和識別。如何建立一個融合強(qiáng)化學(xué)習(xí)和用戶意圖推理的學(xué)習(xí)體系來實現(xiàn)智能系統(tǒng)的高級交互智能,進(jìn)而應(yīng)用于復(fù)雜的人機(jī)交互任務(wù),具有重要的學(xué)術(shù)價值和實際意義。本文以智能機(jī)器人在實際的動態(tài)復(fù)雜環(huán)境中完成人機(jī)交互任務(wù)為背景,針對交互任務(wù)中如何對人的意圖進(jìn)行有效的識別,進(jìn)而用以提升強(qiáng)化學(xué)習(xí)算法的適應(yīng)能力和收斂速度,從強(qiáng)化學(xué)習(xí)和意圖推理兩個方面進(jìn)行了相關(guān)研究,設(shè)計并提出了面向人機(jī)交互的強(qiáng)化學(xué)習(xí)和意圖推理算法,并通過人機(jī)交互實驗驗證了算法的有效性。本文的工作主要包括:1)設(shè)計了基于粒子濾波和強(qiáng)化學(xué)習(xí)的目標(biāo)跟蹤控制框架,以在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行跟蹤針對現(xiàn)有的機(jī)器人跟隨控制算法不能適應(yīng)動態(tài)變化環(huán)境的特點,設(shè)計提出了一種基于視覺傳感的機(jī)器人跟蹤控制框架,將粒子濾波算法與強(qiáng)化學(xué)習(xí)算法相結(jié)合,使得之能夠完成在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行有效跟蹤的任務(wù)。2)提出了基于灰色預(yù)測的意圖推理算法,實現(xiàn)對人行走意圖的預(yù)測,以提升跟蹤算法對人運動變化的適應(yīng)能力由于現(xiàn)有的跟蹤控制算法沒有考慮人的行走規(guī)律,因而使機(jī)器人在完成跟隨任務(wù)時存在一定的遲滯,且難以適應(yīng)人在行走方向和速度上的變化。本文提出了一種基于灰色預(yù)測新陳代謝GM(1,1)模型的用戶意圖推理算法,對人的行走意圖進(jìn)行建模,并用以對機(jī)器人的控制量進(jìn)行修正,從而提升了機(jī)器人跟隨的適應(yīng)能力。3)設(shè)計了基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,以實現(xiàn)對人指導(dǎo)信息的充分有效利用,加速強(qiáng)化學(xué)習(xí)算法的收斂為了使機(jī)器人充分利用人交互過程中人給出的指導(dǎo)信息,在任務(wù)空間中進(jìn)行更有效的搜索,本文提出了一種基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,從盡可能少的指導(dǎo)信息中挖掘出盡可能多的有效信息,加快了算法的收斂速度,減少了人的參與度和工作量。4)提出了一種基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法,在人出現(xiàn)偶然錯誤的情況下對其真實意圖進(jìn)行有效識別,避免了對學(xué)習(xí)過程的誤導(dǎo)在人機(jī)交互的過程中由于各種原因?qū)е氯私o出的信息會有一定概率出錯。在此基礎(chǔ)上,本文提出了兩種意圖建模算法,即人的獎懲意圖建模和指導(dǎo)意圖建模,并將其與基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法相結(jié)合,設(shè)計了基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法。對比實驗證明了該算法能夠在人偶然出錯的情況下,仍然能夠?qū)θ说恼鎸嵰鈭D進(jìn)行有效的識別,從而避免了對學(xué)習(xí)任務(wù)的干擾和誤導(dǎo),使機(jī)器人仍能快速地完成學(xué)習(xí)任務(wù)。
【關(guān)鍵詞】:人機(jī)交互 強(qiáng)化學(xué)習(xí) 意圖推理 灰色預(yù)測 獎懲信息 指導(dǎo)信息 仿人機(jī)器人
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP18
【目錄】:
  • 摘要3-5
  • ABSTRACT5-10
  • 第一章 緒論10-19
  • 1.1 課題背景及研究意義10-11
  • 1.2 人機(jī)交互技術(shù)發(fā)展及應(yīng)用11-14
  • 1.3 強(qiáng)化學(xué)習(xí)14-15
  • 1.3.1 強(qiáng)化學(xué)習(xí)簡述14
  • 1.3.2 存在的問題及解決途徑14-15
  • 1.4 意圖推理15-16
  • 1.4.1 意圖推理概述15-16
  • 1.4.2 研究現(xiàn)狀總結(jié)16
  • 1.5 意圖推理與強(qiáng)化學(xué)習(xí)的融合16-17
  • 1.6 本文主要內(nèi)容和章節(jié)安排17-19
  • 第二章 強(qiáng)化學(xué)習(xí)理論及算法19-28
  • 2.1 引言19
  • 2.2 強(qiáng)化學(xué)習(xí)模型與主要組成要素19-22
  • 2.2.1 強(qiáng)化學(xué)習(xí)基本模型19-20
  • 2.2.2 強(qiáng)化學(xué)習(xí)主要組成元素20-22
  • 2.3 馬爾可夫決策模型(MDP)22-23
  • 2.4 強(qiáng)化學(xué)習(xí)基本算法23-26
  • 2.4.1 瞬時差分算法(TD)24-25
  • 2.4.2 Q學(xué)習(xí)算法(Q-learning)25-26
  • 2.5 人機(jī)交互應(yīng)用中的關(guān)鍵問題26-27
  • 2.5.1 泛化問題26-27
  • 2.5.2 收斂速度27
  • 2.5.3 強(qiáng)化函數(shù)與算法結(jié)構(gòu)設(shè)計27
  • 2.6 本章小結(jié)27-28
  • 第三章 基于強(qiáng)化學(xué)習(xí)和意圖推理的目標(biāo)跟蹤28-46
  • 3.1 引言28-30
  • 3.2 系統(tǒng)控制框架與基礎(chǔ)理論30-35
  • 3.2.1 系統(tǒng)控制框架概述30
  • 3.2.2 粒子濾波30-33
  • 3.2.3 灰色預(yù)測33-35
  • 3.3 加入意圖推理的強(qiáng)化學(xué)習(xí)算法35-37
  • 3.4 系統(tǒng)實現(xiàn)與實驗37-45
  • 3.4.1 實驗平臺37-39
  • 3.4.2 狀態(tài)環(huán)境的劃分39
  • 3.4.3 機(jī)器人動作行為的定義39-40
  • 3.4.4 獎懲回報函數(shù)的設(shè)定40
  • 3.4.5 實驗結(jié)果與分析40-45
  • 3.5 本章小結(jié)45-46
  • 第四章 基于意圖推理的交互式強(qiáng)化學(xué)習(xí)46-68
  • 4.1 引言46-47
  • 4.2 基本交互式強(qiáng)化學(xué)習(xí)算法47-50
  • 4.2.1 交互式強(qiáng)化學(xué)習(xí)算法47-48
  • 4.2.2 探索與利用48-50
  • 4.3 基于貪婪指導(dǎo)的交互式強(qiáng)化學(xué)習(xí)算法50-54
  • 4.4 基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法54-59
  • 4.4.1 獎懲意圖的建模與推理55-57
  • 4.4.2 指導(dǎo)意圖的建模與推理57-58
  • 4.4.3 算法設(shè)計58-59
  • 4.5 實驗設(shè)計與結(jié)果分析59-66
  • 4.5.1 實驗任務(wù)設(shè)計60-62
  • 4.5.2 對比實驗設(shè)計62
  • 4.5.3 實驗結(jié)果與分析62-66
  • 4.6 本章小結(jié)66-68
  • 第五章 總結(jié)與展望68-70
  • 5.1 論文工作總結(jié)68-69
  • 5.2 研究展望69-70
  • 參考文獻(xiàn)70-77
  • 致謝77-78
  • 攻讀碩士學(xué)位期間已發(fā)表或錄用的論文78-80

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 郭勁松;曹江濤;李欣;盧超;;基于多傳感器信息融合的避障循跡機(jī)器人設(shè)計[J];智能計算機(jī)與應(yīng)用;2011年04期

2 石培基;胡科;;等維灰數(shù)遞補(bǔ)模型在人口預(yù)測中的應(yīng)用[J];統(tǒng)計與決策;2008年06期

3 何穗智;歐順云;鄧卓q,

本文編號:401407


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/401407.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4a855***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com