面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理
發(fā)布時間:2017-05-27 23:11
本文關(guān)鍵詞:面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理,由筆耕文化傳播整理發(fā)布。
【摘要】:賦予智能系統(tǒng)以強(qiáng)大的學(xué)習(xí)能力以及豐富的人機(jī)交互功能是智能系統(tǒng)在動態(tài)不確定環(huán)境中完成復(fù)雜任務(wù)的必由之路。在實際的交互過程中,要想完成智能體與人類用戶的自然有效的交互,又需要對人類的意圖進(jìn)行正確的推斷和識別。如何建立一個融合強(qiáng)化學(xué)習(xí)和用戶意圖推理的學(xué)習(xí)體系來實現(xiàn)智能系統(tǒng)的高級交互智能,進(jìn)而應(yīng)用于復(fù)雜的人機(jī)交互任務(wù),具有重要的學(xué)術(shù)價值和實際意義。本文以智能機(jī)器人在實際的動態(tài)復(fù)雜環(huán)境中完成人機(jī)交互任務(wù)為背景,針對交互任務(wù)中如何對人的意圖進(jìn)行有效的識別,進(jìn)而用以提升強(qiáng)化學(xué)習(xí)算法的適應(yīng)能力和收斂速度,從強(qiáng)化學(xué)習(xí)和意圖推理兩個方面進(jìn)行了相關(guān)研究,設(shè)計并提出了面向人機(jī)交互的強(qiáng)化學(xué)習(xí)和意圖推理算法,并通過人機(jī)交互實驗驗證了算法的有效性。本文的工作主要包括:1)設(shè)計了基于粒子濾波和強(qiáng)化學(xué)習(xí)的目標(biāo)跟蹤控制框架,以在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行跟蹤針對現(xiàn)有的機(jī)器人跟隨控制算法不能適應(yīng)動態(tài)變化環(huán)境的特點,設(shè)計提出了一種基于視覺傳感的機(jī)器人跟蹤控制框架,將粒子濾波算法與強(qiáng)化學(xué)習(xí)算法相結(jié)合,使得之能夠完成在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行有效跟蹤的任務(wù)。2)提出了基于灰色預(yù)測的意圖推理算法,實現(xiàn)對人行走意圖的預(yù)測,以提升跟蹤算法對人運動變化的適應(yīng)能力由于現(xiàn)有的跟蹤控制算法沒有考慮人的行走規(guī)律,因而使機(jī)器人在完成跟隨任務(wù)時存在一定的遲滯,且難以適應(yīng)人在行走方向和速度上的變化。本文提出了一種基于灰色預(yù)測新陳代謝GM(1,1)模型的用戶意圖推理算法,對人的行走意圖進(jìn)行建模,并用以對機(jī)器人的控制量進(jìn)行修正,從而提升了機(jī)器人跟隨的適應(yīng)能力。3)設(shè)計了基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,以實現(xiàn)對人指導(dǎo)信息的充分有效利用,加速強(qiáng)化學(xué)習(xí)算法的收斂為了使機(jī)器人充分利用人交互過程中人給出的指導(dǎo)信息,在任務(wù)空間中進(jìn)行更有效的搜索,本文提出了一種基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,從盡可能少的指導(dǎo)信息中挖掘出盡可能多的有效信息,加快了算法的收斂速度,減少了人的參與度和工作量。4)提出了一種基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法,在人出現(xiàn)偶然錯誤的情況下對其真實意圖進(jìn)行有效識別,避免了對學(xué)習(xí)過程的誤導(dǎo)在人機(jī)交互的過程中由于各種原因?qū)е氯私o出的信息會有一定概率出錯。在此基礎(chǔ)上,本文提出了兩種意圖建模算法,即人的獎懲意圖建模和指導(dǎo)意圖建模,并將其與基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法相結(jié)合,設(shè)計了基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法。對比實驗證明了該算法能夠在人偶然出錯的情況下,仍然能夠?qū)θ说恼鎸嵰鈭D進(jìn)行有效的識別,從而避免了對學(xué)習(xí)任務(wù)的干擾和誤導(dǎo),使機(jī)器人仍能快速地完成學(xué)習(xí)任務(wù)。
【關(guān)鍵詞】:人機(jī)交互 強(qiáng)化學(xué)習(xí) 意圖推理 灰色預(yù)測 獎懲信息 指導(dǎo)信息 仿人機(jī)器人
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP18
【目錄】:
- 摘要3-5
- ABSTRACT5-10
- 第一章 緒論10-19
- 1.1 課題背景及研究意義10-11
- 1.2 人機(jī)交互技術(shù)發(fā)展及應(yīng)用11-14
- 1.3 強(qiáng)化學(xué)習(xí)14-15
- 1.3.1 強(qiáng)化學(xué)習(xí)簡述14
- 1.3.2 存在的問題及解決途徑14-15
- 1.4 意圖推理15-16
- 1.4.1 意圖推理概述15-16
- 1.4.2 研究現(xiàn)狀總結(jié)16
- 1.5 意圖推理與強(qiáng)化學(xué)習(xí)的融合16-17
- 1.6 本文主要內(nèi)容和章節(jié)安排17-19
- 第二章 強(qiáng)化學(xué)習(xí)理論及算法19-28
- 2.1 引言19
- 2.2 強(qiáng)化學(xué)習(xí)模型與主要組成要素19-22
- 2.2.1 強(qiáng)化學(xué)習(xí)基本模型19-20
- 2.2.2 強(qiáng)化學(xué)習(xí)主要組成元素20-22
- 2.3 馬爾可夫決策模型(MDP)22-23
- 2.4 強(qiáng)化學(xué)習(xí)基本算法23-26
- 2.4.1 瞬時差分算法(TD)24-25
- 2.4.2 Q學(xué)習(xí)算法(Q-learning)25-26
- 2.5 人機(jī)交互應(yīng)用中的關(guān)鍵問題26-27
- 2.5.1 泛化問題26-27
- 2.5.2 收斂速度27
- 2.5.3 強(qiáng)化函數(shù)與算法結(jié)構(gòu)設(shè)計27
- 2.6 本章小結(jié)27-28
- 第三章 基于強(qiáng)化學(xué)習(xí)和意圖推理的目標(biāo)跟蹤28-46
- 3.1 引言28-30
- 3.2 系統(tǒng)控制框架與基礎(chǔ)理論30-35
- 3.2.1 系統(tǒng)控制框架概述30
- 3.2.2 粒子濾波30-33
- 3.2.3 灰色預(yù)測33-35
- 3.3 加入意圖推理的強(qiáng)化學(xué)習(xí)算法35-37
- 3.4 系統(tǒng)實現(xiàn)與實驗37-45
- 3.4.1 實驗平臺37-39
- 3.4.2 狀態(tài)環(huán)境的劃分39
- 3.4.3 機(jī)器人動作行為的定義39-40
- 3.4.4 獎懲回報函數(shù)的設(shè)定40
- 3.4.5 實驗結(jié)果與分析40-45
- 3.5 本章小結(jié)45-46
- 第四章 基于意圖推理的交互式強(qiáng)化學(xué)習(xí)46-68
- 4.1 引言46-47
- 4.2 基本交互式強(qiáng)化學(xué)習(xí)算法47-50
- 4.2.1 交互式強(qiáng)化學(xué)習(xí)算法47-48
- 4.2.2 探索與利用48-50
- 4.3 基于貪婪指導(dǎo)的交互式強(qiáng)化學(xué)習(xí)算法50-54
- 4.4 基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法54-59
- 4.4.1 獎懲意圖的建模與推理55-57
- 4.4.2 指導(dǎo)意圖的建模與推理57-58
- 4.4.3 算法設(shè)計58-59
- 4.5 實驗設(shè)計與結(jié)果分析59-66
- 4.5.1 實驗任務(wù)設(shè)計60-62
- 4.5.2 對比實驗設(shè)計62
- 4.5.3 實驗結(jié)果與分析62-66
- 4.6 本章小結(jié)66-68
- 第五章 總結(jié)與展望68-70
- 5.1 論文工作總結(jié)68-69
- 5.2 研究展望69-70
- 參考文獻(xiàn)70-77
- 致謝77-78
- 攻讀碩士學(xué)位期間已發(fā)表或錄用的論文78-80
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 郭勁松;曹江濤;李欣;盧超;;基于多傳感器信息融合的避障循跡機(jī)器人設(shè)計[J];智能計算機(jī)與應(yīng)用;2011年04期
2 石培基;胡科;;等維灰數(shù)遞補(bǔ)模型在人口預(yù)測中的應(yīng)用[J];統(tǒng)計與決策;2008年06期
3 何穗智;歐順云;鄧卓q,
本文編號:401407
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/401407.html
最近更新
教材專著