面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理

發(fā)布時間：2017-05-27 23:11

本文關(guān)鍵詞：面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理，由筆耕文化傳播整理發(fā)布。

【摘要】：賦予智能系統(tǒng)以強(qiáng)大的學(xué)習(xí)能力以及豐富的人機(jī)交互功能是智能系統(tǒng)在動態(tài)不確定環(huán)境中完成復(fù)雜任務(wù)的必由之路。在實際的交互過程中,要想完成智能體與人類用戶的自然有效的交互,又需要對人類的意圖進(jìn)行正確的推斷和識別。如何建立一個融合強(qiáng)化學(xué)習(xí)和用戶意圖推理的學(xué)習(xí)體系來實現(xiàn)智能系統(tǒng)的高級交互智能,進(jìn)而應(yīng)用于復(fù)雜的人機(jī)交互任務(wù),具有重要的學(xué)術(shù)價值和實際意義。本文以智能機(jī)器人在實際的動態(tài)復(fù)雜環(huán)境中完成人機(jī)交互任務(wù)為背景,針對交互任務(wù)中如何對人的意圖進(jìn)行有效的識別,進(jìn)而用以提升強(qiáng)化學(xué)習(xí)算法的適應(yīng)能力和收斂速度,從強(qiáng)化學(xué)習(xí)和意圖推理兩個方面進(jìn)行了相關(guān)研究,設(shè)計并提出了面向人機(jī)交互的強(qiáng)化學(xué)習(xí)和意圖推理算法,并通過人機(jī)交互實驗驗證了算法的有效性。本文的工作主要包括:1)設(shè)計了基于粒子濾波和強(qiáng)化學(xué)習(xí)的目標(biāo)跟蹤控制框架,以在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行跟蹤針對現(xiàn)有的機(jī)器人跟隨控制算法不能適應(yīng)動態(tài)變化環(huán)境的特點,設(shè)計提出了一種基于視覺傳感的機(jī)器人跟蹤控制框架,將粒子濾波算法與強(qiáng)化學(xué)習(xí)算法相結(jié)合,使得之能夠完成在動態(tài)不確定環(huán)境下對目標(biāo)人進(jìn)行有效跟蹤的任務(wù)。2)提出了基于灰色預(yù)測的意圖推理算法,實現(xiàn)對人行走意圖的預(yù)測,以提升跟蹤算法對人運動變化的適應(yīng)能力由于現(xiàn)有的跟蹤控制算法沒有考慮人的行走規(guī)律,因而使機(jī)器人在完成跟隨任務(wù)時存在一定的遲滯,且難以適應(yīng)人在行走方向和速度上的變化。本文提出了一種基于灰色預(yù)測新陳代謝GM(1,1)模型的用戶意圖推理算法,對人的行走意圖進(jìn)行建模,并用以對機(jī)器人的控制量進(jìn)行修正,從而提升了機(jī)器人跟隨的適應(yīng)能力。3)設(shè)計了基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,以實現(xiàn)對人指導(dǎo)信息的充分有效利用,加速強(qiáng)化學(xué)習(xí)算法的收斂為了使機(jī)器人充分利用人交互過程中人給出的指導(dǎo)信息,在任務(wù)空間中進(jìn)行更有效的搜索,本文提出了一種基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法,從盡可能少的指導(dǎo)信息中挖掘出盡可能多的有效信息,加快了算法的收斂速度,減少了人的參與度和工作量。4)提出了一種基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法,在人出現(xiàn)偶然錯誤的情況下對其真實意圖進(jìn)行有效識別,避免了對學(xué)習(xí)過程的誤導(dǎo)在人機(jī)交互的過程中由于各種原因?qū)е氯私o出的信息會有一定概率出錯。在此基礎(chǔ)上,本文提出了兩種意圖建模算法,即人的獎懲意圖建模和指導(dǎo)意圖建模,并將其與基于貪婪指導(dǎo)的快速交互式強(qiáng)化學(xué)習(xí)算法相結(jié)合,設(shè)計了基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法。對比實驗證明了該算法能夠在人偶然出錯的情況下,仍然能夠?qū)θ说恼鎸嵰鈭D進(jìn)行有效的識別,從而避免了對學(xué)習(xí)任務(wù)的干擾和誤導(dǎo),使機(jī)器人仍能快速地完成學(xué)習(xí)任務(wù)。
【關(guān)鍵詞】：人機(jī)交互 強(qiáng)化學(xué)習(xí) 意圖推理 灰色預(yù)測 獎懲信息 指導(dǎo)信息 仿人機(jī)器人
【學(xué)位授予單位】：上海交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：TP18
【目錄】：

摘要3-5
ABSTRACT5-10
第一章緒論10-19
1.1 課題背景及研究意義10-11
1.2 人機(jī)交互技術(shù)發(fā)展及應(yīng)用11-14
1.3 強(qiáng)化學(xué)習(xí)14-15
1.3.1 強(qiáng)化學(xué)習(xí)簡述14
1.3.2 存在的問題及解決途徑14-15
1.4 意圖推理15-16
1.4.1 意圖推理概述15-16
1.4.2 研究現(xiàn)狀總結(jié)16
1.5 意圖推理與強(qiáng)化學(xué)習(xí)的融合16-17
1.6 本文主要內(nèi)容和章節(jié)安排17-19
第二章強(qiáng)化學(xué)習(xí)理論及算法19-28
2.1 引言19
2.2 強(qiáng)化學(xué)習(xí)模型與主要組成要素19-22
2.2.1 強(qiáng)化學(xué)習(xí)基本模型19-20
2.2.2 強(qiáng)化學(xué)習(xí)主要組成元素20-22
2.3 馬爾可夫決策模型(MDP)22-23
2.4 強(qiáng)化學(xué)習(xí)基本算法23-26
2.4.1 瞬時差分算法(TD)24-25
2.4.2 Q學(xué)習(xí)算法(Q-learning)25-26
2.5 人機(jī)交互應(yīng)用中的關(guān)鍵問題26-27
2.5.1 泛化問題26-27
2.5.2 收斂速度27
2.5.3 強(qiáng)化函數(shù)與算法結(jié)構(gòu)設(shè)計27
2.6 本章小結(jié)27-28
第三章基于強(qiáng)化學(xué)習(xí)和意圖推理的目標(biāo)跟蹤28-46
3.1 引言28-30
3.2 系統(tǒng)控制框架與基礎(chǔ)理論30-35
3.2.1 系統(tǒng)控制框架概述30
3.2.2 粒子濾波30-33
3.2.3 灰色預(yù)測33-35
3.3 加入意圖推理的強(qiáng)化學(xué)習(xí)算法35-37
3.4 系統(tǒng)實現(xiàn)與實驗37-45
3.4.1 實驗平臺37-39
3.4.2 狀態(tài)環(huán)境的劃分39
3.4.3 機(jī)器人動作行為的定義39-40
3.4.4 獎懲回報函數(shù)的設(shè)定40
3.4.5 實驗結(jié)果與分析40-45
3.5 本章小結(jié)45-46
第四章基于意圖推理的交互式強(qiáng)化學(xué)習(xí)46-68
4.1 引言46-47
4.2 基本交互式強(qiáng)化學(xué)習(xí)算法47-50
4.2.1 交互式強(qiáng)化學(xué)習(xí)算法47-48
4.2.2 探索與利用48-50
4.3 基于貪婪指導(dǎo)的交互式強(qiáng)化學(xué)習(xí)算法50-54
4.4 基于意圖推理的交互式強(qiáng)化學(xué)習(xí)算法54-59
4.4.1 獎懲意圖的建模與推理55-57
4.4.2 指導(dǎo)意圖的建模與推理57-58
4.4.3 算法設(shè)計58-59
4.5 實驗設(shè)計與結(jié)果分析59-66
4.5.1 實驗任務(wù)設(shè)計60-62
4.5.2 對比實驗設(shè)計62
4.5.3 實驗結(jié)果與分析62-66
4.6 本章小結(jié)66-68
第五章總結(jié)與展望68-70
5.1 論文工作總結(jié)68-69
5.2 研究展望69-70
參考文獻(xiàn)70-77
致謝77-78
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文78-80

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前4條

1 郭勁松;曹江濤;李欣;盧超;;基于多傳感器信息融合的避障循跡機(jī)器人設(shè)計[J];智能計算機(jī)與應(yīng)用;2011年04期

2 石培基;胡科;;等維灰數(shù)遞補(bǔ)模型在人口預(yù)測中的應(yīng)用[J];統(tǒng)計與決策;2008年06期

3 何穗智;歐順云;鄧卓q，

本文編號：401407

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/401407.html

上一篇：仿生機(jī)器魚運動機(jī)理及水動力性能研究
下一篇：基于圖像結(jié)構(gòu)—紋理分解的醫(yī)學(xué)圖像去噪算法的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向人機(jī)交互的強(qiáng)化學(xué)習(xí)與意圖推理