部分可觀察馬氏決策問題的近似規(guī)劃方法研究
發(fā)布時(shí)間:2023-04-02 14:20
能否在不確定、動(dòng)態(tài)環(huán)境下正確地決策,是衡量自主機(jī)器人性能好壞的一項(xiàng)重要指標(biāo)。部分可觀察馬爾科夫決策過程(Partially Observable Markov Decision Processes,POMDPs)為自主機(jī)器人在不確定性環(huán)境中的規(guī)劃問題,提供了一個(gè)極富表達(dá)力的數(shù)學(xué)框架。POMDP現(xiàn)已在無人駕駛、機(jī)械臂操作等自主機(jī)器人任務(wù)中得到成功的應(yīng)用,F(xiàn)有的處理連續(xù)空間POMDP規(guī)劃問題的方法常使用離散化來求解策略,該方法計(jì)算量大,效率偏低。本文為了解決連續(xù)空間中的POMDP規(guī)劃問題,提出三種新的算法:(1)針對(duì)連續(xù)狀態(tài)空間中現(xiàn)有算法使用離散化,將連續(xù)的狀態(tài)離散化為網(wǎng)格,導(dǎo)致算法性能低下的缺陷,提出一種面向連續(xù)空間POMDP問題的高效算法——GPG算法。該算法在狀態(tài)空間和相應(yīng)的信念空間中抽樣,同時(shí)使用廣義策略圖和抽樣最大化方法,將算法推廣到連續(xù)觀察和連續(xù)動(dòng)作空間。實(shí)驗(yàn)結(jié)果表明,GPG算法收斂速度快且能獲得更優(yōu)的策略。(2)針對(duì)連續(xù)狀態(tài)空間中蒙特卡羅值迭代算法所得策略圖會(huì)隨著時(shí)間迅速增長(zhǎng),算法性能急劇降低的問題,提出一種優(yōu)化的連續(xù)狀態(tài)蒙特卡羅值迭代算法——OMVCI算法。該算法優(yōu)化新增結(jié)...
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
abstract
第一章 引言
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 背景知識(shí)
2.1 馬爾科夫決策過程
2.2 POMDP模型
2.3 信念狀態(tài)
2.4 值函數(shù)與最優(yōu)策略的計(jì)算方法
2.5 POMDP的基本方法
2.5.1 精確值迭代方法
2.5.2 改進(jìn)的Perseus算法
2.6 本章小結(jié)
第三章 面向連續(xù)空間POMDP問題的高效算法
3.1 策略圖
3.2 面向連續(xù)空間POMDP問題的高效算法
3.2.1 連續(xù)狀態(tài)空間的表示方法
3.2.2 連續(xù)動(dòng)作空間的表示方法
3.2.3 連續(xù)觀察空間的表示方法
3.2.4 GPG算法
3.2.5 算法分析
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 一維Corridor問題
3.3.2 Intersection問題
3.3.3 Navigation問題
3.4 本章小結(jié)
第四章 優(yōu)化的連續(xù)狀態(tài)蒙特卡羅值迭代算法
4.1 蒙特卡羅值迭代算法
4.1.1 蒙特卡羅更新
4.1.2 蒙特卡羅值迭代算法
4.2 連續(xù)狀態(tài)POMDP問題的優(yōu)化算法
4.2.1 OMCVI算法
4.2.2 算法分析
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 一維Corridor問題
4.3.2 Music-Chair問題
4.4 本章小結(jié)
第五章 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
5.1 基于試驗(yàn)的異步值迭代算法
5.1.1 基于試驗(yàn)的搜索和銀杏葉搜索
5.1.2 HSVI2算法
5.1.3 SARSOP算法
5.2 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
5.2.1 GLS算法
5.2.2 算法分析
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 Gantry Crane問題
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間公開發(fā)表(錄用)的論文及參與的項(xiàng)目
一、公開發(fā)表(錄用)的學(xué)術(shù)論文
二、參加的科研項(xiàng)目
致謝
本文編號(hào):3779374
【文章頁數(shù)】:77 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
中文摘要
abstract
第一章 引言
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 背景知識(shí)
2.1 馬爾科夫決策過程
2.2 POMDP模型
2.3 信念狀態(tài)
2.4 值函數(shù)與最優(yōu)策略的計(jì)算方法
2.5 POMDP的基本方法
2.5.1 精確值迭代方法
2.5.2 改進(jìn)的Perseus算法
2.6 本章小結(jié)
第三章 面向連續(xù)空間POMDP問題的高效算法
3.1 策略圖
3.2 面向連續(xù)空間POMDP問題的高效算法
3.2.1 連續(xù)狀態(tài)空間的表示方法
3.2.2 連續(xù)動(dòng)作空間的表示方法
3.2.3 連續(xù)觀察空間的表示方法
3.2.4 GPG算法
3.2.5 算法分析
3.3 實(shí)驗(yàn)及結(jié)果分析
3.3.1 一維Corridor問題
3.3.2 Intersection問題
3.3.3 Navigation問題
3.4 本章小結(jié)
第四章 優(yōu)化的連續(xù)狀態(tài)蒙特卡羅值迭代算法
4.1 蒙特卡羅值迭代算法
4.1.1 蒙特卡羅更新
4.1.2 蒙特卡羅值迭代算法
4.2 連續(xù)狀態(tài)POMDP問題的優(yōu)化算法
4.2.1 OMCVI算法
4.2.2 算法分析
4.3 實(shí)驗(yàn)及結(jié)果分析
4.3.1 一維Corridor問題
4.3.2 Music-Chair問題
4.4 本章小結(jié)
第五章 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
5.1 基于試驗(yàn)的異步值迭代算法
5.1.1 基于試驗(yàn)的搜索和銀杏葉搜索
5.1.2 HSVI2算法
5.1.3 SARSOP算法
5.2 連續(xù)狀態(tài)大規(guī)模觀察空間的銀杏葉搜索算法
5.2.1 GLS算法
5.2.2 算法分析
5.3 實(shí)驗(yàn)及結(jié)果分析
5.3.1 Gantry Crane問題
5.4 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間公開發(fā)表(錄用)的論文及參與的項(xiàng)目
一、公開發(fā)表(錄用)的學(xué)術(shù)論文
二、參加的科研項(xiàng)目
致謝
本文編號(hào):3779374
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3779374.html
最近更新
教材專著