天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于部分可觀察馬爾科夫決策過程的序列規(guī)劃問題的研究

發(fā)布時間:2017-10-07 17:37

  本文關(guān)鍵詞:基于部分可觀察馬爾科夫決策過程的序列規(guī)劃問題的研究


  更多相關(guān)文章: 部分可觀測馬爾科夫決策過程 基于點的值迭代 策略迭代 啟發(fā)式在線算法 蒙特卡羅法


【摘要】:智能規(guī)劃(AI planning)是傳統(tǒng)人工智能最重要的研究領(lǐng)域之一。隨著問題規(guī)模不斷增大,復(fù)雜程度不斷提高,如何在大規(guī)模不確定環(huán)境下設(shè)計出高效智能的決策算法是當(dāng)前智能規(guī)劃非常重要的研究課題。由于POMDP能夠很好地對環(huán)境、動作及觀察的不確定性進(jìn)行建模,因而在不確定性環(huán)境下基于POMDP模型來進(jìn)行規(guī)劃是目前自動規(guī)劃研究的重要內(nèi)容。而在無限視野下精確求解POMDP問題是NP難問題,在過去的十多年里,基于點的POMDP問題啟發(fā)式求解成為了大規(guī)模POMDP問題求解的研究熱點。但是在離線求解POMDP問題的研究中,大多數(shù)基于點的近似求解方法都是基于單一的啟發(fā)式標(biāo)準(zhǔn),難以適用于不同的問題場景;在在線求解POMDP問題的研究中,且近幾年的啟發(fā)式方法都是只以最優(yōu)上界作為探索標(biāo)準(zhǔn),降低了收斂效率。本文圍繞如何設(shè)計高效的啟發(fā)式POMDP求解算法來展開研究。本文的研究內(nèi)容主要有三個方面,首先,研究了目前主流的基于點的POMDP近似求解啟發(fā)式標(biāo)準(zhǔn),雜合密度分布的標(biāo)準(zhǔn)和值函數(shù)的標(biāo)準(zhǔn)設(shè)計HHVI算法來提高探索信念點集的質(zhì)量;其次,研究了基于聚類構(gòu)造可達(dá)信念點集最小覆蓋的方法,并設(shè)計了基于點的策略迭代算法來求解POMDP司題;最后改進(jìn)了最優(yōu)可達(dá)信念空間的探索標(biāo)準(zhǔn),設(shè)計了基于概率的最優(yōu)可達(dá)空間近似方法,從而改進(jìn)了POMDP在線求解的效率。具體來說,論文的主要內(nèi)容和創(chuàng)新點如下:1. 目前基于點的POMDP離線近似求解啟發(fā)式標(biāo)準(zhǔn)主要是基于密度分布的標(biāo)準(zhǔn)、基于值函數(shù)的標(biāo)準(zhǔn)和基于MDP的標(biāo)準(zhǔn)。但是基于MDP的近似解法沒有考慮部分可觀察性,會退化為隨機策略;單一基于密度標(biāo)準(zhǔn)的算法無法控制探索點集的規(guī)模難以保證收斂質(zhì)量;單一基于值函數(shù)的算法復(fù)雜度較高難以保證收斂效率。本文提出了雜合的啟發(fā)式值迭代算法來離線求解POMDP問題,該算法基于值函數(shù)啟發(fā)式標(biāo)準(zhǔn)評價已探索點集內(nèi)信念點的被擴價值,結(jié)合信念點分布和值函數(shù)選擇合理的后繼點,通過雜合值函數(shù)和密度的標(biāo)準(zhǔn)避免了單一標(biāo)準(zhǔn)的局限性,增強了對不同POMDP問題的適應(yīng)性。2.最近的研究說明δ-覆蓋數(shù)是刻畫基于點的POMDP問題求解的有效度量,但精確計算可達(dá)信念空間的δ-覆蓋數(shù)是一個NP-難的問題。本文分析了可達(dá)信念空間的聚類特性,基于可達(dá)信念空間的分布特征來高效地構(gòu)造其δ-覆蓋,由此獲得分散分布于可達(dá)信念空間的探索信念點集,通過策略迭代來離線求解POMDP問題。3. 當(dāng)前的啟發(fā)式在線算法大多基于最高上界的行動分支搜索探索信念點,從理論上保證算法最終能找到信念點上的最優(yōu)行動,但上界的收斂較慢,且下界能夠保證策略的質(zhì)量,在線規(guī)劃算法在執(zhí)行時以最優(yōu)下界對應(yīng)的行動作為決策行動。本文提出了選擇最優(yōu)動作的新標(biāo)準(zhǔn),以所有動作的函數(shù)值在其上界和下界之間的概率分布為基礎(chǔ),計算每個動作的值函數(shù)取值最大的概率,再選擇概率值最大的動作。算法更準(zhǔn)確地探索到最優(yōu)可達(dá)信念空間附近的區(qū)域,從而提高在線求解的迭代效率。
【關(guān)鍵詞】:部分可觀測馬爾科夫決策過程 基于點的值迭代 策略迭代 啟發(fā)式在線算法 蒙特卡羅法
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:O225
【目錄】:
  • 摘要4-6
  • abstract6-15
  • 第一章 緒論15-21
  • 1.1 引言15-16
  • 1.2 POMDP問題求解研究現(xiàn)狀16-18
  • 1.3 目前POMDP求解中存在的問題18-19
  • 1.4 本文的主要工作和論文結(jié)構(gòu)19-21
  • 第二章 研究背景21-36
  • 2.1 規(guī)劃問題研究的發(fā)展21-25
  • 2.1.1 經(jīng)典規(guī)劃21-24
  • 2.1.2 不確定環(huán)境中的規(guī)劃24-25
  • 2.2 MDP模型及其求解25-30
  • 2.2.1 模型定義26-27
  • 2.2.2 策略27-28
  • 2.2.3 值函數(shù)和值迭代28-30
  • 2.3 POMDP模型及其求解30-35
  • 2.3.1 模型定義31
  • 2.3.2 決策和信念31-32
  • 2.3.3 值向量和精確值迭代32-34
  • 2.3.4 向量裁剪34-35
  • 2.4 本章小結(jié)35-36
  • 第三章 一種基于雜合標(biāo)準(zhǔn)的POMDP值迭代求解方法36-61
  • 3.1 引言36-37
  • 3.2 基于點的值迭代方法37-38
  • 3.3 主流基于點的信念空間探索方法38-47
  • 3.3.1 PBVI算法(基于點的值迭代算法)38-39
  • 3.3.2 PEMA算法(基于點的最小誤差算法)39-40
  • 3.3.3 類MDP的近似解法40-42
  • 3.3.4 FSVI算法42
  • 3.3.5 HSVI算法42-43
  • 3.3.6 SARSOP算法(最優(yōu)策略可達(dá)空間的連續(xù)近似法)43-45
  • 3.3.7 GapMin算法45-46
  • 3.3.8 基于點的值迭代算法的分析46-47
  • 3.4 HHVI算法47-51
  • 3.4.1 算法思想47-48
  • 3.4.2 算法描述48-50
  • 3.4.3 算法分析50-51
  • 3.5 實驗和分析51-59
  • 3.5.1 基準(zhǔn)問題51-57
  • 3.5.2 實驗57-59
  • 3.6 本章小結(jié)59-61
  • 第四章 一種基于聚類的POMDP策略迭代求解方法61-78
  • 4.1 引言61-62
  • 4.2 基于點的策略迭代62-66
  • 4.2.1 POMDP的策略迭代求解62-64
  • 4.2.2 基于點的策略迭代算法PBPI64-66
  • 4.3 可達(dá)信念空間聚類特性的分析66-72
  • 4.3.1 可達(dá)信念空間獲取方法66-68
  • 4.3.2 可達(dá)信念空間聚類分析68-70
  • 4.3.3 基于密度的信念點聚類算法70-72
  • 4.4 CBPI算法72-75
  • 4.4.1 算法思想72-73
  • 4.4.2 算法描述73-75
  • 4.5 實驗和分析75-77
  • 4.6 本章小結(jié)77-78
  • 第五章 一種基于概率最優(yōu)可達(dá)空間迭代的POMDP在線求解方法78-93
  • 5.1 引言78-80
  • 5.2 在線規(guī)劃算法概述80-83
  • 5.3 最優(yōu)可達(dá)信念空間的求解方法83-85
  • 5.3.1 最優(yōu)可達(dá)信念空間83-84
  • 5.3.2 基于概率的最優(yōu)可達(dá)空間近似方法84-85
  • 5.4 PBORSI算法85-88
  • 5.4.1 算法思想85-86
  • 5.4.2 算法描述86-88
  • 5.5 實驗和分析88-92
  • 5.6 本章小結(jié)92-93
  • 第六章 總結(jié)與展望93-95
  • 6.1 論文總結(jié)93-94
  • 6.2 下一步的工作94-95
  • 致謝95-96
  • 參考文獻(xiàn)96-104
  • 附錄104-105

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 周傲英,周水庚,曹晶,范曄,胡運發(fā);Approaches for Scaling DBSCAN Algorithm to Large Spatial Databases[J];Journal of Computer Science and Technology;2000年06期

2 章宗長;陳小平;;雜合啟發(fā)式在線POMDP規(guī)劃[J];軟件學(xué)報;2013年07期

,

本文編號:989185

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/jckxbs/989185.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2b23***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com