天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不確定環(huán)境下的序列決策問題研究

發(fā)布時(shí)間:2017-03-23 14:02

  本文關(guān)鍵詞:不確定環(huán)境下的序列決策問題研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著計(jì)算技術(shù)、嵌入式技術(shù)、傳感器技術(shù)、通信技術(shù)以及自動(dòng)控制技術(shù)的飛速發(fā)展,新一代智能系統(tǒng)也悄然出現(xiàn)。新一代智能系統(tǒng)的主要特點(diǎn)在于信息世界與物理世界的交互更為深入。新一代智能系統(tǒng)具有廣泛的應(yīng)用背景,可用于智慧城市、智慧交通、國防軍事、健康監(jiān)護(hù)、環(huán)境監(jiān)控等領(lǐng)域,受到越來越多研究者的關(guān)注。本文主要研究智能系統(tǒng)中以機(jī)器人控制與決策為背景的序列決策問題。 環(huán)境的不確定性是新一代智能系統(tǒng)的主要特點(diǎn)之一,系統(tǒng)的復(fù)雜性和不確定性決定了系統(tǒng)中的節(jié)點(diǎn)決策必然面臨著信息不一致、信息局部可觀測及分布式的問題。對(duì)于系統(tǒng)的決策節(jié)點(diǎn)來說,如何在這種環(huán)境下根據(jù)有限的信息在適當(dāng)?shù)臅r(shí)候做出合適的決策是其決策和規(guī)劃的首要問題。馬爾科夫決策理論為不確定性環(huán)境下的決策提供了堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)和模型表示方法。 論文在分析了馬爾科夫決策的國內(nèi)外研究現(xiàn)狀的基礎(chǔ)上針對(duì)當(dāng)前模型求解算法中所存在的缺點(diǎn)和不足,提出了ESVI算法和IGA算法。首先針對(duì)POMDP模型的求解提出了基于遺傳策略的求解POMDP的值迭代算法(Evolution Strategy Based Value Iteration,簡稱ESVI ),算法在隨機(jī)迭代過程的基礎(chǔ)上通過構(gòu)造一個(gè)效用矩陣來決定在某個(gè)信念狀態(tài)點(diǎn)上所要采取的最優(yōu)行動(dòng),在確定最優(yōu)行動(dòng)之后采用貝葉斯法則對(duì)信念狀態(tài)更新。隨機(jī)迭代過程采用遺傳策略選取最優(yōu)種群,并根據(jù)所選取的最優(yōu)種群對(duì)效用矩陣更新。算法的最后對(duì)Tag問題和Hallway2問題進(jìn)行了求解,實(shí)驗(yàn)表明ESVI在解決較大規(guī)模的POMDP問題時(shí)能夠迅速收斂到較好的收益值而獲得近似最優(yōu)的行動(dòng)策略。針對(duì)DEC-POMDP模型的求解提出了改進(jìn)的遺傳算法(IGA),算法在對(duì)狀態(tài)集分析的基礎(chǔ)上,引入最佳收益態(tài)和最佳起始態(tài),并將策略的求解分為兩部分:初始狀態(tài)到最佳起始態(tài)的策略和最佳收益態(tài)之間的轉(zhuǎn)換策略,兩部分策略的分開求解減小了算法的復(fù)雜度。前一階段的目的在于使決策節(jié)點(diǎn)到達(dá)最佳收益狀態(tài),其實(shí)質(zhì)上是剪除了行動(dòng)序列中存在的部分無效行動(dòng)。兩個(gè)階段的策略求解都使用遺傳算法,但在遺傳操作和適應(yīng)度函數(shù)的定義方面又有所不同。算法對(duì)方格相遇問題和多入口廣播通道問題進(jìn)行了求解,通過實(shí)驗(yàn)可以看出IGA壓縮了要搜索的策略空間,減小了編碼長度,是求解DEC-POMDP的有效的近似算法。
【關(guān)鍵詞】:部分可觀測馬爾科夫 馬爾科夫決策過程 序列決策 不確定性
【學(xué)位授予單位】:國防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:TP18;C934
【目錄】:
  • 摘要7-8
  • ABSTRACT8-10
  • 第一章 緒論10-19
  • 1.1 研究背景10-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-17
  • 1.2.1 MDP研究現(xiàn)狀13
  • 1.2.2 POMDP研究現(xiàn)狀13-15
  • 1.2.3 DEC-POMDP研究現(xiàn)狀15-17
  • 1.3 論文研究內(nèi)容17-18
  • 1.4 論文組織結(jié)構(gòu)18-19
  • 第二章 馬爾科夫決策理論19-32
  • 2.1 MDP基本模型及典型算法19-20
  • 2.1.1 基本模型19-20
  • 2.1.2 典型算法20
  • 2.2 POMDP基本模型及算法20-28
  • 2.2.1 基本模型21-23
  • 2.2.2 精確求解算法23-26
  • 2.2.3 近似求解算法26-28
  • 2.3 DEC-POMDP基本模型及算法28-31
  • 2.3.1 基本模型29
  • 2.3.2 典型算法29-31
  • 2.4 本章小結(jié)31-32
  • 第三章 基于遺傳策略的POMDP值迭代算法32-48
  • 3.1 基本值迭代算法32-35
  • 3.1.1 值函數(shù)在POMDP中的表示32-33
  • 3.1.2 值迭代算法的表示33-35
  • 3.2 基于遺傳策略的值迭代算法35-43
  • 3.2.1 隨機(jī)迭代過程35-36
  • 3.2.2 效用矩陣及其更新36-38
  • 3.2.3 信念狀態(tài)的更新38-41
  • 3.2.4 算法表示41-42
  • 3.2.5 算法分析42-43
  • 3.3 Tag問題和Hallway2 問題的求解43-47
  • 3.4 本章小結(jié)47-48
  • 第四章 應(yīng)用改進(jìn)的遺傳算法求解DEC-POMDP問題48-63
  • 4.1 基本遺傳算法求解DEC-POMDP問題的難點(diǎn)48-49
  • 4.2 遺傳算法的改進(jìn)49-59
  • 4.2.1 最佳收益態(tài)和最佳起始態(tài)50-52
  • 4.2.2 編碼、交叉及變異52-53
  • 4.2.3 適應(yīng)度函數(shù)53-56
  • 4.2.4 最佳收益態(tài)之間的轉(zhuǎn)換策略56-57
  • 4.2.5 算法描述及復(fù)雜性分析57-59
  • 4.3 算法可行性驗(yàn)證59-62
  • 4.4 本章小結(jié)62-63
  • 第五章 總結(jié)與展望63-65
  • 5.1 工作總結(jié)63-64
  • 5.2 研究展望64-65
  • 致謝65-66
  • 參考文獻(xiàn)66-72
  • 作者在學(xué)期間取得的學(xué)術(shù)成果72

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 卞愛華;王崇駿;陳世福;;基于點(diǎn)的POMDP算法的預(yù)處理方法[J];軟件學(xué)報(bào);2008年06期

2 桂林;武小悅;;部分可觀測馬爾可夫決策過程算法綜述[J];系統(tǒng)工程與電子技術(shù);2008年06期

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 吳鋒;基于決策理論的多智能體系統(tǒng)規(guī)劃問題研究[D];中國科學(xué)技術(shù)大學(xué);2011年

2 范長杰;基于馬爾可夫決策理論的規(guī)劃問題的研究[D];中國科學(xué)技術(shù)大學(xué);2008年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 王健;機(jī)器人導(dǎo)航POMDP算法研究[D];哈爾濱工程大學(xué);2008年


  本文關(guān)鍵詞:不確定環(huán)境下的序列決策問題研究,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):263855

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/263855.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2051c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com