天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

一種基于最優(yōu)策略概率分布的POMDP值迭代算法

發(fā)布時間:2017-10-03 11:49

  本文關鍵詞:一種基于最優(yōu)策略概率分布的POMDP值迭代算法


  更多相關文章: 部分可觀測馬爾科夫決策過程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法


【摘要】:隨著應用中POMDP問題的規(guī)模不斷擴大,基于最優(yōu)策略可達區(qū)域的啟發(fā)式方法成為了目前的研究熱點.然而目前已有的算法雖然保證了全局最優(yōu),但選擇最優(yōu)動作還不夠精確,影響了算法的效率.本文提出一種基于最優(yōu)策略概率的值迭代方法 PBVIOP.該方法在深度優(yōu)先的啟發(fā)式探索中,根據(jù)各個動作值函數(shù)在其上界和下界之間的分布,用蒙特卡羅法計算動作最優(yōu)的概率,選擇概率最大的動作作為最優(yōu)探索策略.在4個基準問題上的實驗結果表明PBVIOP算法能夠收斂到全局最優(yōu)解,并明顯提高了收斂效率.
【作者單位】: 南京大學軟件學院;南京大學軟件新技術國家重點實驗室;南京大學計算機科學與技術系;
【關鍵詞】部分可觀測馬爾科夫決策過程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法
【基金】:國家自然科學基金(No.61375069) 江蘇省自然科學基金(No.BK20131277)
【分類號】:TP18
【正文快照】: 3.南京大學軟件新技術國家重點實驗室,江蘇南京210093)1引言規(guī)劃問題,即“設計合理的行動計劃以達到個體目標”[1],是人工智能研究里的重要領域.序列決策問題(Sequential Decision Making)是規(guī)劃問題的一個重要子領域.而動態(tài)不確定性環(huán)境下的行動規(guī)劃是其中的熱點,其動態(tài)性和

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 張子寧;單甘霖;段修生;;基于部分可觀馬氏決策過程的多平臺主被動傳感器調度[J];電子學報;2014年10期

2 章宗長;陳小平;;雜合啟發(fā)式在線POMDP規(guī)劃[J];軟件學報;2013年07期

3 趙二虎;陽小龍;彭云峰;隆克平;;CPSM:一種增強IP網(wǎng)絡生存性的客戶端主動服務漂移模型[J];電子學報;2010年09期

4 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進化算法的強化學習[J];電子學報;2006年07期

【共引文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉峰;王崇駿;駱斌;;一種基于最優(yōu)策略概率分布的POMDP值迭代算法[J];電子學報;2016年05期

2 陳天平;孟相如;崔文巖;許媛;;基于網(wǎng)絡可生存性態(tài)勢感知的主動服務漂移模型[J];空軍工程大學學報(自然科學版);2015年06期

3 徐偉剛;;基于網(wǎng)絡信息流的自適應MWM模型研究[J];西南師范大學學報(自然科學版);2015年09期

4 仵博;鄭紅燕;馮延蓬;陳鑫;;一種基于模型的可分解貝葉斯在線強化學習[J];電子學報;2014年07期

5 趙攀;;考慮螢火蟲群的網(wǎng)絡生存性計算方法[J];遼寧工程技術大學學報(自然科學版);2014年03期

6 趙攀;魏正曦;張弘;;基于混合蛙跳的網(wǎng)絡生存性計算方法[J];計算機工程與設計;2013年11期

7 趙攀;魏正曦;張弘;;網(wǎng)絡生存性計算方法以及性能評價[J];計算機應用;2013年10期

8 朱麗娜;吳慶濤;婁穎;鄭瑞娟;;基于自律計算的系統(tǒng)服務可信性自優(yōu)化方法[J];微電子學與計算機;2013年08期

9 焦玉民;王強;徐婷;謝慶華;王海濤;;基于GA-Q-learning算法的虛擬維修作業(yè)規(guī)劃模型[J];兵工學報;2013年05期

10 張玉州;李銳;江克勤;程玉勝;王一賓;;基于自適應多局部搜索memetic算法的多跑道地面等待問題求解[J];系統(tǒng)工程理論與實踐;2012年11期

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 程洪瑋;王博;安瑋;;一種基于信息決策樹的低軌星座傳感器調度方法[J];電子學報;2010年11期

2 錢X;馬旭東;戴先中;房芳;;預測行人運動的服務機器人POMDP導航[J];機器人;2010年01期

3 卞愛華;王崇駿;陳世福;;基于點的POMDP算法的預處理方法[J];軟件學報;2008年06期

4 洪小亮;郭義喜;;服務漂移機制的研究[J];信息工程大學學報;2008年01期

5 蘇璞睿;馮登國;;基于進程行為的異常檢測模型[J];電子學報;2006年10期

6 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進化算法的強化學習[J];電子學報;2006年07期

7 李響,陳小平;一種動態(tài)不確定性環(huán)境中的持續(xù)規(guī)劃系統(tǒng)[J];計算機學報;2005年07期

8 黃遵國,盧錫城,胡華平;生存能力技術及其實現(xiàn)案例研究[J];通信學報;2004年07期

9 劉敏華,蕭德云;基于相似度的多傳感器數(shù)據(jù)融合[J];控制與決策;2004年05期

10 周文輝,胡衛(wèi)東,余安喜,郁文賢;基于協(xié)方差控制的集中式傳感器分配算法研究[J];電子學報;2003年S1期

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 吳漢生;;一類定量微分對策理論中最優(yōu)策略的算法及其收斂性[J];自動化學報;1992年02期

2 黃小原;縣級宏觀經(jīng)濟系統(tǒng)的最優(yōu)策略[J];控制與決策;1987年03期

3 姜愛林;兩化并進 工業(yè)化與信息化協(xié)調發(fā)展的最優(yōu)策略[J];科技成果縱橫;2004年03期

4 袁開福;高陽;;周期盤點庫存系統(tǒng)的制造與再制造最優(yōu)策略[J];計算機集成制造系統(tǒng);2010年02期

5 曾慶寧;;折扣多目標馬氏決策規(guī)劃的兩種模糊最優(yōu)策略[J];西安電子科技大學學報;1989年01期

6 曾慶寧;;DMOMDP及其П_m~d與П_S~d優(yōu)勢[J];桂林電子工業(yè)學院學報;1989年01期

7 陳向勇;井元偉;李春吉;劉曉平;;一種基于Lanchester方程的交戰(zhàn)取勝最優(yōu)策略[J];控制與決策;2011年06期

8 張瑞振;楚巖楓;;基于服務溢出效應下的弱勢零售商競爭策略研究[J];電子商務;2014年05期

9 王進才;;有限資源條件下新裝備維修保障最優(yōu)策略研究[J];電子產品可靠性與環(huán)境試驗;2008年06期

10 奚飛;周永務;;基于固定分割的庫存路徑問題最優(yōu)策略[J];系統(tǒng)工程與電子技術;2009年10期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 謝益民;鄭應平;;部分觀測的兩并行不同服務臺路徑最優(yōu)策略[A];1991年控制理論及其應用年會論文集(上)[C];1991年

2 高永;向錦武;;多目標火力分配的系統(tǒng)動力學模擬[A];中國系統(tǒng)仿真學會第五次全國會員代表大會暨2006年全國學術年會論文集[C];2006年

3 霍沛軍;陳繼祥;宣國良;;在企業(yè)具有單位成本優(yōu)勢時的最優(yōu)事后許可策略[A];面向復雜系統(tǒng)的管理理論與信息系統(tǒng)技術學術會議專輯[C];2000年

4 張榮;;競爭性及兼容性條件下軟件公司對公共品投資的最優(yōu)策略[A];第十屆中國青年信息與管理學者大會論文集[C];2008年

中國重要報紙全文數(shù)據(jù)庫 前7條

1 黃達強 浙江大學經(jīng)濟學院、浙江大學跨學科社會科學研究中心;有效利用他人憤怒情緒可形成最優(yōu)策略[N];中國社會科學報;2014年

2 本報記者 朱茵;等待是當下最優(yōu)策略[N];中國證券報;2012年

3 富國基金管理公司;基金投資的最優(yōu)策略:選擇績優(yōu)基金+買入長期持有[N];上海證券報;2007年

4 阿琪;目前最優(yōu)策略是防御性進攻[N];上海證券報;2014年

5 ;政府官員能否談論“升官發(fā)財”?[N];工人日報;2004年

6 主持人 本報記者 朱茵;8月:等待是最優(yōu)策略[N];中國證券報;2012年

7 記者 潘圣韜;申銀萬國:等待是當前最優(yōu)策略[N];上海證券報;2012年

中國博士學位論文全文數(shù)據(jù)庫 前2條

1 陳李鋼;基于贊助搜索的關鍵字廣告最優(yōu)策略研究[D];哈爾濱工業(yè)大學;2011年

2 高春燕;不確定性對生產庫存系統(tǒng)運營策略和績效的影響分析[D];南京大學;2011年

中國碩士學位論文全文數(shù)據(jù)庫 前8條

1 楊欣;無理由退貨政策下電子商務零售商的退貨策略研究[D];電子科技大學;2015年

2 呂景濤;競爭占優(yōu)的零售商在兩種不同的供貨模式下最優(yōu)策略研究[D];中國科學技術大學;2009年

3 李金霞;隨機環(huán)境下變比例投資的最優(yōu)策略和破產概率[D];南京航空航天大學;2007年

4 馬迎賓;離散空間上兩類游戲的最優(yōu)策略[D];河南師范大學;2011年

5 向紅旭;馬爾科夫經(jīng)濟環(huán)境下保險公司最優(yōu)策略[D];清華大學;2010年

6 楊雁雁;在線性控制下工程投資的最優(yōu)策略及方法[D];華中師范大學;2014年

7 胡小歡;多需求產品的庫存和定價聯(lián)合策略研究[D];北京交通大學;2014年

8 賴明輝;混合制造和再制造系統(tǒng)庫存控制和回收管理動態(tài)協(xié)調優(yōu)化[D];南開大學;2010年

,

本文編號:965043

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/965043.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶f7e6c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com