一種基于最優(yōu)策略概率分布的POMDP值迭代算法
本文關鍵詞:一種基于最優(yōu)策略概率分布的POMDP值迭代算法
更多相關文章: 部分可觀測馬爾科夫決策過程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法
【摘要】:隨著應用中POMDP問題的規(guī)模不斷擴大,基于最優(yōu)策略可達區(qū)域的啟發(fā)式方法成為了目前的研究熱點.然而目前已有的算法雖然保證了全局最優(yōu),但選擇最優(yōu)動作還不夠精確,影響了算法的效率.本文提出一種基于最優(yōu)策略概率的值迭代方法 PBVIOP.該方法在深度優(yōu)先的啟發(fā)式探索中,根據(jù)各個動作值函數(shù)在其上界和下界之間的分布,用蒙特卡羅法計算動作最優(yōu)的概率,選擇概率最大的動作作為最優(yōu)探索策略.在4個基準問題上的實驗結果表明PBVIOP算法能夠收斂到全局最優(yōu)解,并明顯提高了收斂效率.
【作者單位】: 南京大學軟件學院;南京大學軟件新技術國家重點實驗室;南京大學計算機科學與技術系;
【關鍵詞】: 部分可觀測馬爾科夫決策過程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法
【基金】:國家自然科學基金(No.61375069) 江蘇省自然科學基金(No.BK20131277)
【分類號】:TP18
【正文快照】: 3.南京大學軟件新技術國家重點實驗室,江蘇南京210093)1引言規(guī)劃問題,即“設計合理的行動計劃以達到個體目標”[1],是人工智能研究里的重要領域.序列決策問題(Sequential Decision Making)是規(guī)劃問題的一個重要子領域.而動態(tài)不確定性環(huán)境下的行動規(guī)劃是其中的熱點,其動態(tài)性和
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 張子寧;單甘霖;段修生;;基于部分可觀馬氏決策過程的多平臺主被動傳感器調度[J];電子學報;2014年10期
2 章宗長;陳小平;;雜合啟發(fā)式在線POMDP規(guī)劃[J];軟件學報;2013年07期
3 趙二虎;陽小龍;彭云峰;隆克平;;CPSM:一種增強IP網(wǎng)絡生存性的客戶端主動服務漂移模型[J];電子學報;2010年09期
4 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進化算法的強化學習[J];電子學報;2006年07期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 劉峰;王崇駿;駱斌;;一種基于最優(yōu)策略概率分布的POMDP值迭代算法[J];電子學報;2016年05期
2 陳天平;孟相如;崔文巖;許媛;;基于網(wǎng)絡可生存性態(tài)勢感知的主動服務漂移模型[J];空軍工程大學學報(自然科學版);2015年06期
3 徐偉剛;;基于網(wǎng)絡信息流的自適應MWM模型研究[J];西南師范大學學報(自然科學版);2015年09期
4 仵博;鄭紅燕;馮延蓬;陳鑫;;一種基于模型的可分解貝葉斯在線強化學習[J];電子學報;2014年07期
5 趙攀;;考慮螢火蟲群的網(wǎng)絡生存性計算方法[J];遼寧工程技術大學學報(自然科學版);2014年03期
6 趙攀;魏正曦;張弘;;基于混合蛙跳的網(wǎng)絡生存性計算方法[J];計算機工程與設計;2013年11期
7 趙攀;魏正曦;張弘;;網(wǎng)絡生存性計算方法以及性能評價[J];計算機應用;2013年10期
8 朱麗娜;吳慶濤;婁穎;鄭瑞娟;;基于自律計算的系統(tǒng)服務可信性自優(yōu)化方法[J];微電子學與計算機;2013年08期
9 焦玉民;王強;徐婷;謝慶華;王海濤;;基于GA-Q-learning算法的虛擬維修作業(yè)規(guī)劃模型[J];兵工學報;2013年05期
10 張玉州;李銳;江克勤;程玉勝;王一賓;;基于自適應多局部搜索memetic算法的多跑道地面等待問題求解[J];系統(tǒng)工程理論與實踐;2012年11期
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程洪瑋;王博;安瑋;;一種基于信息決策樹的低軌星座傳感器調度方法[J];電子學報;2010年11期
2 錢X;馬旭東;戴先中;房芳;;預測行人運動的服務機器人POMDP導航[J];機器人;2010年01期
3 卞愛華;王崇駿;陳世福;;基于點的POMDP算法的預處理方法[J];軟件學報;2008年06期
4 洪小亮;郭義喜;;服務漂移機制的研究[J];信息工程大學學報;2008年01期
5 蘇璞睿;馮登國;;基于進程行為的異常檢測模型[J];電子學報;2006年10期
6 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進化算法的強化學習[J];電子學報;2006年07期
7 李響,陳小平;一種動態(tài)不確定性環(huán)境中的持續(xù)規(guī)劃系統(tǒng)[J];計算機學報;2005年07期
8 黃遵國,盧錫城,胡華平;生存能力技術及其實現(xiàn)案例研究[J];通信學報;2004年07期
9 劉敏華,蕭德云;基于相似度的多傳感器數(shù)據(jù)融合[J];控制與決策;2004年05期
10 周文輝,胡衛(wèi)東,余安喜,郁文賢;基于協(xié)方差控制的集中式傳感器分配算法研究[J];電子學報;2003年S1期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳漢生;;一類定量微分對策理論中最優(yōu)策略的算法及其收斂性[J];自動化學報;1992年02期
2 黃小原;縣級宏觀經(jīng)濟系統(tǒng)的最優(yōu)策略[J];控制與決策;1987年03期
3 姜愛林;兩化并進 工業(yè)化與信息化協(xié)調發(fā)展的最優(yōu)策略[J];科技成果縱橫;2004年03期
4 袁開福;高陽;;周期盤點庫存系統(tǒng)的制造與再制造最優(yōu)策略[J];計算機集成制造系統(tǒng);2010年02期
5 曾慶寧;;折扣多目標馬氏決策規(guī)劃的兩種模糊最優(yōu)策略[J];西安電子科技大學學報;1989年01期
6 曾慶寧;;DMOMDP及其П_m~d與П_S~d優(yōu)勢[J];桂林電子工業(yè)學院學報;1989年01期
7 陳向勇;井元偉;李春吉;劉曉平;;一種基于Lanchester方程的交戰(zhàn)取勝最優(yōu)策略[J];控制與決策;2011年06期
8 張瑞振;楚巖楓;;基于服務溢出效應下的弱勢零售商競爭策略研究[J];電子商務;2014年05期
9 王進才;;有限資源條件下新裝備維修保障最優(yōu)策略研究[J];電子產品可靠性與環(huán)境試驗;2008年06期
10 奚飛;周永務;;基于固定分割的庫存路徑問題最優(yōu)策略[J];系統(tǒng)工程與電子技術;2009年10期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 謝益民;鄭應平;;部分觀測的兩并行不同服務臺路徑最優(yōu)策略[A];1991年控制理論及其應用年會論文集(上)[C];1991年
2 高永;向錦武;;多目標火力分配的系統(tǒng)動力學模擬[A];中國系統(tǒng)仿真學會第五次全國會員代表大會暨2006年全國學術年會論文集[C];2006年
3 霍沛軍;陳繼祥;宣國良;;在企業(yè)具有單位成本優(yōu)勢時的最優(yōu)事后許可策略[A];面向復雜系統(tǒng)的管理理論與信息系統(tǒng)技術學術會議專輯[C];2000年
4 張榮;;競爭性及兼容性條件下軟件公司對公共品投資的最優(yōu)策略[A];第十屆中國青年信息與管理學者大會論文集[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前7條
1 黃達強 浙江大學經(jīng)濟學院、浙江大學跨學科社會科學研究中心;有效利用他人憤怒情緒可形成最優(yōu)策略[N];中國社會科學報;2014年
2 本報記者 朱茵;等待是當下最優(yōu)策略[N];中國證券報;2012年
3 富國基金管理公司;基金投資的最優(yōu)策略:選擇績優(yōu)基金+買入長期持有[N];上海證券報;2007年
4 阿琪;目前最優(yōu)策略是防御性進攻[N];上海證券報;2014年
5 ;政府官員能否談論“升官發(fā)財”?[N];工人日報;2004年
6 主持人 本報記者 朱茵;8月:等待是最優(yōu)策略[N];中國證券報;2012年
7 記者 潘圣韜;申銀萬國:等待是當前最優(yōu)策略[N];上海證券報;2012年
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 陳李鋼;基于贊助搜索的關鍵字廣告最優(yōu)策略研究[D];哈爾濱工業(yè)大學;2011年
2 高春燕;不確定性對生產庫存系統(tǒng)運營策略和績效的影響分析[D];南京大學;2011年
中國碩士學位論文全文數(shù)據(jù)庫 前8條
1 楊欣;無理由退貨政策下電子商務零售商的退貨策略研究[D];電子科技大學;2015年
2 呂景濤;競爭占優(yōu)的零售商在兩種不同的供貨模式下最優(yōu)策略研究[D];中國科學技術大學;2009年
3 李金霞;隨機環(huán)境下變比例投資的最優(yōu)策略和破產概率[D];南京航空航天大學;2007年
4 馬迎賓;離散空間上兩類游戲的最優(yōu)策略[D];河南師范大學;2011年
5 向紅旭;馬爾科夫經(jīng)濟環(huán)境下保險公司最優(yōu)策略[D];清華大學;2010年
6 楊雁雁;在線性控制下工程投資的最優(yōu)策略及方法[D];華中師范大學;2014年
7 胡小歡;多需求產品的庫存和定價聯(lián)合策略研究[D];北京交通大學;2014年
8 賴明輝;混合制造和再制造系統(tǒng)庫存控制和回收管理動態(tài)協(xié)調優(yōu)化[D];南開大學;2010年
,本文編號:965043
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/965043.html