一種基于最優(yōu)策略概率分布的POMDP值迭代算法
本文關(guān)鍵詞:一種基于最優(yōu)策略概率分布的POMDP值迭代算法
更多相關(guān)文章: 部分可觀測(cè)馬爾科夫決策過(guò)程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法
【摘要】:隨著應(yīng)用中POMDP問(wèn)題的規(guī)模不斷擴(kuò)大,基于最優(yōu)策略可達(dá)區(qū)域的啟發(fā)式方法成為了目前的研究熱點(diǎn).然而目前已有的算法雖然保證了全局最優(yōu),但選擇最優(yōu)動(dòng)作還不夠精確,影響了算法的效率.本文提出一種基于最優(yōu)策略概率的值迭代方法 PBVIOP.該方法在深度優(yōu)先的啟發(fā)式探索中,根據(jù)各個(gè)動(dòng)作值函數(shù)在其上界和下界之間的分布,用蒙特卡羅法計(jì)算動(dòng)作最優(yōu)的概率,選擇概率最大的動(dòng)作作為最優(yōu)探索策略.在4個(gè)基準(zhǔn)問(wèn)題上的實(shí)驗(yàn)結(jié)果表明PBVIOP算法能夠收斂到全局最優(yōu)解,并明顯提高了收斂效率.
【作者單位】: 南京大學(xué)軟件學(xué)院;南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室;南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系;
【關(guān)鍵詞】: 部分可觀測(cè)馬爾科夫決策過(guò)程 基于最優(yōu)策略概率的值迭代算法 蒙特卡羅法
【基金】:國(guó)家自然科學(xué)基金(No.61375069) 江蘇省自然科學(xué)基金(No.BK20131277)
【分類號(hào)】:TP18
【正文快照】: 3.南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇南京210093)1引言規(guī)劃問(wèn)題,即“設(shè)計(jì)合理的行動(dòng)計(jì)劃以達(dá)到個(gè)體目標(biāo)”[1],是人工智能研究里的重要領(lǐng)域.序列決策問(wèn)題(Sequential Decision Making)是規(guī)劃問(wèn)題的一個(gè)重要子領(lǐng)域.而動(dòng)態(tài)不確定性環(huán)境下的行動(dòng)規(guī)劃是其中的熱點(diǎn),其動(dòng)態(tài)性和
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 張子寧;單甘霖;段修生;;基于部分可觀馬氏決策過(guò)程的多平臺(tái)主被動(dòng)傳感器調(diào)度[J];電子學(xué)報(bào);2014年10期
2 章宗長(zhǎng);陳小平;;雜合啟發(fā)式在線POMDP規(guī)劃[J];軟件學(xué)報(bào);2013年07期
3 趙二虎;陽(yáng)小龍;彭云峰;隆克平;;CPSM:一種增強(qiáng)IP網(wǎng)絡(luò)生存性的客戶端主動(dòng)服務(wù)漂移模型[J];電子學(xué)報(bào);2010年09期
4 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進(jìn)化算法的強(qiáng)化學(xué)習(xí)[J];電子學(xué)報(bào);2006年07期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 劉峰;王崇駿;駱斌;;一種基于最優(yōu)策略概率分布的POMDP值迭代算法[J];電子學(xué)報(bào);2016年05期
2 陳天平;孟相如;崔文巖;許媛;;基于網(wǎng)絡(luò)可生存性態(tài)勢(shì)感知的主動(dòng)服務(wù)漂移模型[J];空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年06期
3 徐偉剛;;基于網(wǎng)絡(luò)信息流的自適應(yīng)MWM模型研究[J];西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年09期
4 仵博;鄭紅燕;馮延蓬;陳鑫;;一種基于模型的可分解貝葉斯在線強(qiáng)化學(xué)習(xí)[J];電子學(xué)報(bào);2014年07期
5 趙攀;;考慮螢火蟲群的網(wǎng)絡(luò)生存性計(jì)算方法[J];遼寧工程技術(shù)大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年03期
6 趙攀;魏正曦;張弘;;基于混合蛙跳的網(wǎng)絡(luò)生存性計(jì)算方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年11期
7 趙攀;魏正曦;張弘;;網(wǎng)絡(luò)生存性計(jì)算方法以及性能評(píng)價(jià)[J];計(jì)算機(jī)應(yīng)用;2013年10期
8 朱麗娜;吳慶濤;婁穎;鄭瑞娟;;基于自律計(jì)算的系統(tǒng)服務(wù)可信性自優(yōu)化方法[J];微電子學(xué)與計(jì)算機(jī);2013年08期
9 焦玉民;王強(qiáng);徐婷;謝慶華;王海濤;;基于GA-Q-learning算法的虛擬維修作業(yè)規(guī)劃模型[J];兵工學(xué)報(bào);2013年05期
10 張玉州;李銳;江克勤;程玉勝;王一賓;;基于自適應(yīng)多局部搜索memetic算法的多跑道地面等待問(wèn)題求解[J];系統(tǒng)工程理論與實(shí)踐;2012年11期
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 程洪瑋;王博;安瑋;;一種基于信息決策樹的低軌星座傳感器調(diào)度方法[J];電子學(xué)報(bào);2010年11期
2 錢X;馬旭東;戴先中;房芳;;預(yù)測(cè)行人運(yùn)動(dòng)的服務(wù)機(jī)器人POMDP導(dǎo)航[J];機(jī)器人;2010年01期
3 卞愛華;王崇駿;陳世福;;基于點(diǎn)的POMDP算法的預(yù)處理方法[J];軟件學(xué)報(bào);2008年06期
4 洪小亮;郭義喜;;服務(wù)漂移機(jī)制的研究[J];信息工程大學(xué)學(xué)報(bào);2008年01期
5 蘇璞睿;馮登國(guó);;基于進(jìn)程行為的異常檢測(cè)模型[J];電子學(xué)報(bào);2006年10期
6 劉海濤;洪炳熔;樸松昊;王雪梅;;不確定性環(huán)境下基于進(jìn)化算法的強(qiáng)化學(xué)習(xí)[J];電子學(xué)報(bào);2006年07期
7 李響,陳小平;一種動(dòng)態(tài)不確定性環(huán)境中的持續(xù)規(guī)劃系統(tǒng)[J];計(jì)算機(jī)學(xué)報(bào);2005年07期
8 黃遵國(guó),盧錫城,胡華平;生存能力技術(shù)及其實(shí)現(xiàn)案例研究[J];通信學(xué)報(bào);2004年07期
9 劉敏華,蕭德云;基于相似度的多傳感器數(shù)據(jù)融合[J];控制與決策;2004年05期
10 周文輝,胡衛(wèi)東,余安喜,郁文賢;基于協(xié)方差控制的集中式傳感器分配算法研究[J];電子學(xué)報(bào);2003年S1期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 吳漢生;;一類定量微分對(duì)策理論中最優(yōu)策略的算法及其收斂性[J];自動(dòng)化學(xué)報(bào);1992年02期
2 黃小原;縣級(jí)宏觀經(jīng)濟(jì)系統(tǒng)的最優(yōu)策略[J];控制與決策;1987年03期
3 姜愛林;兩化并進(jìn) 工業(yè)化與信息化協(xié)調(diào)發(fā)展的最優(yōu)策略[J];科技成果縱橫;2004年03期
4 袁開福;高陽(yáng);;周期盤點(diǎn)庫(kù)存系統(tǒng)的制造與再制造最優(yōu)策略[J];計(jì)算機(jī)集成制造系統(tǒng);2010年02期
5 曾慶寧;;折扣多目標(biāo)馬氏決策規(guī)劃的兩種模糊最優(yōu)策略[J];西安電子科技大學(xué)學(xué)報(bào);1989年01期
6 曾慶寧;;DMOMDP及其П_m~d與П_S~d優(yōu)勢(shì)[J];桂林電子工業(yè)學(xué)院學(xué)報(bào);1989年01期
7 陳向勇;井元偉;李春吉;劉曉平;;一種基于Lanchester方程的交戰(zhàn)取勝最優(yōu)策略[J];控制與決策;2011年06期
8 張瑞振;楚巖楓;;基于服務(wù)溢出效應(yīng)下的弱勢(shì)零售商競(jìng)爭(zhēng)策略研究[J];電子商務(wù);2014年05期
9 王進(jìn)才;;有限資源條件下新裝備維修保障最優(yōu)策略研究[J];電子產(chǎn)品可靠性與環(huán)境試驗(yàn);2008年06期
10 奚飛;周永務(wù);;基于固定分割的庫(kù)存路徑問(wèn)題最優(yōu)策略[J];系統(tǒng)工程與電子技術(shù);2009年10期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 謝益民;鄭應(yīng)平;;部分觀測(cè)的兩并行不同服務(wù)臺(tái)路徑最優(yōu)策略[A];1991年控制理論及其應(yīng)用年會(huì)論文集(上)[C];1991年
2 高永;向錦武;;多目標(biāo)火力分配的系統(tǒng)動(dòng)力學(xué)模擬[A];中國(guó)系統(tǒng)仿真學(xué)會(huì)第五次全國(guó)會(huì)員代表大會(huì)暨2006年全國(guó)學(xué)術(shù)年會(huì)論文集[C];2006年
3 霍沛軍;陳繼祥;宣國(guó)良;;在企業(yè)具有單位成本優(yōu)勢(shì)時(shí)的最優(yōu)事后許可策略[A];面向復(fù)雜系統(tǒng)的管理理論與信息系統(tǒng)技術(shù)學(xué)術(shù)會(huì)議專輯[C];2000年
4 張榮;;競(jìng)爭(zhēng)性及兼容性條件下軟件公司對(duì)公共品投資的最優(yōu)策略[A];第十屆中國(guó)青年信息與管理學(xué)者大會(huì)論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前7條
1 黃達(dá)強(qiáng) 浙江大學(xué)經(jīng)濟(jì)學(xué)院、浙江大學(xué)跨學(xué)科社會(huì)科學(xué)研究中心;有效利用他人憤怒情緒可形成最優(yōu)策略[N];中國(guó)社會(huì)科學(xué)報(bào);2014年
2 本報(bào)記者 朱茵;等待是當(dāng)下最優(yōu)策略[N];中國(guó)證券報(bào);2012年
3 富國(guó)基金管理公司;基金投資的最優(yōu)策略:選擇績(jī)優(yōu)基金+買入長(zhǎng)期持有[N];上海證券報(bào);2007年
4 阿琪;目前最優(yōu)策略是防御性進(jìn)攻[N];上海證券報(bào);2014年
5 ;政府官員能否談?wù)摗吧侔l(fā)財(cái)”?[N];工人日?qǐng)?bào);2004年
6 主持人 本報(bào)記者 朱茵;8月:等待是最優(yōu)策略[N];中國(guó)證券報(bào);2012年
7 記者 潘圣韜;申銀萬(wàn)國(guó):等待是當(dāng)前最優(yōu)策略[N];上海證券報(bào);2012年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 陳李鋼;基于贊助搜索的關(guān)鍵字廣告最優(yōu)策略研究[D];哈爾濱工業(yè)大學(xué);2011年
2 高春燕;不確定性對(duì)生產(chǎn)庫(kù)存系統(tǒng)運(yùn)營(yíng)策略和績(jī)效的影響分析[D];南京大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 楊欣;無(wú)理由退貨政策下電子商務(wù)零售商的退貨策略研究[D];電子科技大學(xué);2015年
2 呂景濤;競(jìng)爭(zhēng)占優(yōu)的零售商在兩種不同的供貨模式下最優(yōu)策略研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
3 李金霞;隨機(jī)環(huán)境下變比例投資的最優(yōu)策略和破產(chǎn)概率[D];南京航空航天大學(xué);2007年
4 馬迎賓;離散空間上兩類游戲的最優(yōu)策略[D];河南師范大學(xué);2011年
5 向紅旭;馬爾科夫經(jīng)濟(jì)環(huán)境下保險(xiǎn)公司最優(yōu)策略[D];清華大學(xué);2010年
6 楊雁雁;在線性控制下工程投資的最優(yōu)策略及方法[D];華中師范大學(xué);2014年
7 胡小歡;多需求產(chǎn)品的庫(kù)存和定價(jià)聯(lián)合策略研究[D];北京交通大學(xué);2014年
8 賴明輝;混合制造和再制造系統(tǒng)庫(kù)存控制和回收管理動(dòng)態(tài)協(xié)調(diào)優(yōu)化[D];南開大學(xué);2010年
,本文編號(hào):965043
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/965043.html