信息的價值在馬爾可夫決策理論下的應用
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:C934
【圖文】:
在一個多階段決策問題中,效用函數用于評價某一策略。對于整個系統(tǒng)來說個階段的效用之和是這個系統(tǒng)所采取某一策略的效用值。決策的目的就是求以最大化效用函數的最優(yōu)策略,或近似最優(yōu)策略。在一個完整的決策過程中系統(tǒng)的初始狀態(tài)為0s ,最后所采取的策略為p,在系統(tǒng)可獲得的效用值u 用效數V ( s ,p),最大化效用值表示為:( ) ( ( )) ( )0 0max , ,i iu s V s p p P(2其中,策略ip 被稱為最優(yōu)策略。1.2 馬爾可夫過程理論馬爾可夫過程是一類隨機過程,它是研究離散隨機事件動態(tài)系統(tǒng)的重要方個隨機事件可用隨機變量來描述,一個基礎的離散隨機過程如圖 2-1 所示。假一個離散且隨機的動態(tài)系統(tǒng)中,圖中每個節(jié)點對應一個隨機變量,即在某個時某個狀態(tài)ts ,節(jié)點之間的弧線對應從上一狀態(tài)轉移到下一狀態(tài)的直接概率分時刻t系統(tǒng)轉移到狀態(tài)ts 的條件概率為( )0 1 1Pr | , ,...t ts s s s 。
圖 2-3 基本馬爾可夫決策過程夫決策過程形式上可以被定義成一個四元組 S , A空間,即環(huán)境狀態(tài)的集合;空間,即可選行動的集合; S' → 0, 1 是狀態(tài)轉移函數, ( ) ( )T s ' s , a Pr s ' s ,a 行了行動 a ,系統(tǒng)從狀態(tài) 轉移到狀態(tài) s '的概率;→ 是回報函數,代表在環(huán)境狀態(tài) s 下,Agen回報值(又稱獎賞值)。為了達到長期回報的最大選擇動作,這樣 Agent 在整個過程中的總收益為DP 的狀態(tài)空間和動作空間可以分為離散空間和連值函數的決策,是一個狀態(tài)到動作的映射,:td S → A。,對于所有的時刻t T,其策略用決策序列表示,
義型可被形式化地定義為一個六元組, S , A, Z , T , O ,R能環(huán)境狀態(tài)的集合,1 2S {s , s ,...},在第 t 時刻的狀態(tài)世界進行交互的所有可選行動的集合,可表示為 A 一個行動都會影響它所處的下一個狀態(tài);察的有限集合,表示為1 2Z { z , z ,...}。態(tài)轉移函數,( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行動a后,系統(tǒng)轉移到狀態(tài) s '的概率;察概率分布函數,( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行動a,隨后在下一時刻t 轉移到狀態(tài) s '后,能夠得率分布函數可以用來模擬現實環(huán)境中的感知過程充滿報函數,與 MDP 一樣,Agent 在任意狀態(tài) s 執(zhí)行一個里假設立即回報值是有界的,min maxR R R 。DP 框架可以用循環(huán)圖表示,如圖 2-4 所示。
【相似文獻】
相關期刊論文 前10條
1 張其黎;劉海風;李瓊;宋紅州;張弓木;;氫狀態(tài)方程的路徑積分蒙特卡洛研究[J];計算物理;年期
2 黃介農;寧根福;;追尋雜技走向藝術的夢——記寧根福榮獲蒙特卡洛國際馬戲節(jié)40周年“特殊貢獻獎”[J];雜技與魔術;2016年02期
3 ;第39屆蒙特卡洛國際馬戲節(jié)金獎節(jié)目一覽[J];雜技與魔術;2015年02期
4 ;世界賽車賽歷[J];汽車之友;2017年04期
5 雷宏偉;尹博崴;;別瞧不起“鄉(xiāng)下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家試駕[J];汽車之友;2017年12期
6 曉天;;MINI JOHN COOPER WORKS GP CONCEPT 戰(zhàn)斗版MINI[J];汽車知識;2017年10期
7 宓魯;;彈指揮間二十年(五)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術;2013年06期
8 宓魯;;彈指揮間二十年(三)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術;2013年04期
9 王峰;;驕人的蒙特卡洛國際馬戲節(jié)[J];雜技與魔術;1999年02期
10 ;第23屆蒙特卡洛國際馬戲節(jié)外國節(jié)目風彩[J];雜技與魔術;1999年02期
相關會議論文 前10條
1 陳向;王維嘉;魏文領;朱雪耀;;基于蒙特卡洛搜索樹的自動飛行機動[A];2016年航空科學與技術全國博士生學術論壇摘要集[C];2016年
2 楊卓鵬;鄭恒;薛峰;任立明;;基于蒙特卡洛--貝葉斯網絡方法的衛(wèi)星地面站可用性分析[A];第二屆中國衛(wèi)星導航學術年會電子文集[C];2011年
3 郭永輝;翦波;孫海傳;;基于蒙特卡洛的裝備系統(tǒng)可靠性仿真[A];2007系統(tǒng)仿真技術及其應用學術會議論文集[C];2007年
4 程磊;房永智;王剛;;蒙特卡洛計算方法與作戰(zhàn)毀傷模擬決策分析[A];中國系統(tǒng)工程學會決策科學專業(yè)委員會第六屆學術年會論文集[C];2005年
5 康曉巖;陳永義;;一種改進的蒙特卡洛選擇算子[A];中國系統(tǒng)工程學會模糊數學與模糊系統(tǒng)委員會第十一屆年會論文選集[C];2002年
6 營笑;王少永;蔣文亮;金招省;;儀表放大器的容差分析與仿真研究[A];2015航空試驗測試技術學術交流會論文集[C];2015年
7 薛奕達;霍佳震;;供應鏈延遲戰(zhàn)略價值定量分析——蒙特卡洛下的奇異期權估價[A];第三屆(2008)中國管理學年會——會計分會場論文集[C];2008年
8 張s乓
本文編號:2763833
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/2763833.html