信息的價值在馬爾可夫決策理論下的應用

發(fā)布時間：2020-07-20 19:10

【摘要】：在過去的幾十年中,隨著經濟理論、通信工程、企業(yè)管理及眾多學科中涉及不確定因素和序列性決策問題的大量新模型的涌現,不確定性環(huán)境下的馬爾可夫決策過程建模理論得到迅速發(fā)展。在人工智能領域,馬爾可夫決策過程是用來建模規(guī)劃決策問題的基本理論模型,也是序貫決策的主要研究領域。自古以來,信息和消除不確定性是相聯系的。在決策過程中,計算信息的價值的目的是引導不確定性環(huán)境下的信息收集過程,提高決策質量,最終實現最優(yōu)決策。本文的研究工作如下:(1)針對一類需要權衡決策質量和成本的最優(yōu)不確定性序貫決策問題,建立了一個全新的決策模型——基于信念的價值決策模型(Belief-Based Value of Information,Belief-VOI),通過信息的價值判斷決策控制中的最優(yōu)停止時間,為收集信息的直接成本和這些信息所能提供給未來決策行為的期望收益之間的平衡提供了分析和解決方案工具。(2)本文把Belief-VOI建模理論應用于眾包任務質量的決策控制中,詳細的推理了建模過程和應用過程,驗證了理論的正確性,說明了在決策問題中判定信息的價值的科學性和現實意義。(3)對于在求解一般馬氏決策模型的最優(yōu)策略時面臨狀態(tài)空間過大的不足,本文針對所提出的Belief-VOI模型的特性,研究了效率更高的近似方法,提出了一種基于信念狀態(tài)的蒙特卡洛采樣方法(BMCT),并說明了這種簡化方式的可行性和實用性。本文對最優(yōu)不確定性序貫決策問題和信息的價值在馬爾可夫決策過程理論下的應用進行了更深入的探索,實現了人工智能技術在決策分析領域的突破。
【學位授予單位】：電子科技大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：C934
【圖文】：

效用值,馬爾可夫過程,最優(yōu)策略,效用函數

在一個多階段決策問題中，效用函數用于評價某一策略。對于整個系統(tǒng)來說個階段的效用之和是這個系統(tǒng)所采取某一策略的效用值。決策的目的就是求以最大化效用函數的最優(yōu)策略，或近似最優(yōu)策略。在一個完整的決策過程中系統(tǒng)的初始狀態(tài)為0s ，最后所采取的策略為p，在系統(tǒng)可獲得的效用值u 用效數V ( s ,p)，最大化效用值表示為：( ) ( ( )) ( )0 0max , ,i iu s V s p p P（2其中，策略ip 被稱為最優(yōu)策略。1.2 馬爾可夫過程理論馬爾可夫過程是一類隨機過程，它是研究離散隨機事件動態(tài)系統(tǒng)的重要方個隨機事件可用隨機變量來描述，一個基礎的離散隨機過程如圖 2-1 所示。假一個離散且隨機的動態(tài)系統(tǒng)中，圖中每個節(jié)點對應一個隨機變量，即在某個時某個狀態(tài)ts ，節(jié)點之間的弧線對應從上一狀態(tài)轉移到下一狀態(tài)的直接概率分時刻t系統(tǒng)轉移到狀態(tài)ts 的條件概率為( )0 1 1Pr | , ,...t ts s s s 。

馬爾可夫決策過程

圖 2-3 基本馬爾可夫決策過程夫決策過程形式上可以被定義成一個四元組 S , A空間，即環(huán)境狀態(tài)的集合；空間，即可選行動的集合; S' → 0， 1 是狀態(tài)轉移函數， ( ) ( )T s ' s , a Pr s ' s ,a 行了行動 a ，系統(tǒng)從狀態(tài) 轉移到狀態(tài) s '的概率；→ 是回報函數，代表在環(huán)境狀態(tài) s 下，Agen回報值（又稱獎賞值）。為了達到長期回報的最大選擇動作，這樣 Agent 在整個過程中的總收益為DP 的狀態(tài)空間和動作空間可以分為離散空間和連值函數的決策，是一個狀態(tài)到動作的映射，:td S → A。，對于所有的時刻t T，其策略用決策序列表示，

馬爾可夫決策過程,部分可觀察

義型可被形式化地定義為一個六元組， S , A, Z , T , O ,R能環(huán)境狀態(tài)的集合，1 2S {s , s ,...}，在第 t 時刻的狀態(tài)世界進行交互的所有可選行動的集合，可表示為 A 一個行動都會影響它所處的下一個狀態(tài)；察的有限集合，表示為1 2Z { z , z ,...}。態(tài)轉移函數，( ) ( )1 1, , ' Pr ' ,t t tT s a s s s s s a a 。它行動a后，系統(tǒng)轉移到狀態(tài) s '的概率；察概率分布函數，( )1( ', , ) Pr ,t t tO s a z z z a a s s 。行動a，隨后在下一時刻t 轉移到狀態(tài) s '后，能夠得率分布函數可以用來模擬現實環(huán)境中的感知過程充滿報函數，與 MDP 一樣，Agent 在任意狀態(tài) s 執(zhí)行一個里假設立即回報值是有界的，min maxR R R 。DP 框架可以用循環(huán)圖表示，如圖 2-4 所示。

【相似文獻】

相關期刊論文前10條

1 張其黎;劉海風;李瓊;宋紅州;張弓木;;氫狀態(tài)方程的路徑積分蒙特卡洛研究[J];計算物理;年期

2 黃介農;寧根福;;追尋雜技走向藝術的夢——記寧根福榮獲蒙特卡洛國際馬戲節(jié)40周年“特殊貢獻獎”[J];雜技與魔術;2016年02期

3 ;第39屆蒙特卡洛國際馬戲節(jié)金獎節(jié)目一覽[J];雜技與魔術;2015年02期

4 ;世界賽車賽歷[J];汽車之友;2017年04期

5 雷宏偉;尹博崴;;別瞧不起“鄉(xiāng)下人” MINI COUNTRYMAN 2.0T COOPER S ALL4旅行家試駕[J];汽車之友;2017年12期

6 曉天;;MINI JOHN COOPER WORKS GP CONCEPT 戰(zhàn)斗版MINI[J];汽車知識;2017年10期

7 宓魯;;彈指揮間二十年(五)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術;2013年06期

8 宓魯;;彈指揮間二十年(三)——我與蒙特卡洛國際馬戲節(jié)的交往[J];雜技與魔術;2013年04期

9 王峰;;驕人的蒙特卡洛國際馬戲節(jié)[J];雜技與魔術;1999年02期

10 ;第23屆蒙特卡洛國際馬戲節(jié)外國節(jié)目風彩[J];雜技與魔術;1999年02期

相關會議論文前10條

1 陳向;王維嘉;魏文領;朱雪耀;;基于蒙特卡洛搜索樹的自動飛行機動[A];2016年航空科學與技術全國博士生學術論壇摘要集[C];2016年

2 楊卓鵬;鄭恒;薛峰;任立明;;基于蒙特卡洛--貝葉斯網絡方法的衛(wèi)星地面站可用性分析[A];第二屆中國衛(wèi)星導航學術年會電子文集[C];2011年

3 郭永輝;翦波;孫海傳;;基于蒙特卡洛的裝備系統(tǒng)可靠性仿真[A];2007系統(tǒng)仿真技術及其應用學術會議論文集[C];2007年

4 程磊;房永智;王剛;;蒙特卡洛計算方法與作戰(zhàn)毀傷模擬決策分析[A];中國系統(tǒng)工程學會決策科學專業(yè)委員會第六屆學術年會論文集[C];2005年

5 康曉巖;陳永義;;一種改進的蒙特卡洛選擇算子[A];中國系統(tǒng)工程學會模糊數學與模糊系統(tǒng)委員會第十一屆年會論文選集[C];2002年

6 營笑;王少永;蔣文亮;金招省;;儀表放大器的容差分析與仿真研究[A];2015航空試驗測試技術學術交流會論文集[C];2015年

7 薛奕達;霍佳震;;供應鏈延遲戰(zhàn)略價值定量分析——蒙特卡洛下的奇異期權估價[A];第三屆（2008）中國管理學年會——會計分會場論文集[C];2008年

8 張s乓

本文編號：2763833

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/lindaojc/2763833.html

上一篇：企業(yè)領導行為對團隊有效性的作用機制研究
下一篇：匹配視角下仁慈領導對員工創(chuàng)造力的影響機制研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

信息的價值在馬爾可夫決策理論下的應用