當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

應(yīng)用于感知決策任務(wù)的策略算法研究

發(fā)布時(shí)間：2024-04-07 19:09

　　強(qiáng)化學(xué)習(xí)是一類通過(guò)與環(huán)境的交互以調(diào)整其策略,從而獲得最多獎(jiǎng)勵(lì)的學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)算法不僅在機(jī)器人和棋類等應(yīng)用問(wèn)題中得到了廣泛的應(yīng)用,近來(lái)還常用于對(duì)人的行為和決策進(jìn)行建模。尤其是,大腦中多巴胺神經(jīng)元的發(fā)放與強(qiáng)化學(xué)習(xí)算法中的估計(jì)誤差具有相同的變化模式,許多學(xué)者甚至推測(cè)大腦在求解決策問(wèn)題時(shí)可能采用了與強(qiáng)化學(xué)習(xí)類似的算法。然而,按照經(jīng)典強(qiáng)化學(xué)習(xí)的決策結(jié)果往往會(huì)獲得最佳的收益,而許多的行為實(shí)驗(yàn)卻表明動(dòng)物或者人類的決策并非完全理性。盡管可以通過(guò)調(diào)整強(qiáng)化學(xué)習(xí)算法中如學(xué)習(xí)率等參數(shù)來(lái)擬合非理性的行為數(shù)據(jù),但當(dāng)決策結(jié)果同時(shí)存在理性和非理性的結(jié)果時(shí),簡(jiǎn)單通過(guò)調(diào)整參數(shù)的方法在擬合行為數(shù)據(jù)時(shí)就變得異常困難。因此,需要通過(guò)設(shè)計(jì)新的強(qiáng)化學(xué)習(xí)算法來(lái)解釋在執(zhí)行感知決策任務(wù)時(shí),為何其行為可同時(shí)存在理性(最優(yōu))和非理性(次優(yōu))這兩種模式。通過(guò)擬合行為數(shù)據(jù)從而拓展出新的強(qiáng)化學(xué)習(xí)算法,不僅能為大腦的決策計(jì)算方式提供新的建模工具,還能為設(shè)計(jì)新的強(qiáng)化學(xué)習(xí)算法提供重要參考。本研究基于強(qiáng)化學(xué)習(xí)的策略梯度算法,設(shè)計(jì)了兩類能在感知決策任務(wù)中同時(shí)滿足理性和非理性決策結(jié)果的策略算法,并通過(guò)對(duì)比分析策略算法與人類在執(zhí)行相同的感知決策任務(wù)時(shí)數(shù)據(jù)的...

【文章頁(yè)數(shù)】：102 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖１－２決策任務(wù)＾??Ｆｉｇｕｒｅ?１－２．?Ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋ??

支持非理性決策的理論除了匹配律之外，還有概率匹配［５６］。其中，概率學(xué)習(xí)??任務(wù)常用于檢測(cè)人類的非理性行為。例如，２０１７年，ＳｉｌｖａｔＭ根據(jù)概率學(xué)習(xí)任務(wù)設(shè)??計(jì)了一個(gè)實(shí)驗(yàn)（如圖１－２所示），要求被試童復(fù)地在黑色球會(huì)出現(xiàn)在左側(cè)（按Ｌ鍵）??還是右側(cè)（按Ｒ鍵）的框內(nèi)做出選擇，并且....

圖1一論文組織結(jié)構(gòu)圖

鷹用予感知決策住務(wù)的策略算法研．究??Ｈ章，提出了一個(gè)受獎(jiǎng)勵(lì)調(diào)制的策略參數(shù)算法。該箅法從目標(biāo)函數(shù)導(dǎo)得到，策略參數(shù)包括獎(jiǎng)勵(lì)和經(jīng)驗(yàn)兩個(gè)組成部分。利用該算法證明單階段決策任務(wù)時(shí)，獎(jiǎng)勵(lì)會(huì)通過(guò)提取不同的經(jīng)驗(yàn)值來(lái)形成決策。按的決策結(jié)果即可是獲得最佳收益的理性決策，也可是獲得次優(yōu)的非四章，提出....

圖2一時(shí)間差分預(yù)測(cè)誤差與多巴胺能神經(jīng)元發(fā)放的比較[l4州

浙江工業(yè)大學(xué)碩士學(xué)位論文得獎(jiǎng)勵(lì)后，這種多巴胺神經(jīng)元的激活就停止了。類似地，囡為提示本勵(lì)，所以在訓(xùn)練之前不應(yīng)該導(dǎo)致預(yù)測(cè)誤差。低是在訓(xùn)練之后，—且它值（即Ｆ（ｃｗｅ）＞０），這種意外出現(xiàn)的提示就應(yīng)該會(huì)產(chǎn)生預(yù)測(cè)誤差（?ｆＦ（ｃｗｅ）?－?Ｆ（？ｏｃｗｅ）?＝?ｆＦ（ｃｗｅ）?＞?０），....

圖３－２單階段決策任務(wù)的用例圖??Ｆｉｇｕｒｅ?３－２．?Ｕｓｅ?ｃａｓｅ?ｏｆ?ｓｉｎｇｌｅ－ｓｔａｇｅ?ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋｓ??

化鍵?數(shù)數(shù)??圖３－１單階段決策任務(wù)的功能設(shè)計(jì)圖??Ｆｉｇｕｒｅ?３－１．?Ｆｕｎｃｔｉｏｎａｌ?ｄｅｓｉｇｎ?ｄｉａｇｒａｍ?ｏｆ?ｓｉｎｇｌｅ－ｓｔａｇｅ?ｄｅｃｉｓｉｏｎ－ｍａｋｉｎｇ?ｔａｓｋｓ??根據(jù)上述的功能設(shè)計(jì)，以下將用用例圖與活動(dòng)圖對(duì)該決策任務(wù)的主要功能進(jìn)??行詳....

本文編號(hào)：3947834

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3947834.html

上一篇：基于電渦流的板形檢測(cè)
下一篇：數(shù)控機(jī)床位置伺服系統(tǒng)的控制研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

應(yīng)用于感知決策任務(wù)的策略算法研究