天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

應(yīng)用于感知決策任務(wù)的策略算法研究

發(fā)布時(shí)間:2024-04-07 19:09
  強(qiáng)化學(xué)習(xí)是一類通過(guò)與環(huán)境的交互以調(diào)整其策略,從而獲得最多獎(jiǎng)勵(lì)的學(xué)習(xí)算法。強(qiáng)化學(xué)習(xí)算法不僅在機(jī)器人和棋類等應(yīng)用問(wèn)題中得到了廣泛的應(yīng)用,近來(lái)還常用于對(duì)人的行為和決策進(jìn)行建模。尤其是,大腦中多巴胺神經(jīng)元的發(fā)放與強(qiáng)化學(xué)習(xí)算法中的估計(jì)誤差具有相同的變化模式,許多學(xué)者甚至推測(cè)大腦在求解決策問(wèn)題時(shí)可能采用了與強(qiáng)化學(xué)習(xí)類似的算法。然而,按照經(jīng)典強(qiáng)化學(xué)習(xí)的決策結(jié)果往往會(huì)獲得最佳的收益,而許多的行為實(shí)驗(yàn)卻表明動(dòng)物或者人類的決策并非完全理性。盡管可以通過(guò)調(diào)整強(qiáng)化學(xué)習(xí)算法中如學(xué)習(xí)率等參數(shù)來(lái)擬合非理性的行為數(shù)據(jù),但當(dāng)決策結(jié)果同時(shí)存在理性和非理性的結(jié)果時(shí),簡(jiǎn)單通過(guò)調(diào)整參數(shù)的方法在擬合行為數(shù)據(jù)時(shí)就變得異常困難。因此,需要通過(guò)設(shè)計(jì)新的強(qiáng)化學(xué)習(xí)算法來(lái)解釋在執(zhí)行感知決策任務(wù)時(shí),為何其行為可同時(shí)存在理性(最優(yōu))和非理性(次優(yōu))這兩種模式。通過(guò)擬合行為數(shù)據(jù)從而拓展出新的強(qiáng)化學(xué)習(xí)算法,不僅能為大腦的決策計(jì)算方式提供新的建模工具,還能為設(shè)計(jì)新的強(qiáng)化學(xué)習(xí)算法提供重要參考。本研究基于強(qiáng)化學(xué)習(xí)的策略梯度算法,設(shè)計(jì)了兩類能在感知決策任務(wù)中同時(shí)滿足理性和非理性決策結(jié)果的策略算法,并通過(guò)對(duì)比分析策略算法與人類在執(zhí)行相同的感知決策任務(wù)時(shí)數(shù)據(jù)的...

【文章頁(yè)數(shù)】:102 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1-2決策任務(wù)^??Figure?1-2.?Decision-making?task??

圖1-2決策任務(wù)^??Figure?1-2.?Decision-making?task??

支持非理性決策的理論除了匹配律之外,還有概率匹配[56]。其中,概率學(xué)習(xí)??任務(wù)常用于檢測(cè)人類的非理性行為。例如,2017年,SilvatM根據(jù)概率學(xué)習(xí)任務(wù)設(shè)??計(jì)了一個(gè)實(shí)驗(yàn)(如圖1-2所示),要求被試童復(fù)地在黑色球會(huì)出現(xiàn)在左側(cè)(按L鍵)??還是右側(cè)(按R鍵)的框內(nèi)做出選擇,并且....


圖1一論文組織結(jié)構(gòu)圖

圖1一論文組織結(jié)構(gòu)圖

鷹用予感知決策住務(wù)的策略算法研.究??H章,提出了一個(gè)受獎(jiǎng)勵(lì)調(diào)制的策略參數(shù)算法。該箅法從目標(biāo)函數(shù)導(dǎo)得到,策略參數(shù)包括獎(jiǎng)勵(lì)和經(jīng)驗(yàn)兩個(gè)組成部分。利用該算法證明單階段決策任務(wù)時(shí),獎(jiǎng)勵(lì)會(huì)通過(guò)提取不同的經(jīng)驗(yàn)值來(lái)形成決策。按的決策結(jié)果即可是獲得最佳收益的理性決策,也可是獲得次優(yōu)的非四章,提出....


圖2一時(shí)間差分預(yù)測(cè)誤差與多巴胺能神經(jīng)元發(fā)放的比較[l4州

圖2一時(shí)間差分預(yù)測(cè)誤差與多巴胺能神經(jīng)元發(fā)放的比較[l4州

浙江工業(yè)大學(xué)碩士學(xué)位論文得獎(jiǎng)勵(lì)后,這種多巴胺神經(jīng)元的激活就停止了。類似地,囡為提示本勵(lì),所以在訓(xùn)練之前不應(yīng)該導(dǎo)致預(yù)測(cè)誤差。低是在訓(xùn)練之后,—且它值(即F(cwe)>0),這種意外出現(xiàn)的提示就應(yīng)該會(huì)產(chǎn)生預(yù)測(cè)誤差(?fF(cwe)?-?F(?ocwe)?=?fF(cwe)?>?0),....


圖3-2單階段決策任務(wù)的用例圖??Figure?3-2.?Use?case?of?single-stage?decision-making?tasks??

圖3-2單階段決策任務(wù)的用例圖??Figure?3-2.?Use?case?of?single-stage?decision-making?tasks??

化鍵?數(shù)數(shù)??圖3-1單階段決策任務(wù)的功能設(shè)計(jì)圖??Figure?3-1.?Functional?design?diagram?of?single-stage?decision-making?tasks??根據(jù)上述的功能設(shè)計(jì),以下將用用例圖與活動(dòng)圖對(duì)該決策任務(wù)的主要功能進(jìn)??行詳....



本文編號(hào):3947834

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3947834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f87b1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com