天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法研究

發(fā)布時(shí)間:2021-12-30 19:31
  深度強(qiáng)化學(xué)習(xí)的出現(xiàn)有效解決了強(qiáng)化學(xué)習(xí)遇到的維度災(zāi)難問題,當(dāng)智能體處于高維環(huán)境中時(shí),深度強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)對環(huán)境進(jìn)行特征提取,并利用強(qiáng)化學(xué)習(xí)方法進(jìn)行智能體策略的學(xué)習(xí)。隨著深度強(qiáng)化學(xué)習(xí)在單智能體環(huán)境中取得成功應(yīng)用,越來越多的研究者開始將其應(yīng)用在多智能體協(xié)同環(huán)境中。與單智能體環(huán)境不同,在多智能體協(xié)同環(huán)境中,每個(gè)智能體的策略都在訓(xùn)練中不斷變化,導(dǎo)致智能體始終處于動態(tài)的環(huán)境之中,使智能體的策略難以收斂。多智能體協(xié)同還需要解決智能體之間的通信問題,有效的通信機(jī)制可以加速智能體策略的學(xué)習(xí)。同時(shí),當(dāng)環(huán)境中智能體數(shù)量不斷增加,使得智能體狀態(tài)空間變大,多智能體協(xié)同算法的收斂性會面臨挑戰(zhàn)。針對以上在多智能體協(xié)同中存在的問題,本文主要進(jìn)行了下面幾點(diǎn)研究:(1)為了幫助智能體在多智能體環(huán)境中穩(wěn)定學(xué)習(xí)環(huán)境,本文利用集中訓(xùn)練和分散執(zhí)行(CTDE)框架對最大熵深度強(qiáng)化學(xué)習(xí)算法Soft Actor-Critic(SAC)進(jìn)行擴(kuò)展,提出了基于最大熵的多智能體深度強(qiáng)化學(xué)習(xí)算法MASAC。當(dāng)智能體在訓(xùn)練時(shí),可以利用環(huán)境中的額外信息,包括其他智能體的觀察和動作,幫助智能體穩(wěn)定學(xué)習(xí)環(huán)境,提高算法的穩(wěn)定性。而智能體在執(zhí)行過程... 

【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法研究


智能體與環(huán)境的交互過程

圖像,網(wǎng)絡(luò)參數(shù),神經(jīng)網(wǎng)絡(luò)


碩士學(xué)位論文10在2013年首次被AlphaGo之父DavidSilver及其團(tuán)隊(duì)提出[4],并在2015年較為成熟[5]。他們將深度神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合,提出DQN算法,稱為深度強(qiáng)化學(xué)習(xí)的開山之作。2.2.1DQN算法簡介復(fù)雜環(huán)境中高維的狀態(tài)空間和動作空間使得Q學(xué)習(xí)中存儲Q值的Q表變大,并難以存儲和計(jì)算。DQN中,將Q值利用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,而不再使用Q表進(jìn)行表示。利用參數(shù)為w的Q網(wǎng)絡(luò)近似Q值的計(jì)算可表示為:Qs,awQs,a(2-8)Q網(wǎng)絡(luò)可以處理圖像等高維數(shù)據(jù),這樣就實(shí)現(xiàn)了智能體端到端的學(xué)習(xí),如圖2-2所示,DQN的輸入為圖像,輸出為動作的Q值,神經(jīng)網(wǎng)絡(luò)采用卷積層加全連接層的方式。圖2-2使用DQN實(shí)現(xiàn)從圖像到動作的映射Figure2-2MappingfromimagestoactionsbyusingDQN對于Q網(wǎng)絡(luò)參數(shù)w的更新,DQN中通過設(shè)置目標(biāo)網(wǎng)絡(luò)的方式處理時(shí)間差分方法中的偏差,為Q網(wǎng)絡(luò)參數(shù)更新提供損失函數(shù)Lw,2,,,max,,sarsawrQsawQsawL(2-9)其中,s表示狀態(tài)s的下一個(gè)狀態(tài),a為下一個(gè)狀態(tài)s智能體的動作,Qs,aw是目標(biāo)Q網(wǎng)絡(luò)(targetQnetwork),與Q網(wǎng)絡(luò)具有相同的結(jié)構(gòu),用于生成下一個(gè)動作的Q值,參數(shù)為w,初始時(shí)ww。通過對Lw求導(dǎo),得到參數(shù)的梯度后,便可以利用梯度下降方法進(jìn)行參數(shù)更新。為了滿足訓(xùn)練數(shù)據(jù)獨(dú)立同分布的特點(diǎn),DQN中采用經(jīng)驗(yàn)回放(experiencereplay)的方法,每次智能體在環(huán)境中執(zhí)行動作并獲得獎勵后,將四元組s,a,r,s放入經(jīng)驗(yàn)回放池D中,在訓(xùn)練過程中隨機(jī)從D中進(jìn)行批量采樣,對Q網(wǎng)絡(luò)進(jìn)行

示意圖,學(xué)習(xí)環(huán)境,示意圖


2深度強(qiáng)化學(xué)習(xí)和多智能體基礎(chǔ)13(1)(2-23)2.3多智能體深度強(qiáng)化學(xué)習(xí)(Multi-AgentDeepReinforcementLearning)2.3.1馬爾科夫博弈馬爾科夫博弈(MarkovGames)[61]是多智能體深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,由馬爾科夫決策過程擴(kuò)展而來。N個(gè)智能體的馬爾科夫博弈由描述所有智能體狀態(tài)的集合S以及描述每個(gè)智能體的動作集合1,...,NAA和觀察集合1,...,NOO組成。智能體每次的動作由隨機(jī)策略i:0,1iiOA進(jìn)行選擇,由智能體動作產(chǎn)生的狀態(tài)轉(zhuǎn)移函數(shù)定義為T:1...NSAAPS,T表示給定狀態(tài)S和所有智能體的動作,下一個(gè)可能狀態(tài)的概率分布。給定狀態(tài)S和智能體的動作,智能體可以得到獎勵ir:iSAR,同時(shí),智能體可以從環(huán)境中獲得一個(gè)私有的觀察io:iSO。每個(gè)智能體的目標(biāo)是最大化獲得的回報(bào)0=TttiitRr。2.3.2多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境本文所采用的多智能體實(shí)驗(yàn)環(huán)境基于GroundedCommunicationEnvironments(GCE)[62],它是具有連續(xù)空間和離散時(shí)間的二維模擬環(huán)境。如圖2-3,該模擬環(huán)境由N個(gè)智能體和M個(gè)地標(biāo)組成。智能體和地標(biāo)具有顏色和形狀等物理特性。智能體可以在環(huán)境中移動,在移動的過程中也可能受到與其它智能體物理交互的影響。通常使用x表示智能體的物理狀態(tài)。圖2-3多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境GCE示意圖Figure2-3Schematicdiagramofmulti-agentdeepreinforcementlearningenvironmentGCE除了執(zhí)行物理動作外,智能體還可以在每個(gè)時(shí)間步長使用符號v進(jìn)行交流,這種交流是內(nèi)置在環(huán)境中的,而并非智能體模型之間的交流。v是大小為K的抽象符號詞匯表V的離散元素。這些符號沒有特定的意義,它們被視為由每個(gè)智能體發(fā)出并可以被所有其它智能體觀察到的抽象變量。智能體在訓(xùn)練時(shí),這些符


本文編號:3558836

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3558836.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7cafd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com