基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法研究

發(fā)布時(shí)間：2021-12-30 19:31

　　深度強(qiáng)化學(xué)習(xí)的出現(xiàn)有效解決了強(qiáng)化學(xué)習(xí)遇到的維度災(zāi)難問題,當(dāng)智能體處于高維環(huán)境中時(shí),深度強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)對環(huán)境進(jìn)行特征提取,并利用強(qiáng)化學(xué)習(xí)方法進(jìn)行智能體策略的學(xué)習(xí)。隨著深度強(qiáng)化學(xué)習(xí)在單智能體環(huán)境中取得成功應(yīng)用,越來越多的研究者開始將其應(yīng)用在多智能體協(xié)同環(huán)境中。與單智能體環(huán)境不同,在多智能體協(xié)同環(huán)境中,每個(gè)智能體的策略都在訓(xùn)練中不斷變化,導(dǎo)致智能體始終處于動態(tài)的環(huán)境之中,使智能體的策略難以收斂。多智能體協(xié)同還需要解決智能體之間的通信問題,有效的通信機(jī)制可以加速智能體策略的學(xué)習(xí)。同時(shí),當(dāng)環(huán)境中智能體數(shù)量不斷增加,使得智能體狀態(tài)空間變大,多智能體協(xié)同算法的收斂性會面臨挑戰(zhàn)。針對以上在多智能體協(xié)同中存在的問題,本文主要進(jìn)行了下面幾點(diǎn)研究:（1）為了幫助智能體在多智能體環(huán)境中穩(wěn)定學(xué)習(xí)環(huán)境,本文利用集中訓(xùn)練和分散執(zhí)行（CTDE）框架對最大熵深度強(qiáng)化學(xué)習(xí)算法Soft Actor-Critic（SAC）進(jìn)行擴(kuò)展,提出了基于最大熵的多智能體深度強(qiáng)化學(xué)習(xí)算法MASAC。當(dāng)智能體在訓(xùn)練時(shí),可以利用環(huán)境中的額外信息,包括其他智能體的觀察和動作,幫助智能體穩(wěn)定學(xué)習(xí)環(huán)境,提高算法的穩(wěn)定性。而智能體在執(zhí)行過程...

【文章來源】：中國礦業(yè)大學(xué)江蘇省 211工程院校教育部直屬院校

【文章頁數(shù)】：72 頁

【學(xué)位級別】：碩士

【部分圖文】：

智能體與環(huán)境的交互過程

圖像,網(wǎng)絡(luò)參數(shù),神經(jīng)網(wǎng)絡(luò)

碩士學(xué)位論文10在2013年首次被AlphaGo之父DavidSilver及其團(tuán)隊(duì)提出[4]，并在2015年較為成熟[5]。他們將深度神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合，提出DQN算法，稱為深度強(qiáng)化學(xué)習(xí)的開山之作。2.2.1DQN算法簡介復(fù)雜環(huán)境中高維的狀態(tài)空間和動作空間使得Q學(xué)習(xí)中存儲Q值的Q表變大，并難以存儲和計(jì)算。DQN中，將Q值利用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算，而不再使用Q表進(jìn)行表示。利用參數(shù)為w的Q網(wǎng)絡(luò)近似Q值的計(jì)算可表示為：Qs,awQs,a(2-8)Q網(wǎng)絡(luò)可以處理圖像等高維數(shù)據(jù)，這樣就實(shí)現(xiàn)了智能體端到端的學(xué)習(xí)，如圖2-2所示，DQN的輸入為圖像，輸出為動作的Q值，神經(jīng)網(wǎng)絡(luò)采用卷積層加全連接層的方式。圖2-2使用DQN實(shí)現(xiàn)從圖像到動作的映射Figure2-2MappingfromimagestoactionsbyusingDQN對于Q網(wǎng)絡(luò)參數(shù)w的更新，DQN中通過設(shè)置目標(biāo)網(wǎng)絡(luò)的方式處理時(shí)間差分方法中的偏差，為Q網(wǎng)絡(luò)參數(shù)更新提供損失函數(shù)Lw，2,,,max,,sarsawrQsawQsawL(2-9)其中，s表示狀態(tài)s的下一個(gè)狀態(tài)，a為下一個(gè)狀態(tài)s智能體的動作，Qs,aw是目標(biāo)Q網(wǎng)絡(luò)（targetQnetwork），與Q網(wǎng)絡(luò)具有相同的結(jié)構(gòu)，用于生成下一個(gè)動作的Q值，參數(shù)為w，初始時(shí)ww。通過對Lw求導(dǎo)，得到參數(shù)的梯度后，便可以利用梯度下降方法進(jìn)行參數(shù)更新。為了滿足訓(xùn)練數(shù)據(jù)獨(dú)立同分布的特點(diǎn)，DQN中采用經(jīng)驗(yàn)回放（experiencereplay）的方法，每次智能體在環(huán)境中執(zhí)行動作并獲得獎勵后，將四元組s,a,r,s放入經(jīng)驗(yàn)回放池D中，在訓(xùn)練過程中隨機(jī)從D中進(jìn)行批量采樣，對Q網(wǎng)絡(luò)進(jìn)行

示意圖,學(xué)習(xí)環(huán)境,示意圖

2深度強(qiáng)化學(xué)習(xí)和多智能體基礎(chǔ)13(1)(2-23)2.3多智能體深度強(qiáng)化學(xué)習(xí)（Multi-AgentDeepReinforcementLearning）2.3.1馬爾科夫博弈馬爾科夫博弈（MarkovGames）[61]是多智能體深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型，由馬爾科夫決策過程擴(kuò)展而來。N個(gè)智能體的馬爾科夫博弈由描述所有智能體狀態(tài)的集合S以及描述每個(gè)智能體的動作集合1,...,NAA和觀察集合1,...,NOO組成。智能體每次的動作由隨機(jī)策略i:0,1iiOA進(jìn)行選擇，由智能體動作產(chǎn)生的狀態(tài)轉(zhuǎn)移函數(shù)定義為T:1...NSAAPS，T表示給定狀態(tài)S和所有智能體的動作，下一個(gè)可能狀態(tài)的概率分布。給定狀態(tài)S和智能體的動作，智能體可以得到獎勵ir:iSAR，同時(shí)，智能體可以從環(huán)境中獲得一個(gè)私有的觀察io:iSO。每個(gè)智能體的目標(biāo)是最大化獲得的回報(bào)0=TttiitRr。2.3.2多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境本文所采用的多智能體實(shí)驗(yàn)環(huán)境基于GroundedCommunicationEnvironments（GCE）[62]，它是具有連續(xù)空間和離散時(shí)間的二維模擬環(huán)境。如圖2-3，該模擬環(huán)境由N個(gè)智能體和M個(gè)地標(biāo)組成。智能體和地標(biāo)具有顏色和形狀等物理特性。智能體可以在環(huán)境中移動，在移動的過程中也可能受到與其它智能體物理交互的影響。通常使用x表示智能體的物理狀態(tài)。圖2-3多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境GCE示意圖Figure2-3Schematicdiagramofmulti-agentdeepreinforcementlearningenvironmentGCE除了執(zhí)行物理動作外，智能體還可以在每個(gè)時(shí)間步長使用符號v進(jìn)行交流，這種交流是內(nèi)置在環(huán)境中的，而并非智能體模型之間的交流。v是大小為K的抽象符號詞匯表V的離散元素。這些符號沒有特定的意義，它們被視為由每個(gè)智能體發(fā)出并可以被所有其它智能體觀察到的抽象變量。智能體在訓(xùn)練時(shí)，這些符

本文編號：3558836

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3558836.html

上一篇：智能網(wǎng)聯(lián)環(huán)境下車輛隊(duì)列控制算法與應(yīng)用
下一篇：基于CPG的仿生機(jī)器魚運(yùn)動控制優(yōu)化

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法研究