基于深度強(qiáng)化學(xué)習(xí)的多智能體協(xié)同算法研究
發(fā)布時(shí)間:2021-12-30 19:31
深度強(qiáng)化學(xué)習(xí)的出現(xiàn)有效解決了強(qiáng)化學(xué)習(xí)遇到的維度災(zāi)難問(wèn)題,當(dāng)智能體處于高維環(huán)境中時(shí),深度強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)對(duì)環(huán)境進(jìn)行特征提取,并利用強(qiáng)化學(xué)習(xí)方法進(jìn)行智能體策略的學(xué)習(xí)。隨著深度強(qiáng)化學(xué)習(xí)在單智能體環(huán)境中取得成功應(yīng)用,越來(lái)越多的研究者開(kāi)始將其應(yīng)用在多智能體協(xié)同環(huán)境中。與單智能體環(huán)境不同,在多智能體協(xié)同環(huán)境中,每個(gè)智能體的策略都在訓(xùn)練中不斷變化,導(dǎo)致智能體始終處于動(dòng)態(tài)的環(huán)境之中,使智能體的策略難以收斂。多智能體協(xié)同還需要解決智能體之間的通信問(wèn)題,有效的通信機(jī)制可以加速智能體策略的學(xué)習(xí)。同時(shí),當(dāng)環(huán)境中智能體數(shù)量不斷增加,使得智能體狀態(tài)空間變大,多智能體協(xié)同算法的收斂性會(huì)面臨挑戰(zhàn)。針對(duì)以上在多智能體協(xié)同中存在的問(wèn)題,本文主要進(jìn)行了下面幾點(diǎn)研究:(1)為了幫助智能體在多智能體環(huán)境中穩(wěn)定學(xué)習(xí)環(huán)境,本文利用集中訓(xùn)練和分散執(zhí)行(CTDE)框架對(duì)最大熵深度強(qiáng)化學(xué)習(xí)算法Soft Actor-Critic(SAC)進(jìn)行擴(kuò)展,提出了基于最大熵的多智能體深度強(qiáng)化學(xué)習(xí)算法MASAC。當(dāng)智能體在訓(xùn)練時(shí),可以利用環(huán)境中的額外信息,包括其他智能體的觀察和動(dòng)作,幫助智能體穩(wěn)定學(xué)習(xí)環(huán)境,提高算法的穩(wěn)定性。而智能體在執(zhí)行過(guò)程...
【文章來(lái)源】:中國(guó)礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
智能體與環(huán)境的交互過(guò)程
碩士學(xué)位論文10在2013年首次被AlphaGo之父DavidSilver及其團(tuán)隊(duì)提出[4],并在2015年較為成熟[5]。他們將深度神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合,提出DQN算法,稱為深度強(qiáng)化學(xué)習(xí)的開(kāi)山之作。2.2.1DQN算法簡(jiǎn)介復(fù)雜環(huán)境中高維的狀態(tài)空間和動(dòng)作空間使得Q學(xué)習(xí)中存儲(chǔ)Q值的Q表變大,并難以存儲(chǔ)和計(jì)算。DQN中,將Q值利用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,而不再使用Q表進(jìn)行表示。利用參數(shù)為w的Q網(wǎng)絡(luò)近似Q值的計(jì)算可表示為:Qs,awQs,a(2-8)Q網(wǎng)絡(luò)可以處理圖像等高維數(shù)據(jù),這樣就實(shí)現(xiàn)了智能體端到端的學(xué)習(xí),如圖2-2所示,DQN的輸入為圖像,輸出為動(dòng)作的Q值,神經(jīng)網(wǎng)絡(luò)采用卷積層加全連接層的方式。圖2-2使用DQN實(shí)現(xiàn)從圖像到動(dòng)作的映射Figure2-2MappingfromimagestoactionsbyusingDQN對(duì)于Q網(wǎng)絡(luò)參數(shù)w的更新,DQN中通過(guò)設(shè)置目標(biāo)網(wǎng)絡(luò)的方式處理時(shí)間差分方法中的偏差,為Q網(wǎng)絡(luò)參數(shù)更新提供損失函數(shù)Lw,2,,,max,,sarsawrQsawQsawL(2-9)其中,s表示狀態(tài)s的下一個(gè)狀態(tài),a為下一個(gè)狀態(tài)s智能體的動(dòng)作,Qs,aw是目標(biāo)Q網(wǎng)絡(luò)(targetQnetwork),與Q網(wǎng)絡(luò)具有相同的結(jié)構(gòu),用于生成下一個(gè)動(dòng)作的Q值,參數(shù)為w,初始時(shí)ww。通過(guò)對(duì)Lw求導(dǎo),得到參數(shù)的梯度后,便可以利用梯度下降方法進(jìn)行參數(shù)更新。為了滿足訓(xùn)練數(shù)據(jù)獨(dú)立同分布的特點(diǎn),DQN中采用經(jīng)驗(yàn)回放(experiencereplay)的方法,每次智能體在環(huán)境中執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì)后,將四元組s,a,r,s放入經(jīng)驗(yàn)回放池D中,在訓(xùn)練過(guò)程中隨機(jī)從D中進(jìn)行批量采樣,對(duì)Q網(wǎng)絡(luò)進(jìn)行
2深度強(qiáng)化學(xué)習(xí)和多智能體基礎(chǔ)13(1)(2-23)2.3多智能體深度強(qiáng)化學(xué)習(xí)(Multi-AgentDeepReinforcementLearning)2.3.1馬爾科夫博弈馬爾科夫博弈(MarkovGames)[61]是多智能體深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,由馬爾科夫決策過(guò)程擴(kuò)展而來(lái)。N個(gè)智能體的馬爾科夫博弈由描述所有智能體狀態(tài)的集合S以及描述每個(gè)智能體的動(dòng)作集合1,...,NAA和觀察集合1,...,NOO組成。智能體每次的動(dòng)作由隨機(jī)策略i:0,1iiOA進(jìn)行選擇,由智能體動(dòng)作產(chǎn)生的狀態(tài)轉(zhuǎn)移函數(shù)定義為T(mén):1...NSAAPS,T表示給定狀態(tài)S和所有智能體的動(dòng)作,下一個(gè)可能狀態(tài)的概率分布。給定狀態(tài)S和智能體的動(dòng)作,智能體可以得到獎(jiǎng)勵(lì)ir:iSAR,同時(shí),智能體可以從環(huán)境中獲得一個(gè)私有的觀察io:iSO。每個(gè)智能體的目標(biāo)是最大化獲得的回報(bào)0=TttiitRr。2.3.2多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境本文所采用的多智能體實(shí)驗(yàn)環(huán)境基于GroundedCommunicationEnvironments(GCE)[62],它是具有連續(xù)空間和離散時(shí)間的二維模擬環(huán)境。如圖2-3,該模擬環(huán)境由N個(gè)智能體和M個(gè)地標(biāo)組成。智能體和地標(biāo)具有顏色和形狀等物理特性。智能體可以在環(huán)境中移動(dòng),在移動(dòng)的過(guò)程中也可能受到與其它智能體物理交互的影響。通常使用x表示智能體的物理狀態(tài)。圖2-3多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境GCE示意圖Figure2-3Schematicdiagramofmulti-agentdeepreinforcementlearningenvironmentGCE除了執(zhí)行物理動(dòng)作外,智能體還可以在每個(gè)時(shí)間步長(zhǎng)使用符號(hào)v進(jìn)行交流,這種交流是內(nèi)置在環(huán)境中的,而并非智能體模型之間的交流。v是大小為K的抽象符號(hào)詞匯表V的離散元素。這些符號(hào)沒(méi)有特定的意義,它們被視為由每個(gè)智能體發(fā)出并可以被所有其它智能體觀察到的抽象變量。智能體在訓(xùn)練時(shí),這些符
本文編號(hào):3558836
【文章來(lái)源】:中國(guó)礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
智能體與環(huán)境的交互過(guò)程
碩士學(xué)位論文10在2013年首次被AlphaGo之父DavidSilver及其團(tuán)隊(duì)提出[4],并在2015年較為成熟[5]。他們將深度神經(jīng)網(wǎng)絡(luò)與Q學(xué)習(xí)算法結(jié)合,提出DQN算法,稱為深度強(qiáng)化學(xué)習(xí)的開(kāi)山之作。2.2.1DQN算法簡(jiǎn)介復(fù)雜環(huán)境中高維的狀態(tài)空間和動(dòng)作空間使得Q學(xué)習(xí)中存儲(chǔ)Q值的Q表變大,并難以存儲(chǔ)和計(jì)算。DQN中,將Q值利用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算,而不再使用Q表進(jìn)行表示。利用參數(shù)為w的Q網(wǎng)絡(luò)近似Q值的計(jì)算可表示為:Qs,awQs,a(2-8)Q網(wǎng)絡(luò)可以處理圖像等高維數(shù)據(jù),這樣就實(shí)現(xiàn)了智能體端到端的學(xué)習(xí),如圖2-2所示,DQN的輸入為圖像,輸出為動(dòng)作的Q值,神經(jīng)網(wǎng)絡(luò)采用卷積層加全連接層的方式。圖2-2使用DQN實(shí)現(xiàn)從圖像到動(dòng)作的映射Figure2-2MappingfromimagestoactionsbyusingDQN對(duì)于Q網(wǎng)絡(luò)參數(shù)w的更新,DQN中通過(guò)設(shè)置目標(biāo)網(wǎng)絡(luò)的方式處理時(shí)間差分方法中的偏差,為Q網(wǎng)絡(luò)參數(shù)更新提供損失函數(shù)Lw,2,,,max,,sarsawrQsawQsawL(2-9)其中,s表示狀態(tài)s的下一個(gè)狀態(tài),a為下一個(gè)狀態(tài)s智能體的動(dòng)作,Qs,aw是目標(biāo)Q網(wǎng)絡(luò)(targetQnetwork),與Q網(wǎng)絡(luò)具有相同的結(jié)構(gòu),用于生成下一個(gè)動(dòng)作的Q值,參數(shù)為w,初始時(shí)ww。通過(guò)對(duì)Lw求導(dǎo),得到參數(shù)的梯度后,便可以利用梯度下降方法進(jìn)行參數(shù)更新。為了滿足訓(xùn)練數(shù)據(jù)獨(dú)立同分布的特點(diǎn),DQN中采用經(jīng)驗(yàn)回放(experiencereplay)的方法,每次智能體在環(huán)境中執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì)后,將四元組s,a,r,s放入經(jīng)驗(yàn)回放池D中,在訓(xùn)練過(guò)程中隨機(jī)從D中進(jìn)行批量采樣,對(duì)Q網(wǎng)絡(luò)進(jìn)行
2深度強(qiáng)化學(xué)習(xí)和多智能體基礎(chǔ)13(1)(2-23)2.3多智能體深度強(qiáng)化學(xué)習(xí)(Multi-AgentDeepReinforcementLearning)2.3.1馬爾科夫博弈馬爾科夫博弈(MarkovGames)[61]是多智能體深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型,由馬爾科夫決策過(guò)程擴(kuò)展而來(lái)。N個(gè)智能體的馬爾科夫博弈由描述所有智能體狀態(tài)的集合S以及描述每個(gè)智能體的動(dòng)作集合1,...,NAA和觀察集合1,...,NOO組成。智能體每次的動(dòng)作由隨機(jī)策略i:0,1iiOA進(jìn)行選擇,由智能體動(dòng)作產(chǎn)生的狀態(tài)轉(zhuǎn)移函數(shù)定義為T(mén):1...NSAAPS,T表示給定狀態(tài)S和所有智能體的動(dòng)作,下一個(gè)可能狀態(tài)的概率分布。給定狀態(tài)S和智能體的動(dòng)作,智能體可以得到獎(jiǎng)勵(lì)ir:iSAR,同時(shí),智能體可以從環(huán)境中獲得一個(gè)私有的觀察io:iSO。每個(gè)智能體的目標(biāo)是最大化獲得的回報(bào)0=TttiitRr。2.3.2多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境本文所采用的多智能體實(shí)驗(yàn)環(huán)境基于GroundedCommunicationEnvironments(GCE)[62],它是具有連續(xù)空間和離散時(shí)間的二維模擬環(huán)境。如圖2-3,該模擬環(huán)境由N個(gè)智能體和M個(gè)地標(biāo)組成。智能體和地標(biāo)具有顏色和形狀等物理特性。智能體可以在環(huán)境中移動(dòng),在移動(dòng)的過(guò)程中也可能受到與其它智能體物理交互的影響。通常使用x表示智能體的物理狀態(tài)。圖2-3多智能體深度強(qiáng)化學(xué)習(xí)環(huán)境GCE示意圖Figure2-3Schematicdiagramofmulti-agentdeepreinforcementlearningenvironmentGCE除了執(zhí)行物理動(dòng)作外,智能體還可以在每個(gè)時(shí)間步長(zhǎng)使用符號(hào)v進(jìn)行交流,這種交流是內(nèi)置在環(huán)境中的,而并非智能體模型之間的交流。v是大小為K的抽象符號(hào)詞匯表V的離散元素。這些符號(hào)沒(méi)有特定的意義,它們被視為由每個(gè)智能體發(fā)出并可以被所有其它智能體觀察到的抽象變量。智能體在訓(xùn)練時(shí),這些符
本文編號(hào):3558836
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3558836.html
最近更新
教材專(zhuān)著