基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作算法研究
發(fā)布時(shí)間:2021-07-26 12:18
隨著科學(xué)技術(shù)的發(fā)展,人工智能已經(jīng)成為專家學(xué)者研究的熱點(diǎn)領(lǐng)域,而構(gòu)建能夠在復(fù)雜環(huán)境中做出較好決策的智能體是現(xiàn)代人工智能研究的基石。然而,由于智能體環(huán)境部分可觀察且不穩(wěn)定、多智能體之間以及智能體與環(huán)境之間相互影響相互制約等因素,多智能體問題仍然是一個(gè)極具挑戰(zhàn)性的研究任務(wù)。基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作近年來已被證明是解決此類問題的較優(yōu)范例之一。多智能體通信是實(shí)現(xiàn)多智能體協(xié)作的最常用方法之一。但是,現(xiàn)今多數(shù)智能體的通信協(xié)議通常采用人工制定的形式,無法捕獲智能體之間的動(dòng)態(tài)交互,導(dǎo)致智能體環(huán)境不穩(wěn)定。為此,本文以動(dòng)態(tài)實(shí)現(xiàn)多智能體協(xié)作為目標(biāo),以盡可能快的訓(xùn)練智能體為原則,構(gòu)建了一個(gè)新的注意力通信模型(ACM),自適應(yīng)地構(gòu)建通信路由以及通信信息。論文工作的主要工作和貢獻(xiàn)如下:(1)提出一個(gè)新的協(xié)作感知網(wǎng)絡(luò)(CAN)。該網(wǎng)絡(luò)既可以動(dòng)態(tài)計(jì)算各智能體之間的關(guān)系確定其通信路由,又可以從各智能體的狀態(tài)信息中蒸餾出其通信內(nèi)容。使用該網(wǎng)絡(luò)不僅可以節(jié)省通信資源,而且可以充分利用智能體的行動(dòng)策略信息。利用該網(wǎng)絡(luò),可以動(dòng)態(tài)構(gòu)建通信協(xié)議以適應(yīng)不斷變化的環(huán)境及策略,提升智能體訓(xùn)練的穩(wěn)定性,從而使得各智能體可以獲取更智慧的協(xié)作策...
【文章來源】:中國地質(zhì)大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文結(jié)構(gòu)安排示意圖
基于強(qiáng)化學(xué)習(xí)的智能體策略算法題,前方車輛減速時(shí)目標(biāo)車輛將跟隨前方車輛減速,然后進(jìn)入下一狀態(tài)繼續(xù)決策行駛。從早期使用函數(shù)表格構(gòu)建智能體的策略到使用深度神經(jīng)網(wǎng)絡(luò)更好地?cái)M合智能體的策略,強(qiáng)化學(xué)習(xí)算法不斷發(fā)展進(jìn)步,其中共享參數(shù)-部分可觀察馬爾科夫決策模型是最簡單也是最常用的模型之一。2.1.1 強(qiáng)化學(xué)習(xí)問題的數(shù)學(xué)描述如圖 2-1 強(qiáng)化學(xué)習(xí)問題示意圖所示,強(qiáng)化學(xué)習(xí)的目的是訓(xùn)練出最優(yōu)策略以解決馬爾科夫決策問題,而馬爾科夫過程,決策以及回報(bào)函數(shù)是馬爾科夫決策過程的基礎(chǔ)。圖中 MDP 表示馬爾科夫決策過程,MP 表示馬爾科夫過程。
1 1 2 1( | , , ,...) ( | )t t t t t tP S S S S P S S 公式森林植被數(shù)的變動(dòng)是典型的馬爾科夫過程,明天的森林植被數(shù)只取決于植被數(shù)。即昨天森林植被數(shù) 100 棵,種植 10 棵與昨天森林植被數(shù) 90 棵對于明天森林植被數(shù)的影響相同,因?yàn)榻裉斓纳种脖粩?shù)均為 110 棵1.2 馬爾科夫決策過程馬爾科夫決策過程針對決策問題,屬于序列決策問題,相當(dāng)于將時(shí)間劃一個(gè)的片段,然后智能體在每個(gè)片段的決策時(shí)間點(diǎn)觀察環(huán)境,并做出一。圍棋問題屬于馬爾科夫決策過程,如圖 2-2 所示,假設(shè)當(dāng)前智能體為觀察左側(cè)棋局,黑方所觀測到的棋局就是當(dāng)前黑方的狀態(tài) s,他當(dāng)前選即在當(dāng)前位置上落子。考慮簡單情景將白方當(dāng)作環(huán)境,即不將白方視為而將其當(dāng)做環(huán)境的一部分,即將白方落子視為黑方作出動(dòng)作后環(huán)境的相此時(shí)會(huì)產(chǎn)生黑方的下一狀態(tài) ′,即右側(cè)所示棋局。
【參考文獻(xiàn)】:
期刊論文
[1]多智能體強(qiáng)化學(xué)習(xí)在城市交通網(wǎng)絡(luò)信號(hào)控制方法中的應(yīng)用綜述[J]. 楊文臣,張輪,Zhu Feng. 計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]基于元學(xué)習(xí)的反艦導(dǎo)彈目標(biāo)識(shí)別研究[J]. 胡生亮,范學(xué)滿,賀靜波. 海軍工程大學(xué)學(xué)報(bào). 2018(01)
[3]有向圖中基于擾動(dòng)觀測器的線性多智能體系統(tǒng)一致性[J]. 楊東岳,梅杰. 自動(dòng)化學(xué)報(bào). 2018(06)
[4]一種基于視覺注意力機(jī)制的深度循環(huán)Q網(wǎng)絡(luò)模型[J]. 劉全,翟建偉,鐘珊,章宗長,周倩,章鵬. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[5]基于多智能體的城市道路短時(shí)交通流預(yù)測與仿真研究[J]. 朱湧,徐建川,陳曉利,李遠(yuǎn)哲. 公路交通技術(shù). 2016(06)
[6]隨機(jī)多智能體系統(tǒng)一致穩(wěn)定性分析[J]. 明平松,劉建昌. 控制與決策. 2016(03)
[7]基于多智能體的電動(dòng)汽車充電協(xié)同控制策略[J]. 許少倫,嚴(yán)正,馮冬涵,張良. 電力自動(dòng)化設(shè)備. 2014(11)
[8]多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J]. 劉佳,陳增強(qiáng),劉忠信. 智能系統(tǒng)學(xué)報(bào). 2010(01)
本文編號(hào):3303552
【文章來源】:中國地質(zhì)大學(xué)(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文結(jié)構(gòu)安排示意圖
基于強(qiáng)化學(xué)習(xí)的智能體策略算法題,前方車輛減速時(shí)目標(biāo)車輛將跟隨前方車輛減速,然后進(jìn)入下一狀態(tài)繼續(xù)決策行駛。從早期使用函數(shù)表格構(gòu)建智能體的策略到使用深度神經(jīng)網(wǎng)絡(luò)更好地?cái)M合智能體的策略,強(qiáng)化學(xué)習(xí)算法不斷發(fā)展進(jìn)步,其中共享參數(shù)-部分可觀察馬爾科夫決策模型是最簡單也是最常用的模型之一。2.1.1 強(qiáng)化學(xué)習(xí)問題的數(shù)學(xué)描述如圖 2-1 強(qiáng)化學(xué)習(xí)問題示意圖所示,強(qiáng)化學(xué)習(xí)的目的是訓(xùn)練出最優(yōu)策略以解決馬爾科夫決策問題,而馬爾科夫過程,決策以及回報(bào)函數(shù)是馬爾科夫決策過程的基礎(chǔ)。圖中 MDP 表示馬爾科夫決策過程,MP 表示馬爾科夫過程。
1 1 2 1( | , , ,...) ( | )t t t t t tP S S S S P S S 公式森林植被數(shù)的變動(dòng)是典型的馬爾科夫過程,明天的森林植被數(shù)只取決于植被數(shù)。即昨天森林植被數(shù) 100 棵,種植 10 棵與昨天森林植被數(shù) 90 棵對于明天森林植被數(shù)的影響相同,因?yàn)榻裉斓纳种脖粩?shù)均為 110 棵1.2 馬爾科夫決策過程馬爾科夫決策過程針對決策問題,屬于序列決策問題,相當(dāng)于將時(shí)間劃一個(gè)的片段,然后智能體在每個(gè)片段的決策時(shí)間點(diǎn)觀察環(huán)境,并做出一。圍棋問題屬于馬爾科夫決策過程,如圖 2-2 所示,假設(shè)當(dāng)前智能體為觀察左側(cè)棋局,黑方所觀測到的棋局就是當(dāng)前黑方的狀態(tài) s,他當(dāng)前選即在當(dāng)前位置上落子。考慮簡單情景將白方當(dāng)作環(huán)境,即不將白方視為而將其當(dāng)做環(huán)境的一部分,即將白方落子視為黑方作出動(dòng)作后環(huán)境的相此時(shí)會(huì)產(chǎn)生黑方的下一狀態(tài) ′,即右側(cè)所示棋局。
【參考文獻(xiàn)】:
期刊論文
[1]多智能體強(qiáng)化學(xué)習(xí)在城市交通網(wǎng)絡(luò)信號(hào)控制方法中的應(yīng)用綜述[J]. 楊文臣,張輪,Zhu Feng. 計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]基于元學(xué)習(xí)的反艦導(dǎo)彈目標(biāo)識(shí)別研究[J]. 胡生亮,范學(xué)滿,賀靜波. 海軍工程大學(xué)學(xué)報(bào). 2018(01)
[3]有向圖中基于擾動(dòng)觀測器的線性多智能體系統(tǒng)一致性[J]. 楊東岳,梅杰. 自動(dòng)化學(xué)報(bào). 2018(06)
[4]一種基于視覺注意力機(jī)制的深度循環(huán)Q網(wǎng)絡(luò)模型[J]. 劉全,翟建偉,鐘珊,章宗長,周倩,章鵬. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[5]基于多智能體的城市道路短時(shí)交通流預(yù)測與仿真研究[J]. 朱湧,徐建川,陳曉利,李遠(yuǎn)哲. 公路交通技術(shù). 2016(06)
[6]隨機(jī)多智能體系統(tǒng)一致穩(wěn)定性分析[J]. 明平松,劉建昌. 控制與決策. 2016(03)
[7]基于多智能體的電動(dòng)汽車充電協(xié)同控制策略[J]. 許少倫,嚴(yán)正,馮冬涵,張良. 電力自動(dòng)化設(shè)備. 2014(11)
[8]多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J]. 劉佳,陳增強(qiáng),劉忠信. 智能系統(tǒng)學(xué)報(bào). 2010(01)
本文編號(hào):3303552
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3303552.html
最近更新
教材專著