基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作算法研究

發(fā)布時(shí)間：2021-07-26 12:18

　　隨著科學(xué)技術(shù)的發(fā)展,人工智能已經(jīng)成為專家學(xué)者研究的熱點(diǎn)領(lǐng)域,而構(gòu)建能夠在復(fù)雜環(huán)境中做出較好決策的智能體是現(xiàn)代人工智能研究的基石。然而,由于智能體環(huán)境部分可觀察且不穩(wěn)定、多智能體之間以及智能體與環(huán)境之間相互影響相互制約等因素,多智能體問題仍然是一個(gè)極具挑戰(zhàn)性的研究任務(wù)。基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作近年來已被證明是解決此類問題的較優(yōu)范例之一。多智能體通信是實(shí)現(xiàn)多智能體協(xié)作的最常用方法之一。但是,現(xiàn)今多數(shù)智能體的通信協(xié)議通常采用人工制定的形式,無法捕獲智能體之間的動(dòng)態(tài)交互,導(dǎo)致智能體環(huán)境不穩(wěn)定。為此,本文以動(dòng)態(tài)實(shí)現(xiàn)多智能體協(xié)作為目標(biāo),以盡可能快的訓(xùn)練智能體為原則,構(gòu)建了一個(gè)新的注意力通信模型（ACM）,自適應(yīng)地構(gòu)建通信路由以及通信信息。論文工作的主要工作和貢獻(xiàn)如下:（1）提出一個(gè)新的協(xié)作感知網(wǎng)絡(luò)（CAN）。該網(wǎng)絡(luò)既可以動(dòng)態(tài)計(jì)算各智能體之間的關(guān)系確定其通信路由,又可以從各智能體的狀態(tài)信息中蒸餾出其通信內(nèi)容。使用該網(wǎng)絡(luò)不僅可以節(jié)省通信資源,而且可以充分利用智能體的行動(dòng)策略信息。利用該網(wǎng)絡(luò),可以動(dòng)態(tài)構(gòu)建通信協(xié)議以適應(yīng)不斷變化的環(huán)境及策略,提升智能體訓(xùn)練的穩(wěn)定性,從而使得各智能體可以獲取更智慧的協(xié)作策...

【文章來源】：中國地質(zhì)大學(xué)(北京)北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：66 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

論文結(jié)構(gòu)安排示意圖

示意圖,問題,示意圖,馬爾科夫過程

基于強(qiáng)化學(xué)習(xí)的智能體策略算法題，前方車輛減速時(shí)目標(biāo)車輛將跟隨前方車輛減速，然后進(jìn)入下一狀態(tài)繼續(xù)決策行駛。從早期使用函數(shù)表格構(gòu)建智能體的策略到使用深度神經(jīng)網(wǎng)絡(luò)更好地?cái)M合智能體的策略，強(qiáng)化學(xué)習(xí)算法不斷發(fā)展進(jìn)步，其中共享參數(shù)-部分可觀察馬爾科夫決策模型是最簡單也是最常用的模型之一。2.1.1 強(qiáng)化學(xué)習(xí)問題的數(shù)學(xué)描述如圖 2-1 強(qiáng)化學(xué)習(xí)問題示意圖所示，強(qiáng)化學(xué)習(xí)的目的是訓(xùn)練出最優(yōu)策略以解決馬爾科夫決策問題，而馬爾科夫過程，決策以及回報(bào)函數(shù)是馬爾科夫決策過程的基礎(chǔ)。圖中 MDP 表示馬爾科夫決策過程，MP 表示馬爾科夫過程。

序列,過程實(shí)例,森林植被,棋局

1 1 2 1( | , , ,...) ( | )t t t t t tP S S S S P S S 公式森林植被數(shù)的變動(dòng)是典型的馬爾科夫過程，明天的森林植被數(shù)只取決于植被數(shù)。即昨天森林植被數(shù) 100 棵，種植 10 棵與昨天森林植被數(shù) 90 棵對于明天森林植被數(shù)的影響相同，因?yàn)榻裉斓纳种脖粩?shù)均為 110 棵1.2 馬爾科夫決策過程馬爾科夫決策過程針對決策問題，屬于序列決策問題，相當(dāng)于將時(shí)間劃一個(gè)的片段，然后智能體在每個(gè)片段的決策時(shí)間點(diǎn)觀察環(huán)境，并做出一。圍棋問題屬于馬爾科夫決策過程，如圖 2-2 所示，假設(shè)當(dāng)前智能體為觀察左側(cè)棋局，黑方所觀測到的棋局就是當(dāng)前黑方的狀態(tài) s，他當(dāng)前選即在當(dāng)前位置上落子。考慮簡單情景將白方當(dāng)作環(huán)境，即不將白方視為而將其當(dāng)做環(huán)境的一部分，即將白方落子視為黑方作出動(dòng)作后環(huán)境的相此時(shí)會(huì)產(chǎn)生黑方的下一狀態(tài) ′，即右側(cè)所示棋局。

【參考文獻(xiàn)】：
期刊論文
[1]多智能體強(qiáng)化學(xué)習(xí)在城市交通網(wǎng)絡(luò)信號(hào)控制方法中的應(yīng)用綜述[J]. 楊文臣,張輪,Zhu Feng.  計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]基于元學(xué)習(xí)的反艦導(dǎo)彈目標(biāo)識(shí)別研究[J]. 胡生亮,范學(xué)滿,賀靜波.  海軍工程大學(xué)學(xué)報(bào). 2018(01)
[3]有向圖中基于擾動(dòng)觀測器的線性多智能體系統(tǒng)一致性[J]. 楊東岳,梅杰.  自動(dòng)化學(xué)報(bào). 2018(06)
[4]一種基于視覺注意力機(jī)制的深度循環(huán)Q網(wǎng)絡(luò)模型[J]. 劉全,翟建偉,鐘珊,章宗長,周倩,章鵬.  計(jì)算機(jī)學(xué)報(bào). 2017(06)
[5]基于多智能體的城市道路短時(shí)交通流預(yù)測與仿真研究[J]. 朱湧,徐建川,陳曉利,李遠(yuǎn)哲.  公路交通技術(shù). 2016(06)
[6]隨機(jī)多智能體系統(tǒng)一致穩(wěn)定性分析[J]. 明平松,劉建昌.  控制與決策. 2016(03)
[7]基于多智能體的電動(dòng)汽車充電協(xié)同控制策略[J]. 許少倫,嚴(yán)正,馮冬涵,張良.  電力自動(dòng)化設(shè)備. 2014(11)
[8]多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J]. 劉佳,陳增強(qiáng),劉忠信.  智能系統(tǒng)學(xué)報(bào). 2010(01)

本文編號(hào)：3303552

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3303552.html

上一篇：離散制造車間生產(chǎn)數(shù)據(jù)采集與管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
下一篇：用卷積神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽圖像檢索方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作算法研究