天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作算法研究

發(fā)布時(shí)間:2021-07-26 12:18
  隨著科學(xué)技術(shù)的發(fā)展,人工智能已經(jīng)成為專家學(xué)者研究的熱點(diǎn)領(lǐng)域,而構(gòu)建能夠在復(fù)雜環(huán)境中做出較好決策的智能體是現(xiàn)代人工智能研究的基石。然而,由于智能體環(huán)境部分可觀察且不穩(wěn)定、多智能體之間以及智能體與環(huán)境之間相互影響相互制約等因素,多智能體問題仍然是一個(gè)極具挑戰(zhàn)性的研究任務(wù)。基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作近年來已被證明是解決此類問題的較優(yōu)范例之一。多智能體通信是實(shí)現(xiàn)多智能體協(xié)作的最常用方法之一。但是,現(xiàn)今多數(shù)智能體的通信協(xié)議通常采用人工制定的形式,無法捕獲智能體之間的動(dòng)態(tài)交互,導(dǎo)致智能體環(huán)境不穩(wěn)定。為此,本文以動(dòng)態(tài)實(shí)現(xiàn)多智能體協(xié)作為目標(biāo),以盡可能快的訓(xùn)練智能體為原則,構(gòu)建了一個(gè)新的注意力通信模型(ACM),自適應(yīng)地構(gòu)建通信路由以及通信信息。論文工作的主要工作和貢獻(xiàn)如下:(1)提出一個(gè)新的協(xié)作感知網(wǎng)絡(luò)(CAN)。該網(wǎng)絡(luò)既可以動(dòng)態(tài)計(jì)算各智能體之間的關(guān)系確定其通信路由,又可以從各智能體的狀態(tài)信息中蒸餾出其通信內(nèi)容。使用該網(wǎng)絡(luò)不僅可以節(jié)省通信資源,而且可以充分利用智能體的行動(dòng)策略信息。利用該網(wǎng)絡(luò),可以動(dòng)態(tài)構(gòu)建通信協(xié)議以適應(yīng)不斷變化的環(huán)境及策略,提升智能體訓(xùn)練的穩(wěn)定性,從而使得各智能體可以獲取更智慧的協(xié)作策... 

【文章來源】:中國地質(zhì)大學(xué)(北京)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:66 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于強(qiáng)化學(xué)習(xí)的多智能體協(xié)作算法研究


論文結(jié)構(gòu)安排示意圖

示意圖,問題,示意圖,馬爾科夫過程


基于強(qiáng)化學(xué)習(xí)的智能體策略算法題,前方車輛減速時(shí)目標(biāo)車輛將跟隨前方車輛減速,然后進(jìn)入下一狀態(tài)繼續(xù)決策行駛。從早期使用函數(shù)表格構(gòu)建智能體的策略到使用深度神經(jīng)網(wǎng)絡(luò)更好地?cái)M合智能體的策略,強(qiáng)化學(xué)習(xí)算法不斷發(fā)展進(jìn)步,其中共享參數(shù)-部分可觀察馬爾科夫決策模型是最簡單也是最常用的模型之一。2.1.1 強(qiáng)化學(xué)習(xí)問題的數(shù)學(xué)描述如圖 2-1 強(qiáng)化學(xué)習(xí)問題示意圖所示,強(qiáng)化學(xué)習(xí)的目的是訓(xùn)練出最優(yōu)策略以解決馬爾科夫決策問題,而馬爾科夫過程,決策以及回報(bào)函數(shù)是馬爾科夫決策過程的基礎(chǔ)。圖中 MDP 表示馬爾科夫決策過程,MP 表示馬爾科夫過程。

序列,過程實(shí)例,森林植被,棋局


1 1 2 1( | , , ,...) ( | )t t t t t tP S S S S P S S 公式森林植被數(shù)的變動(dòng)是典型的馬爾科夫過程,明天的森林植被數(shù)只取決于植被數(shù)。即昨天森林植被數(shù) 100 棵,種植 10 棵與昨天森林植被數(shù) 90 棵對于明天森林植被數(shù)的影響相同,因?yàn)榻裉斓纳种脖粩?shù)均為 110 棵1.2 馬爾科夫決策過程馬爾科夫決策過程針對決策問題,屬于序列決策問題,相當(dāng)于將時(shí)間劃一個(gè)的片段,然后智能體在每個(gè)片段的決策時(shí)間點(diǎn)觀察環(huán)境,并做出一。圍棋問題屬于馬爾科夫決策過程,如圖 2-2 所示,假設(shè)當(dāng)前智能體為觀察左側(cè)棋局,黑方所觀測到的棋局就是當(dāng)前黑方的狀態(tài) s,他當(dāng)前選即在當(dāng)前位置上落子。考慮簡單情景將白方當(dāng)作環(huán)境,即不將白方視為而將其當(dāng)做環(huán)境的一部分,即將白方落子視為黑方作出動(dòng)作后環(huán)境的相此時(shí)會(huì)產(chǎn)生黑方的下一狀態(tài) ′,即右側(cè)所示棋局。

【參考文獻(xiàn)】:
期刊論文
[1]多智能體強(qiáng)化學(xué)習(xí)在城市交通網(wǎng)絡(luò)信號(hào)控制方法中的應(yīng)用綜述[J]. 楊文臣,張輪,Zhu Feng.  計(jì)算機(jī)應(yīng)用研究. 2018(06)
[2]基于元學(xué)習(xí)的反艦導(dǎo)彈目標(biāo)識(shí)別研究[J]. 胡生亮,范學(xué)滿,賀靜波.  海軍工程大學(xué)學(xué)報(bào). 2018(01)
[3]有向圖中基于擾動(dòng)觀測器的線性多智能體系統(tǒng)一致性[J]. 楊東岳,梅杰.  自動(dòng)化學(xué)報(bào). 2018(06)
[4]一種基于視覺注意力機(jī)制的深度循環(huán)Q網(wǎng)絡(luò)模型[J]. 劉全,翟建偉,鐘珊,章宗長,周倩,章鵬.  計(jì)算機(jī)學(xué)報(bào). 2017(06)
[5]基于多智能體的城市道路短時(shí)交通流預(yù)測與仿真研究[J]. 朱湧,徐建川,陳曉利,李遠(yuǎn)哲.  公路交通技術(shù). 2016(06)
[6]隨機(jī)多智能體系統(tǒng)一致穩(wěn)定性分析[J]. 明平松,劉建昌.  控制與決策. 2016(03)
[7]基于多智能體的電動(dòng)汽車充電協(xié)同控制策略[J]. 許少倫,嚴(yán)正,馮冬涵,張良.  電力自動(dòng)化設(shè)備. 2014(11)
[8]多智能體系統(tǒng)及其協(xié)同控制研究進(jìn)展[J]. 劉佳,陳增強(qiáng),劉忠信.  智能系統(tǒng)學(xué)報(bào). 2010(01)



本文編號(hào):3303552

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3303552.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b8fc8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
欧美成人国产精品高清| 亚洲一区二区欧美在线| 人妻少妇久久中文字幕久久 | 中文字幕精品人妻一区| 午夜福利精品视频视频| 国产精品成人一区二区三区夜夜夜| 日韩人妻免费视频一专区| 日韩精品一区二区三区含羞含羞草| 久久亚洲精品中文字幕| 99秋霞在线观看视频| 人妻内射在线二区一区| 国产内射在线激情一区| 99日韩在线视频精品免费| 国产一区在线免费国产一区| 亚洲一区二区福利在线| 国产午夜精品亚洲精品国产| 我的性感妹妹在线观看| 日本亚洲欧美男人的天堂| 五月综合激情婷婷丁香| 91欧美一区二区三区成人| 91免费一区二区三区| 老富婆找帅哥按摩抠逼视频| 中文字幕禁断介一区二区| 欧美大黄片在线免费观看| 熟女乱一区二区三区四区| 国产麻豆视频一二三区| 国产成人精品一区二三区在线观看 | 日韩成人中文字幕在线一区| 亚洲男女性生活免费视频| 久久精品免费视看国产成人| 国产成人午夜av一区二区| 国产水滴盗摄一区二区| 久久永久免费一区二区| 亚洲av熟女一区二区三区蜜桃| 国产精品久久女同磨豆腐| 在线懂色一区二区三区精品| 国产韩国日本精品视频| 97人妻人人揉人人躁人人| 欧洲偷拍视频中文字幕| 国产精品九九九一区二区| 国产午夜免费在线视频|