當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于增強(qiáng)學(xué)習(xí)的智能體博弈問(wèn)題研究

發(fā)布時(shí)間：2020-09-17 08:12

　　隨著無(wú)人技術(shù)的發(fā)展,如何更好的應(yīng)用無(wú)人裝備,成為急需解決的問(wèn)題。又由于無(wú)人技術(shù)應(yīng)用中的智能體博弈問(wèn)題的相關(guān)研究中,經(jīng)典的方法大多缺少模型抽象能力,往往需要在問(wèn)題解算過(guò)程中進(jìn)行較多的人為干預(yù),而增強(qiáng)學(xué)習(xí)具有與問(wèn)題交互,自動(dòng)進(jìn)行問(wèn)題建模并求解的能力。因此,本文的研究目標(biāo)是基于已有的主流增強(qiáng)學(xué)習(xí)算法,在實(shí)際的智能體博弈問(wèn)題中,進(jìn)行有針對(duì)性的應(yīng)用與改進(jìn),從而一定程度上地解決該博弈問(wèn)題。本文首先針對(duì)研究的智能體博弈問(wèn)題,分析并進(jìn)行數(shù)學(xué)建模。同時(shí),為了便于增強(qiáng)學(xué)習(xí)的算法設(shè)計(jì),根據(jù)設(shè)計(jì)的解耦原則,建立解耦的路徑規(guī)劃問(wèn)題和攻防對(duì)抗問(wèn)題的數(shù)學(xué)模型。然后,基于上述數(shù)學(xué)模型,實(shí)現(xiàn)智能體博弈問(wèn)題仿真環(huán)境的搭建,與增強(qiáng)學(xué)習(xí)算法進(jìn)行交互。算法研究部分,首先針對(duì)路徑規(guī)劃和攻防對(duì)抗問(wèn)題,研究狀態(tài)設(shè)計(jì)與獎(jiǎng)勵(lì)設(shè)計(jì),并應(yīng)用主流的策略梯度、DQN和A2C增強(qiáng)學(xué)習(xí)算法進(jìn)行解算,結(jié)合學(xué)習(xí)效果與問(wèn)題分析,將網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)為并行網(wǎng)絡(luò)結(jié)構(gòu)和分支網(wǎng)絡(luò)結(jié)構(gòu)。從不同算法和不同改進(jìn)方法兩個(gè)角度,對(duì)算法的求解效果進(jìn)行比較,從中評(píng)估最適合應(yīng)用與原問(wèn)題求解的分支A2C方法。最后,基于路徑規(guī)劃和攻防對(duì)抗問(wèn)題的研究結(jié)果,設(shè)計(jì)原問(wèn)題的狀態(tài)與獎(jiǎng)勵(lì),應(yīng)用上述策略梯度、DQN和A2C增強(qiáng)學(xué)習(xí)算法的正常網(wǎng)絡(luò)結(jié)構(gòu)、分支結(jié)構(gòu)和并行網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行智能體博弈問(wèn)題求解,驗(yàn)證基于解耦問(wèn)題算法分析結(jié)果的有效性。設(shè)計(jì)的并行網(wǎng)絡(luò)結(jié)構(gòu)將博弈問(wèn)題中的互相解耦的動(dòng)作用不同的網(wǎng)絡(luò)分別決策,降低了每個(gè)獨(dú)立網(wǎng)絡(luò)學(xué)習(xí)的難度,雖然增加了學(xué)習(xí)的不平穩(wěn)性,但是對(duì)學(xué)習(xí)效果有較為明顯的提升。設(shè)計(jì)的分支網(wǎng)絡(luò)將互相解耦的動(dòng)作,公用網(wǎng)絡(luò)的特征提取層,采用不同的網(wǎng)絡(luò)輸出結(jié)構(gòu),既降低了網(wǎng)絡(luò)的學(xué)習(xí)難度,又降低了學(xué)習(xí)的不平穩(wěn)性。最終,降低了智能體博弈問(wèn)題的學(xué)習(xí)難度,擴(kuò)大了增強(qiáng)學(xué)習(xí)算法的學(xué)習(xí)能力。
【學(xué)位單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位年份】：2019
【中圖分類】：O225;TP18
【部分圖文】：

走勢(shì)圖,博弈方

第一章緒論博弈方的決策行為，靜態(tài)博弈均為非完備信息博弈。靜“囚徒困境”，兩方同時(shí)做出決策，且決策時(shí)不知道對(duì)方題沒(méi)有固定的先后次序，而是雙方都可以連續(xù)的進(jìn)行決弈。弈方的陣營(yíng)，可以分為多方博弈、兩方博弈和單方博弈弈陣營(yíng)時(shí)為多方博弈，反之為兩方博弈。根據(jù)博弈方的弈和多體博弈，當(dāng)一方陣營(yíng)包含大于等于 2 個(gè)博弈者視。弈分類之間相互交叉，同一個(gè)問(wèn)題可能同屬于多個(gè)分類合作博弈、完全信息博弈、動(dòng)態(tài)博弈和兩方博弈。博弈問(wèn)題的初步了解，針對(duì)不同的博弈問(wèn)題，選用合適該問(wèn)題的重中之重，博弈領(lǐng)域的相關(guān)研究從 1960 年最高峰，單年產(chǎn)出 1369 篇成果，迄今累計(jì) 16125 篇成。

曲線,混合網(wǎng)絡(luò),仿真驗(yàn)證

(d-1)A2C 收斂效果圖 (d-2)A2C 收斂效果圖 (d-3)A2C 收斂效果圖圖 3-11 基于混合網(wǎng)絡(luò)的仿真驗(yàn)證由上圖和上表可知，A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓(xùn)練后獎(jiǎng)勵(lì)曲線達(dá)到一個(gè)最高的值，但是由于不確定性等因素，獎(jiǎng)勵(lì)還是出現(xiàn)了一定的回落，策略也實(shí)現(xiàn)了收斂，任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng)絡(luò)都無(wú)法學(xué)習(xí)有效策略，雖然獎(jiǎng)勵(lì)曲線有高有低，但是任務(wù)完成率很低，都屬于無(wú)效的局部最優(yōu)策略。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力，可以對(duì)未來(lái)狀態(tài)進(jìn)行預(yù)測(cè)，因此更加善于解決稀疏獎(jiǎng)勵(lì)問(wèn)題。（2）并行網(wǎng)絡(luò)學(xué)習(xí)效果分析在路徑規(guī)劃問(wèn)題中進(jìn)行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C 算法的仿真驗(yàn)證，得到仿真結(jié)果如下：表 3-6 任務(wù)完成情況統(tǒng)計(jì)表算法\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000-5000并行 PG 0.1 0.0 0.1 0.0 0.0

曲線,并行網(wǎng)絡(luò),對(duì)比圖

A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓(xùn)練后獎(jiǎng)值，但是由于不確定性等因素，獎(jiǎng)勵(lì)還是出現(xiàn)了一定的斂，任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng)，雖然獎(jiǎng)勵(lì)曲線有高有低，但是任務(wù)完成率很低，都屬。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力，可，因此更加善于解決稀疏獎(jiǎng)勵(lì)問(wèn)題。并行網(wǎng)絡(luò)學(xué)習(xí)效果分析規(guī)劃問(wèn)題中進(jìn)行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C仿真結(jié)果如下：表 3-6 任務(wù)完成情況統(tǒng)計(jì)表\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000并行 PG 0.1 0.0 0.1 0.0 0行 DQN 0.1 0.1 0.0 0.0 0并行 A2C 0.9 1.0 1.0 1.0 1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 姚健奎;;打造城市智能體[J];中國(guó)建設(shè)信息化;2019年03期

2 陳明陽(yáng);;《智能體感瑜伽墊》[J];藝術(shù)教育;2018年15期

3 大澤博隆;魯翠;;人與智能體交互:與人相關(guān)的人工智能系統(tǒng)設(shè)計(jì)[J];裝飾;2016年11期

4 李德偉;;創(chuàng)新智能體系統(tǒng)的軟件工程方法研究[J];西部素質(zhì)教育;2015年02期

5 馬家妮;武雅麗;;智能體技術(shù)在城市交通信號(hào)控制系統(tǒng)中應(yīng)用綜述[J];科技風(fēng);2015年13期

6 洪夢(mèng)丹;;論人類與人工智能體的道德矛盾[J];長(zhǎng)江叢刊;2017年27期

7 王東浩;;人工智能體引發(fā)的道德沖突和困境初探[J];倫理學(xué)研究;2014年02期

8 劉筱;;一種自治智能體的實(shí)現(xiàn)方案[J];信息系統(tǒng)工程;2013年02期

9 萬(wàn)路軍;姚佩陽(yáng);孫鵬;;有人/無(wú)人作戰(zhàn)智能體分布式任務(wù)分配方法[J];系統(tǒng)工程與電子技術(shù);2013年02期

10 蔡貴峰;;基于智能體系統(tǒng)的軟件工程開發(fā)途徑探究[J];硅谷;2013年03期

相關(guān)會(huì)議論文前10條

1 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年

2 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年

3 仵博;寧志宇;吳敏;;一種基于行為的雙層動(dòng)態(tài)智能體結(jié)構(gòu)[A];馬斯特杯2003年中國(guó)機(jī)器人大賽及研討會(huì)論文集[C];2003年

4 孫鐵利;楊永明;趙晶晶;;營(yíng)救智能體的研究與開發(fā)[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年

5 王壯;李輝;李曉輝;沈鳳;;基于深度強(qiáng)化學(xué)習(xí)的作戰(zhàn)智能體研究[A];第六屆中國(guó)指揮控制大會(huì)論文集（上冊(cè)）[C];2018年

6 高晶英;徐旭;;具有動(dòng)態(tài)網(wǎng)絡(luò)的多智能體動(dòng)態(tài)牽制蜂擁控制算法[A];第十屆動(dòng)力學(xué)與控制學(xué)術(shù)會(huì)議摘要集[C];2016年

7 李鋒;馮珊;魏瑩;周凱波;;基于移動(dòng)智能體技術(shù)的漏洞掃描系統(tǒng)模型[A];西部開發(fā)與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第12屆年會(huì)論文集[C];2002年

8 楊文;汪小帆;;異質(zhì)影響網(wǎng)絡(luò)中的一致性問(wèn)題[A];第三屆全國(guó)復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2006年

9 曹江麗;;運(yùn)行在非結(jié)構(gòu)化環(huán)境下自主智能體的智能學(xué)習(xí)與控制[A];中國(guó)造船工程學(xué)會(huì)電子技術(shù)學(xué)術(shù)委員會(huì)2006學(xué)術(shù)年會(huì)論文集（下冊(cè)）[C];2006年

10 羅小元;劉丹;;基于勢(shì)函數(shù)的多智能體群集與避障[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年

相關(guān)重要報(bào)紙文章前10條

1 徐麗陳虹妃;“智能+”時(shí)代龍華創(chuàng)新構(gòu)建教育智能體[N];深圳商報(bào);2019年

2 國(guó)家新聞出版廣電總局?jǐn)?shù)字出版司副司長(zhǎng) 馮宏聲;百科未來(lái)：融入智能體[N];中國(guó)新聞出版廣電報(bào);2018年

3 本報(bào)記者高超;“超級(jí)智能體”正走來(lái)[N];通信產(chǎn)業(yè)報(bào);2017年

4 記者興科、通訊員楊樹兵、楊娜;阿拉山口公路旅檢啟用智能體測(cè)系統(tǒng)[N];新疆日?qǐng)?bào)(漢);2009年

5 記者　倪紅梅;日本智能體重秤顯示減肥最佳時(shí)機(jī)[N];新華每日電訊;2006年

6 記者張夢(mèng)然;“AI臨床醫(yī)生”學(xué)習(xí)智能體問(wèn)世[N];科技日?qǐng)?bào);2018年

7 南方日?qǐng)?bào)記者蘇梓威;高交會(huì)展示智慧城市藍(lán)圖[N];南方日?qǐng)?bào);2018年

8 佛山日?qǐng)?bào)記者文倩;那些愛上眾籌的佛山潮品[N];佛山日?qǐng)?bào);2015年

9 本報(bào)記者李翔劉書文;讓城市成為智慧有機(jī)體[N];人民日?qǐng)?bào);2018年

10 特約撰稿羅超;小米發(fā)布智能體重秤優(yōu)勢(shì)僅剩低價(jià)？[N];通信信息報(bào);2015年

相關(guān)博士學(xué)位論文前10條

1 黃利偉;智能協(xié)同算法研究及應(yīng)用[D];電子科技大學(xué);2019年

2 李哲;面向工業(yè)應(yīng)用的智能體控制系統(tǒng)研究[D];西北工業(yè)大學(xué);2017年

3 宿云;基于本體的智能體情感識(shí)別與情感誘發(fā)研究[D];蘭州大學(xué);2019年

4 張文旭;基于一致性與事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)研究[D];西南交通大學(xué);2018年

5 吳剛;面向網(wǎng)絡(luò)計(jì)算的移動(dòng)智能體研究與實(shí)現(xiàn)[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年

6 李章維;基于多Agent的數(shù)據(jù)廣播信息平臺(tái)研究及在遠(yuǎn)程教育中的應(yīng)用[D];浙江大學(xué);2004年

7 劉興華;證券市場(chǎng)動(dòng)力機(jī)制及智能體建模分析[D];東華大學(xué);2005年

8 程華農(nóng);面向智能體的化工過(guò)程運(yùn)行系統(tǒng)分析、模型化和集成策略的研究[D];華南理工大學(xué);2002年

9 李荷華;面向智能體的化工過(guò)程運(yùn)行系統(tǒng)信息集成模型研究[D];華南理工大學(xué);2003年

10 宋一兵;計(jì)算機(jī)生成兵力中智能體技術(shù)與應(yīng)用研究[D];哈爾濱工程大學(xué);2006年

相關(guān)碩士學(xué)位論文前10條

1 董詩(shī)音;基于增強(qiáng)學(xué)習(xí)的智能體博弈問(wèn)題研究[D];哈爾濱工業(yè)大學(xué);2019年

2 李明豪;基于深度強(qiáng)化學(xué)習(xí)的非完備信息3D視頻游戲博弈算法研究[D];哈爾濱工業(yè)大學(xué);2018年

3 毛建博;基于虛擬自我對(duì)局的多人非完備信息機(jī)器博弈策略研究[D];哈爾濱工業(yè)大學(xué);2018年

4 單慧;基于神經(jīng)調(diào)節(jié)機(jī)理的發(fā)育網(wǎng)絡(luò)設(shè)計(jì)與應(yīng)用[D];鄭州大學(xué);2019年

5 陳明陽(yáng);智能體感瑜伽墊設(shè)計(jì)[D];深圳大學(xué);2018年

6 王征;人工智能體的法律主體地位研究[D];河北師范大學(xué);2019年

7 丁治強(qiáng);基于Q-learning行為樹的人群組行為建模與仿真[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年

8 吳悅晨;面向視覺感知與導(dǎo)航的深度強(qiáng)化學(xué)習(xí)算法研究與實(shí)現(xiàn)[D];山東大學(xué);2019年

9 王怡然;面向公共安全的人員建模與仿真研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年

10 李建清;智能體的環(huán)境視覺感知與應(yīng)用[D];山東大學(xué);2018年

本文編號(hào)：2820468

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2820468.html

上一篇：面向復(fù)雜曲面葉片的機(jī)器人接觸式原位測(cè)量技術(shù)
下一篇：基于多Sink節(jié)點(diǎn)的異構(gòu)WSN構(gòu)建及在礦井環(huán)境中的應(yīng)用基礎(chǔ)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于增強(qiáng)學(xué)習(xí)的智能體博弈問(wèn)題研究