天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于增強學習的智能體博弈問題研究

發(fā)布時間:2020-09-17 08:12
   隨著無人技術(shù)的發(fā)展,如何更好的應用無人裝備,成為急需解決的問題。又由于無人技術(shù)應用中的智能體博弈問題的相關(guān)研究中,經(jīng)典的方法大多缺少模型抽象能力,往往需要在問題解算過程中進行較多的人為干預,而增強學習具有與問題交互,自動進行問題建模并求解的能力。因此,本文的研究目標是基于已有的主流增強學習算法,在實際的智能體博弈問題中,進行有針對性的應用與改進,從而一定程度上地解決該博弈問題。本文首先針對研究的智能體博弈問題,分析并進行數(shù)學建模。同時,為了便于增強學習的算法設(shè)計,根據(jù)設(shè)計的解耦原則,建立解耦的路徑規(guī)劃問題和攻防對抗問題的數(shù)學模型。然后,基于上述數(shù)學模型,實現(xiàn)智能體博弈問題仿真環(huán)境的搭建,與增強學習算法進行交互。算法研究部分,首先針對路徑規(guī)劃和攻防對抗問題,研究狀態(tài)設(shè)計與獎勵設(shè)計,并應用主流的策略梯度、DQN和A2C增強學習算法進行解算,結(jié)合學習效果與問題分析,將網(wǎng)絡(luò)結(jié)構(gòu)改進為并行網(wǎng)絡(luò)結(jié)構(gòu)和分支網(wǎng)絡(luò)結(jié)構(gòu)。從不同算法和不同改進方法兩個角度,對算法的求解效果進行比較,從中評估最適合應用與原問題求解的分支A2C方法。最后,基于路徑規(guī)劃和攻防對抗問題的研究結(jié)果,設(shè)計原問題的狀態(tài)與獎勵,應用上述策略梯度、DQN和A2C增強學習算法的正常網(wǎng)絡(luò)結(jié)構(gòu)、分支結(jié)構(gòu)和并行網(wǎng)絡(luò)結(jié)構(gòu),進行智能體博弈問題求解,驗證基于解耦問題算法分析結(jié)果的有效性。設(shè)計的并行網(wǎng)絡(luò)結(jié)構(gòu)將博弈問題中的互相解耦的動作用不同的網(wǎng)絡(luò)分別決策,降低了每個獨立網(wǎng)絡(luò)學習的難度,雖然增加了學習的不平穩(wěn)性,但是對學習效果有較為明顯的提升。設(shè)計的分支網(wǎng)絡(luò)將互相解耦的動作,公用網(wǎng)絡(luò)的特征提取層,采用不同的網(wǎng)絡(luò)輸出結(jié)構(gòu),既降低了網(wǎng)絡(luò)的學習難度,又降低了學習的不平穩(wěn)性。最終,降低了智能體博弈問題的學習難度,擴大了增強學習算法的學習能力。
【學位單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:O225;TP18
【部分圖文】:

走勢圖,博弈方


第一章 緒論博弈方的決策行為,靜態(tài)博弈均為非完備信息博弈。靜“囚徒困境”,兩方同時做出決策,且決策時不知道對方題沒有固定的先后次序,而是雙方都可以連續(xù)的進行決弈。弈方的陣營,可以分為多方博弈、兩方博弈和單方博弈弈陣營時為多方博弈,反之為兩方博弈。根據(jù)博弈方的弈和多體博弈,當一方陣營包含大于等于 2 個博弈者視。弈分類之間相互交叉,同一個問題可能同屬于多個分類合作博弈、完全信息博弈、動態(tài)博弈和兩方博弈。博弈問題的初步了解,針對不同的博弈問題,選用合適該問題的重中之重,博弈領(lǐng)域的相關(guān)研究從 1960 年最高峰,單年產(chǎn)出 1369 篇成果,迄今累計 16125 篇成。

曲線,混合網(wǎng)絡(luò),仿真驗證


(d-1)A2C 收斂效果圖 (d-2)A2C 收斂效果圖 (d-3)A2C 收斂效果圖圖 3-11 基于混合網(wǎng)絡(luò)的仿真驗證由上圖和上表可知,A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓練后獎勵曲線達到一個最高的值,但是由于不確定性等因素,獎勵還是出現(xiàn)了一定的回落,策略也實現(xiàn)了收斂,任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng)絡(luò)都無法學習有效策略,雖然獎勵曲線有高有低,但是任務(wù)完成率很低,都屬于無效的局部最優(yōu)策略。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力,可以對未來狀態(tài)進行預測,因此更加善于解決稀疏獎勵問題。(2)并行網(wǎng)絡(luò)學習效果分析在路徑規(guī)劃問題中進行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C 算法的仿真驗證,得到仿真結(jié)果如下:表 3-6 任務(wù)完成情況統(tǒng)計表算法\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000-5000并行 PG 0.1 0.0 0.1 0.0 0.0

曲線,并行網(wǎng)絡(luò),對比圖


A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓練后獎值,但是由于不確定性等因素,獎勵還是出現(xiàn)了一定的斂,任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng),雖然獎勵曲線有高有低,但是任務(wù)完成率很低,都屬。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力,可,因此更加善于解決稀疏獎勵問題。并行網(wǎng)絡(luò)學習效果分析規(guī)劃問題中進行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C仿真結(jié)果如下:表 3-6 任務(wù)完成情況統(tǒng)計表\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000并行 PG 0.1 0.0 0.1 0.0 0行 DQN 0.1 0.1 0.0 0.0 0并行 A2C 0.9 1.0 1.0 1.0 1

【相似文獻】

相關(guān)期刊論文 前10條

1 姚健奎;;打造城市智能體[J];中國建設(shè)信息化;2019年03期

2 陳明陽;;《智能體感瑜伽墊》[J];藝術(shù)教育;2018年15期

3 大澤博隆;魯翠;;人與智能體交互:與人相關(guān)的人工智能系統(tǒng)設(shè)計[J];裝飾;2016年11期

4 李德偉;;創(chuàng)新智能體系統(tǒng)的軟件工程方法研究[J];西部素質(zhì)教育;2015年02期

5 馬家妮;武雅麗;;智能體技術(shù)在城市交通信號控制系統(tǒng)中應用綜述[J];科技風;2015年13期

6 洪夢丹;;論人類與人工智能體的道德矛盾[J];長江叢刊;2017年27期

7 王東浩;;人工智能體引發(fā)的道德沖突和困境初探[J];倫理學研究;2014年02期

8 劉筱;;一種自治智能體的實現(xiàn)方案[J];信息系統(tǒng)工程;2013年02期

9 萬路軍;姚佩陽;孫鵬;;有人/無人作戰(zhàn)智能體分布式任務(wù)分配方法[J];系統(tǒng)工程與電子技術(shù);2013年02期

10 蔡貴峰;;基于智能體系統(tǒng)的軟件工程開發(fā)途徑探究[J];硅谷;2013年03期

相關(guān)會議論文 前10條

1 陸啟韶;;智能體系統(tǒng)的動力學與控制問題[A];第一屆全國神經(jīng)動力學學術(shù)會議程序手冊 & 論文摘要集[C];2012年

2 陸啟韶;;智能體系統(tǒng)的動力學與控制問題[A];第一屆全國神經(jīng)動力學學術(shù)會議程序手冊 & 論文摘要集[C];2012年

3 仵博;寧志宇;吳敏;;一種基于行為的雙層動態(tài)智能體結(jié)構(gòu)[A];馬斯特杯2003年中國機器人大賽及研討會論文集[C];2003年

4 孫鐵利;楊永明;趙晶晶;;營救智能體的研究與開發(fā)[A];2005年全國理論計算機科學學術(shù)年會論文集[C];2005年

5 王壯;李輝;李曉輝;沈鳳;;基于深度強化學習的作戰(zhàn)智能體研究[A];第六屆中國指揮控制大會論文集(上冊)[C];2018年

6 高晶英;徐旭;;具有動態(tài)網(wǎng)絡(luò)的多智能體動態(tài)牽制蜂擁控制算法[A];第十屆動力學與控制學術(shù)會議摘要集[C];2016年

7 李鋒;馮珊;魏瑩;周凱波;;基于移動智能體技術(shù)的漏洞掃描系統(tǒng)模型[A];西部開發(fā)與系統(tǒng)工程——中國系統(tǒng)工程學會第12屆年會論文集[C];2002年

8 楊文;汪小帆;;異質(zhì)影響網(wǎng)絡(luò)中的一致性問題[A];第三屆全國復雜動態(tài)網(wǎng)絡(luò)學術(shù)論壇論文集[C];2006年

9 曹江麗;;運行在非結(jié)構(gòu)化環(huán)境下自主智能體的智能學習與控制[A];中國造船工程學會電子技術(shù)學術(shù)委員會2006學術(shù)年會論文集(下冊)[C];2006年

10 羅小元;劉丹;;基于勢函數(shù)的多智能體群集與避障[A];第二十九屆中國控制會議論文集[C];2010年

相關(guān)重要報紙文章 前10條

1 徐麗 陳虹妃;“智能+”時代 龍華創(chuàng)新構(gòu)建教育智能體[N];深圳商報;2019年

2 國家新聞出版廣電總局數(shù)字出版司副司長 馮宏聲;百科未來:融入智能體[N];中國新聞出版廣電報;2018年

3 本報記者 高超;“超級智能體”正走來[N];通信產(chǎn)業(yè)報;2017年

4 記者興科、通訊員楊樹兵、楊娜;阿拉山口 公路旅檢啟用智能體測系統(tǒng)[N];新疆日報(漢);2009年

5 記者 倪紅梅;日本智能體重秤顯示減肥最佳時機[N];新華每日電訊;2006年

6 記者 張夢然;“AI臨床醫(yī)生”學習智能體問世[N];科技日報;2018年

7 南方日報記者 蘇梓威;高交會展示智慧城市藍圖[N];南方日報;2018年

8 佛山日報記者 文倩;那些愛上眾籌的佛山潮品[N];佛山日報;2015年

9 本報記者 李翔 劉書文;讓城市成為智慧有機體[N];人民日報;2018年

10 特約撰稿 羅超;小米發(fā)布智能體重秤 優(yōu)勢僅剩低價?[N];通信信息報;2015年

相關(guān)博士學位論文 前10條

1 黃利偉;智能協(xié)同算法研究及應用[D];電子科技大學;2019年

2 李哲;面向工業(yè)應用的智能體控制系統(tǒng)研究[D];西北工業(yè)大學;2017年

3 宿云;基于本體的智能體情感識別與情感誘發(fā)研究[D];蘭州大學;2019年

4 張文旭;基于一致性與事件驅(qū)動的強化學習研究[D];西南交通大學;2018年

5 吳剛;面向網(wǎng)絡(luò)計算的移動智能體研究與實現(xiàn)[D];中國人民解放軍國防科學技術(shù)大學;2000年

6 李章維;基于多Agent的數(shù)據(jù)廣播信息平臺研究及在遠程教育中的應用[D];浙江大學;2004年

7 劉興華;證券市場動力機制及智能體建模分析[D];東華大學;2005年

8 程華農(nóng);面向智能體的化工過程運行系統(tǒng)分析、模型化和集成策略的研究[D];華南理工大學;2002年

9 李荷華;面向智能體的化工過程運行系統(tǒng)信息集成模型研究[D];華南理工大學;2003年

10 宋一兵;計算機生成兵力中智能體技術(shù)與應用研究[D];哈爾濱工程大學;2006年

相關(guān)碩士學位論文 前10條

1 董詩音;基于增強學習的智能體博弈問題研究[D];哈爾濱工業(yè)大學;2019年

2 李明豪;基于深度強化學習的非完備信息3D視頻游戲博弈算法研究[D];哈爾濱工業(yè)大學;2018年

3 毛建博;基于虛擬自我對局的多人非完備信息機器博弈策略研究[D];哈爾濱工業(yè)大學;2018年

4 單慧;基于神經(jīng)調(diào)節(jié)機理的發(fā)育網(wǎng)絡(luò)設(shè)計與應用[D];鄭州大學;2019年

5 陳明陽;智能體感瑜伽墊設(shè)計[D];深圳大學;2018年

6 王征;人工智能體的法律主體地位研究[D];河北師范大學;2019年

7 丁治強;基于Q-learning行為樹的人群組行為建模與仿真[D];中國科學技術(shù)大學;2019年

8 吳悅晨;面向視覺感知與導航的深度強化學習算法研究與實現(xiàn)[D];山東大學;2019年

9 王怡然;面向公共安全的人員建模與仿真研究[D];中國科學技術(shù)大學;2018年

10 李建清;智能體的環(huán)境視覺感知與應用[D];山東大學;2018年



本文編號:2820468

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2820468.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶301dd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com