基于增強(qiáng)學(xué)習(xí)的智能體博弈問(wèn)題研究
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:O225;TP18
【部分圖文】:
第一章 緒論博弈方的決策行為,靜態(tài)博弈均為非完備信息博弈。靜“囚徒困境”,兩方同時(shí)做出決策,且決策時(shí)不知道對(duì)方題沒(méi)有固定的先后次序,而是雙方都可以連續(xù)的進(jìn)行決弈。弈方的陣營(yíng),可以分為多方博弈、兩方博弈和單方博弈弈陣營(yíng)時(shí)為多方博弈,反之為兩方博弈。根據(jù)博弈方的弈和多體博弈,當(dāng)一方陣營(yíng)包含大于等于 2 個(gè)博弈者視。弈分類之間相互交叉,同一個(gè)問(wèn)題可能同屬于多個(gè)分類合作博弈、完全信息博弈、動(dòng)態(tài)博弈和兩方博弈。博弈問(wèn)題的初步了解,針對(duì)不同的博弈問(wèn)題,選用合適該問(wèn)題的重中之重,博弈領(lǐng)域的相關(guān)研究從 1960 年最高峰,單年產(chǎn)出 1369 篇成果,迄今累計(jì) 16125 篇成。
(d-1)A2C 收斂效果圖 (d-2)A2C 收斂效果圖 (d-3)A2C 收斂效果圖圖 3-11 基于混合網(wǎng)絡(luò)的仿真驗(yàn)證由上圖和上表可知,A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓(xùn)練后獎(jiǎng)勵(lì)曲線達(dá)到一個(gè)最高的值,但是由于不確定性等因素,獎(jiǎng)勵(lì)還是出現(xiàn)了一定的回落,策略也實(shí)現(xiàn)了收斂,任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng)絡(luò)都無(wú)法學(xué)習(xí)有效策略,雖然獎(jiǎng)勵(lì)曲線有高有低,但是任務(wù)完成率很低,都屬于無(wú)效的局部最優(yōu)策略。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力,可以對(duì)未來(lái)狀態(tài)進(jìn)行預(yù)測(cè),因此更加善于解決稀疏獎(jiǎng)勵(lì)問(wèn)題。(2)并行網(wǎng)絡(luò)學(xué)習(xí)效果分析在路徑規(guī)劃問(wèn)題中進(jìn)行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C 算法的仿真驗(yàn)證,得到仿真結(jié)果如下:表 3-6 任務(wù)完成情況統(tǒng)計(jì)表算法\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000-5000并行 PG 0.1 0.0 0.1 0.0 0.0
A2C 混合網(wǎng)絡(luò)在 1500 代左右的訓(xùn)練后獎(jiǎng)值,但是由于不確定性等因素,獎(jiǎng)勵(lì)還是出現(xiàn)了一定的斂,任務(wù)完成率大于 90%。而混合 PG 和混合 DQN 網(wǎng),雖然獎(jiǎng)勵(lì)曲線有高有低,但是任務(wù)完成率很低,都屬。分析原因可能是 A2C 網(wǎng)絡(luò)具有一定的建模能力,可,因此更加善于解決稀疏獎(jiǎng)勵(lì)問(wèn)題。并行網(wǎng)絡(luò)學(xué)習(xí)效果分析規(guī)劃問(wèn)題中進(jìn)行并行網(wǎng)絡(luò) PG 算法、DQN 算法和 A2C仿真結(jié)果如下:表 3-6 任務(wù)完成情況統(tǒng)計(jì)表\任務(wù)完成率迭代次數(shù)0-500 500-1500 1500-3000 3000-4000 4000并行 PG 0.1 0.0 0.1 0.0 0行 DQN 0.1 0.1 0.0 0.0 0并行 A2C 0.9 1.0 1.0 1.0 1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 姚健奎;;打造城市智能體[J];中國(guó)建設(shè)信息化;2019年03期
2 陳明陽(yáng);;《智能體感瑜伽墊》[J];藝術(shù)教育;2018年15期
3 大澤博隆;魯翠;;人與智能體交互:與人相關(guān)的人工智能系統(tǒng)設(shè)計(jì)[J];裝飾;2016年11期
4 李德偉;;創(chuàng)新智能體系統(tǒng)的軟件工程方法研究[J];西部素質(zhì)教育;2015年02期
5 馬家妮;武雅麗;;智能體技術(shù)在城市交通信號(hào)控制系統(tǒng)中應(yīng)用綜述[J];科技風(fēng);2015年13期
6 洪夢(mèng)丹;;論人類與人工智能體的道德矛盾[J];長(zhǎng)江叢刊;2017年27期
7 王東浩;;人工智能體引發(fā)的道德沖突和困境初探[J];倫理學(xué)研究;2014年02期
8 劉筱;;一種自治智能體的實(shí)現(xiàn)方案[J];信息系統(tǒng)工程;2013年02期
9 萬(wàn)路軍;姚佩陽(yáng);孫鵬;;有人/無(wú)人作戰(zhàn)智能體分布式任務(wù)分配方法[J];系統(tǒng)工程與電子技術(shù);2013年02期
10 蔡貴峰;;基于智能體系統(tǒng)的軟件工程開發(fā)途徑探究[J];硅谷;2013年03期
相關(guān)會(huì)議論文 前10條
1 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年
2 陸啟韶;;智能體系統(tǒng)的動(dòng)力學(xué)與控制問(wèn)題[A];第一屆全國(guó)神經(jīng)動(dòng)力學(xué)學(xué)術(shù)會(huì)議程序手冊(cè) & 論文摘要集[C];2012年
3 仵博;寧志宇;吳敏;;一種基于行為的雙層動(dòng)態(tài)智能體結(jié)構(gòu)[A];馬斯特杯2003年中國(guó)機(jī)器人大賽及研討會(huì)論文集[C];2003年
4 孫鐵利;楊永明;趙晶晶;;營(yíng)救智能體的研究與開發(fā)[A];2005年全國(guó)理論計(jì)算機(jī)科學(xué)學(xué)術(shù)年會(huì)論文集[C];2005年
5 王壯;李輝;李曉輝;沈鳳;;基于深度強(qiáng)化學(xué)習(xí)的作戰(zhàn)智能體研究[A];第六屆中國(guó)指揮控制大會(huì)論文集(上冊(cè))[C];2018年
6 高晶英;徐旭;;具有動(dòng)態(tài)網(wǎng)絡(luò)的多智能體動(dòng)態(tài)牽制蜂擁控制算法[A];第十屆動(dòng)力學(xué)與控制學(xué)術(shù)會(huì)議摘要集[C];2016年
7 李鋒;馮珊;魏瑩;周凱波;;基于移動(dòng)智能體技術(shù)的漏洞掃描系統(tǒng)模型[A];西部開發(fā)與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第12屆年會(huì)論文集[C];2002年
8 楊文;汪小帆;;異質(zhì)影響網(wǎng)絡(luò)中的一致性問(wèn)題[A];第三屆全國(guó)復(fù)雜動(dòng)態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2006年
9 曹江麗;;運(yùn)行在非結(jié)構(gòu)化環(huán)境下自主智能體的智能學(xué)習(xí)與控制[A];中國(guó)造船工程學(xué)會(huì)電子技術(shù)學(xué)術(shù)委員會(huì)2006學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2006年
10 羅小元;劉丹;;基于勢(shì)函數(shù)的多智能體群集與避障[A];第二十九屆中國(guó)控制會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 徐麗 陳虹妃;“智能+”時(shí)代 龍華創(chuàng)新構(gòu)建教育智能體[N];深圳商報(bào);2019年
2 國(guó)家新聞出版廣電總局?jǐn)?shù)字出版司副司長(zhǎng) 馮宏聲;百科未來(lái):融入智能體[N];中國(guó)新聞出版廣電報(bào);2018年
3 本報(bào)記者 高超;“超級(jí)智能體”正走來(lái)[N];通信產(chǎn)業(yè)報(bào);2017年
4 記者興科、通訊員楊樹兵、楊娜;阿拉山口 公路旅檢啟用智能體測(cè)系統(tǒng)[N];新疆日?qǐng)?bào)(漢);2009年
5 記者 倪紅梅;日本智能體重秤顯示減肥最佳時(shí)機(jī)[N];新華每日電訊;2006年
6 記者 張夢(mèng)然;“AI臨床醫(yī)生”學(xué)習(xí)智能體問(wèn)世[N];科技日?qǐng)?bào);2018年
7 南方日?qǐng)?bào)記者 蘇梓威;高交會(huì)展示智慧城市藍(lán)圖[N];南方日?qǐng)?bào);2018年
8 佛山日?qǐng)?bào)記者 文倩;那些愛上眾籌的佛山潮品[N];佛山日?qǐng)?bào);2015年
9 本報(bào)記者 李翔 劉書文;讓城市成為智慧有機(jī)體[N];人民日?qǐng)?bào);2018年
10 特約撰稿 羅超;小米發(fā)布智能體重秤 優(yōu)勢(shì)僅剩低價(jià)?[N];通信信息報(bào);2015年
相關(guān)博士學(xué)位論文 前10條
1 黃利偉;智能協(xié)同算法研究及應(yīng)用[D];電子科技大學(xué);2019年
2 李哲;面向工業(yè)應(yīng)用的智能體控制系統(tǒng)研究[D];西北工業(yè)大學(xué);2017年
3 宿云;基于本體的智能體情感識(shí)別與情感誘發(fā)研究[D];蘭州大學(xué);2019年
4 張文旭;基于一致性與事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)研究[D];西南交通大學(xué);2018年
5 吳剛;面向網(wǎng)絡(luò)計(jì)算的移動(dòng)智能體研究與實(shí)現(xiàn)[D];中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué);2000年
6 李章維;基于多Agent的數(shù)據(jù)廣播信息平臺(tái)研究及在遠(yuǎn)程教育中的應(yīng)用[D];浙江大學(xué);2004年
7 劉興華;證券市場(chǎng)動(dòng)力機(jī)制及智能體建模分析[D];東華大學(xué);2005年
8 程華農(nóng);面向智能體的化工過(guò)程運(yùn)行系統(tǒng)分析、模型化和集成策略的研究[D];華南理工大學(xué);2002年
9 李荷華;面向智能體的化工過(guò)程運(yùn)行系統(tǒng)信息集成模型研究[D];華南理工大學(xué);2003年
10 宋一兵;計(jì)算機(jī)生成兵力中智能體技術(shù)與應(yīng)用研究[D];哈爾濱工程大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 董詩(shī)音;基于增強(qiáng)學(xué)習(xí)的智能體博弈問(wèn)題研究[D];哈爾濱工業(yè)大學(xué);2019年
2 李明豪;基于深度強(qiáng)化學(xué)習(xí)的非完備信息3D視頻游戲博弈算法研究[D];哈爾濱工業(yè)大學(xué);2018年
3 毛建博;基于虛擬自我對(duì)局的多人非完備信息機(jī)器博弈策略研究[D];哈爾濱工業(yè)大學(xué);2018年
4 單慧;基于神經(jīng)調(diào)節(jié)機(jī)理的發(fā)育網(wǎng)絡(luò)設(shè)計(jì)與應(yīng)用[D];鄭州大學(xué);2019年
5 陳明陽(yáng);智能體感瑜伽墊設(shè)計(jì)[D];深圳大學(xué);2018年
6 王征;人工智能體的法律主體地位研究[D];河北師范大學(xué);2019年
7 丁治強(qiáng);基于Q-learning行為樹的人群組行為建模與仿真[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年
8 吳悅晨;面向視覺感知與導(dǎo)航的深度強(qiáng)化學(xué)習(xí)算法研究與實(shí)現(xiàn)[D];山東大學(xué);2019年
9 王怡然;面向公共安全的人員建模與仿真研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年
10 李建清;智能體的環(huán)境視覺感知與應(yīng)用[D];山東大學(xué);2018年
本文編號(hào):2820468
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2820468.html