當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于CNN和MCTS的非完備信息機(jī)器博弈研究

發(fā)布時(shí)間：2020-04-18 18:28

【摘要】：自從提出人工智能概念以來(lái),機(jī)器博弈一直是最具挑戰(zhàn)性的研究方向之一。機(jī)器博弈分為完備信息機(jī)器博弈和不完備信息機(jī)器博弈。不完備信息機(jī)器博弈的特點(diǎn)是玩家在博弈過(guò)程中無(wú)法獲得所有的信息�，F(xiàn)實(shí)世界中的許多決策問(wèn)題都可以抽象為不完備信息博弈問(wèn)題,例如機(jī)場(chǎng)規(guī)劃,網(wǎng)絡(luò)安全,財(cái)務(wù)和能源問(wèn)題。因此,研究不完備信息機(jī)器博弈具有重要的現(xiàn)實(shí)意義。解決不完備信息機(jī)器博弈問(wèn)題的傳統(tǒng)方法是局部可觀察的馬爾可夫決策過(guò)程模型和強(qiáng)化學(xué)習(xí)算法。但是,強(qiáng)化學(xué)習(xí)不能在信息不完整和高維狀態(tài)空間的情況下收斂。僅通過(guò)有限的數(shù)據(jù)和重復(fù)的測(cè)試就不可能遍歷所有狀態(tài)。本文提出了一種深度學(xué)習(xí)網(wǎng)絡(luò)模型來(lái)解決一些不完備信息機(jī)器博弈問(wèn)題中的大狀態(tài)空間問(wèn)題。由于引入了人類(lèi)經(jīng)驗(yàn),因此基于神經(jīng)網(wǎng)絡(luò)的模型可以模擬博弈中的人類(lèi)合作。本文提出了一種基于蒙特卡洛樹(shù)搜索和簡(jiǎn)單風(fēng)險(xiǎn)模型的不完全信息博弈方法。本文使用深度學(xué)習(xí)網(wǎng)絡(luò)代替強(qiáng)化學(xué)習(xí)中的狀態(tài)作用值函數(shù),解決了強(qiáng)化學(xué)習(xí)無(wú)法在高維狀態(tài)空間中收斂的問(wèn)題。本文將深度神經(jīng)網(wǎng)絡(luò)和改進(jìn)的深度強(qiáng)化學(xué)習(xí)算法應(yīng)用于信息不完全的機(jī)器博弈中,實(shí)現(xiàn)了二打一的機(jī)器博弈系統(tǒng)。與傳統(tǒng)的學(xué)習(xí)算法相比,從感知到行動(dòng)到端到端的學(xué)習(xí)策略達(dá)到了更高的博弈水平。改進(jìn)的深度強(qiáng)化學(xué)習(xí)為大規(guī)模機(jī)器博弈系統(tǒng)的實(shí)現(xiàn)提供了一種可行的方法,也為將其擴(kuò)展到現(xiàn)實(shí)生活提供了可能性。
【圖文】：

蒙特卡洛,算法流程,機(jī)制選擇

33圖 4.2 蒙特卡洛博弈樹(shù)搜索算法流程然后從新擴(kuò)展的葉節(jié)點(diǎn) tl進(jìn)行仿真，以產(chǎn)生獎(jiǎng)勵(lì)值，，然后將該獎(jiǎng)勵(lì)值反向傳播至為此迭代選擇的節(jié)點(diǎn)序列，以更新節(jié)點(diǎn)統(tǒng)計(jì)信息；每個(gè)節(jié)點(diǎn)的訪問(wèn)次數(shù)都會(huì)增加，其平均獎(jiǎng)勵(lì)或 Q 值會(huì)根據(jù) 更新。對(duì)于較簡(jiǎn)單的域，獎(jiǎng)勵(lì)值Δ可以是離散的（獲勝/平局/虧損）結(jié)果，也可以是連續(xù)的獎(jiǎng)勵(lì)值，對(duì)于更復(fù)雜的多玩家域，獎(jiǎng)勵(lì)值可以是相對(duì)于每個(gè)玩家 p 的獎(jiǎng)勵(lì)值向量。一旦搜索中斷或達(dá)到計(jì)算預(yù)算，搜索就會(huì)終止，并通過(guò)某種機(jī)制選擇根節(jié)點(diǎn) t0的
【學(xué)位授予單位】：西安電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類(lèi)號(hào)】：TP18

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 郭琴琴;李淑琴;包華;;亞馬遜棋機(jī)器博弈系統(tǒng)中評(píng)估函數(shù)的研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年34期

2 ;2007全國(guó)機(jī)器博弈學(xué)術(shù)研討會(huì)征稿[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年02期

3 張加佳;王軒;;機(jī)器博弈風(fēng)險(xiǎn)分析及其估算方法的研究[J];高技術(shù)通訊;2013年09期

4 張振;龐海;;機(jī)器博弈及其搜索算法的研究[J];軟件導(dǎo)刊;2008年07期

5 張振;顧治華;;機(jī)器博弈及其搜索算法的研究[J];電腦知識(shí)與技術(shù);2008年24期

6 ;“第二屆中國(guó)機(jī)器博弈錦標(biāo)賽暨2007中國(guó)機(jī)器博弈學(xué)術(shù)研討會(huì)”于2007年10月在重慶工學(xué)院隆重舉行[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2007年12期

7 ;棋訊[J];棋藝(象棋);2010年12期

8 何軒;洪迎偉;王開(kāi)譯;彭耶萍;;機(jī)器博弈中搜索策略和估值函數(shù)的設(shè)計(jì)——以六子棋為例[J];電腦知識(shí)與技術(shù);2019年34期

9 劉成;李飛;孫玉霞;尹航;邱虹坤;王亞杰;;貫穿式案例教學(xué)法在機(jī)器博弈課程中的實(shí)踐[J];計(jì)算機(jī)教育;2019年08期

10 ;中國(guó)人工智能學(xué)會(huì)機(jī)器博弈專(zhuān)業(yè)委員會(huì)[J];智能系統(tǒng)學(xué)報(bào);2013年01期

相關(guān)會(huì)議論文前4條

1 王玨;程然;王驕;;人工神經(jīng)元網(wǎng)絡(luò)結(jié)合TD(λ)算法在中國(guó)象棋機(jī)器博弈中的應(yīng)用[A];2009中國(guó)控制與決策會(huì)議論文集（2）[C];2009年

2 朱峰;張雪峰;徐心和;;關(guān)于機(jī)器博弈中的逐步展開(kāi)型對(duì)策的一點(diǎn)討論[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年

3 徐心和;王浩;孔凡禹;;事件對(duì)策理論及在棋類(lèi)游戲中的應(yīng)用[A];2007年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2007年

4 王洪巖;朱峰;張雪峰;李玉倩;安爽;徐心和;;一種基于粗神經(jīng)網(wǎng)絡(luò)的中國(guó)象棋機(jī)器博弈評(píng)估實(shí)現(xiàn)[A];2007中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];2007年

相關(guān)重要報(bào)紙文章前3條

1 蔣佑銘;電腦圍棋對(duì)弈技術(shù)的發(fā)展趨勢(shì)[N];圍棋報(bào);2009年

2 本報(bào)記者朱芙蓉;人機(jī)博弈：機(jī)器“終結(jié)”西洋跳棋[N];科技日?qǐng)?bào);2008年

3 記者何鑫　通訊員張燕霖;高交會(huì)“中國(guó)象棋人機(jī)大戰(zhàn)”今開(kāi)戰(zhàn)[N];深圳商報(bào);2009年

相關(guān)博士學(xué)位論文前4條

1 張加佳;非完備信息機(jī)器博弈中風(fēng)險(xiǎn)及對(duì)手模型的研究[D];哈爾濱工業(yè)大學(xué);2015年

2 徐長(zhǎng)明;基于連珠模式的六子棋機(jī)器博弈關(guān)鍵技術(shù)研究[D];東北大學(xué);2010年

3 南海;單回合的回合制戰(zhàn)棋博弈模型搜索算法研究[D];重慶大學(xué);2016年

4 譚科;基于博弈實(shí)驗(yàn)的電力市場(chǎng)綜合模擬與分析[D];華南理工大學(xué);2014年

相關(guān)碩士學(xué)位論文前10條

1 羅俊逸;基于Alpha-Beta剪枝與啟發(fā)式演算的簡(jiǎn)單吃墩博弈方法[D];重慶郵電大學(xué);2019年

2 劉偉;基于CNN和MCTS的非完備信息機(jī)器博弈研究[D];西安電子科技大學(xué);2019年

3 吳天棟;非完備信息機(jī)器博弈算法及對(duì)手模型的研究[D];武漢理工大學(xué);2018年

4 李羽戈;橋牌叫牌機(jī)器博弈模型及算法研究[D];北京郵電大學(xué);2019年

5 胡開(kāi)亮;基于狀態(tài)抽象和殘局解算的二人非限制性德州撲克策略的研究[D];哈爾濱工業(yè)大學(xué);2017年

6 朱航宇;基于深度強(qiáng)化學(xué)習(xí)的3D游戲的非完備信息機(jī)器博弈研究[D];哈爾濱工業(yè)大學(xué);2018年

7 王鵬程;基于深度強(qiáng)化學(xué)習(xí)的非完備信息機(jī)器博弈研究[D];哈爾濱工業(yè)大學(xué);2017年

8 代佳寧;基于虛擬遺憾最小化算法的非完備信息機(jī)器博弈研究[D];哈爾濱工業(yè)大學(xué);2017年

9 李昌;基于Q學(xué)習(xí)算法的非完備信息機(jī)器博弈的研究[D];哈爾濱工業(yè)大學(xué);2015年

10 唐艷;圍棋博弈機(jī)器學(xué)習(xí)算法的研究及應(yīng)用[D];重慶理工大學(xué);2012年

本文編號(hào)：2632395

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2632395.html

上一篇：基于ROS與RGBD傳感器的地圖構(gòu)建方法研究
下一篇：長(zhǎng)吉圖經(jīng)濟(jì)帶土地適宜性遙感評(píng)價(jià)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CNN和MCTS的非完備信息機(jī)器博弈研究