非完備信息機(jī)器博弈算法及對手模型的研究
發(fā)布時(shí)間:2021-11-09 05:53
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人工智能領(lǐng)域產(chǎn)生了一系列杰出的成果。尤其是在完備信息博弈方面,計(jì)算機(jī)通過博弈樹搜索、動(dòng)態(tài)規(guī)劃、α-β減枝算法等經(jīng)典方法已經(jīng)可以解決大多數(shù)完備信息博弈問題。但是與完備信息博弈不同,在非完備信息博弈中參與者無法獲取對手的全部信息,而且在博弈中的不確定性因素(例如隨機(jī)風(fēng)險(xiǎn)、對手策略的調(diào)整、對手欺詐行為等)給研究工作帶來了不少難題。本文以德州撲克為實(shí)驗(yàn)對象,研究非完備信息機(jī)器博弈中的算法,主要研究內(nèi)容如下:首先,從德州撲克的博弈特性出發(fā),分析了其博弈過程中的狀態(tài)空間復(fù)雜度,介紹了經(jīng)典的機(jī)器博弈算法,分析得出經(jīng)典的博弈算法難以應(yīng)用到德州撲克機(jī)的機(jī)器博弈中。針對現(xiàn)代主流的研究方法進(jìn)行了歸類,一類是基于納什均衡策略的算法,另一類是對手建模方法。前者主要側(cè)重于計(jì)算博弈中的納什均衡策略,其中虛擬遺憾最小化算法是目前最主流的算法之一。后者旨在在博弈中利用對手的弱點(diǎn),實(shí)現(xiàn)收益最大化。然后,深入研究了虛擬遺憾最小化算法,利用時(shí)序差分學(xué)習(xí)改進(jìn)了該算法旨在提高算法的效率。針對德州撲克機(jī)器博弈中狀態(tài)空間規(guī)模過于巨大的問題,提出了底牌抽象化技術(shù)與手牌評估算法簡化了狀態(tài)空間并基于改進(jìn)的算法建立了機(jī)...
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
某一信息集下2人德州撲克博弈的樹形圖
弈樹因?yàn)榈玫綌U(kuò)展,規(guī)模逐漸增大,隨著模擬運(yùn)算的次數(shù)增加,計(jì)算出收益值結(jié)果也越來越逼近真實(shí)值。另一方面博弈樹的擴(kuò)展部分包含了大量可供分析信息,計(jì)算收益值的函數(shù)可以依靠這些信息做進(jìn)一步優(yōu)化。在德州撲克中的蒙特卡洛搜索樹方法包含有 4 個(gè)階段:子節(jié)點(diǎn)優(yōu)選階段、博樹擴(kuò)展階段、模擬計(jì)算階段和回溯更新階段。德州撲克中蒙特卡洛搜索樹方法模擬過程如圖 2-2 所示。
形的方法來表示隨機(jī)變量之間的概率關(guān)系,性問題的有力手段。貝葉斯網(wǎng)絡(luò),由一個(gè)有一個(gè)有向無環(huán)圖來表示一組隨機(jī)變量跟它過條件概率分布來參數(shù)化,每個(gè)節(jié)點(diǎn)的定,其中 Pa ( node )表示網(wǎng)絡(luò)中的父節(jié)點(diǎn),
本文編號:3484755
【文章來源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學(xué)位級別】:碩士
【部分圖文】:
某一信息集下2人德州撲克博弈的樹形圖
弈樹因?yàn)榈玫綌U(kuò)展,規(guī)模逐漸增大,隨著模擬運(yùn)算的次數(shù)增加,計(jì)算出收益值結(jié)果也越來越逼近真實(shí)值。另一方面博弈樹的擴(kuò)展部分包含了大量可供分析信息,計(jì)算收益值的函數(shù)可以依靠這些信息做進(jìn)一步優(yōu)化。在德州撲克中的蒙特卡洛搜索樹方法包含有 4 個(gè)階段:子節(jié)點(diǎn)優(yōu)選階段、博樹擴(kuò)展階段、模擬計(jì)算階段和回溯更新階段。德州撲克中蒙特卡洛搜索樹方法模擬過程如圖 2-2 所示。
形的方法來表示隨機(jī)變量之間的概率關(guān)系,性問題的有力手段。貝葉斯網(wǎng)絡(luò),由一個(gè)有一個(gè)有向無環(huán)圖來表示一組隨機(jī)變量跟它過條件概率分布來參數(shù)化,每個(gè)節(jié)點(diǎn)的定,其中 Pa ( node )表示網(wǎng)絡(luò)中的父節(jié)點(diǎn),
本文編號:3484755
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3484755.html
最近更新
教材專著