基于蒙特卡羅樹搜索的計算機撲克程序
發(fā)布時間:2017-03-29 19:16
本文關(guān)鍵詞:基于蒙特卡羅樹搜索的計算機撲克程序,由筆耕文化傳播整理發(fā)布。
【摘要】:計算機博弈是測試人工智能所達到水平的一個重要平臺。早期的研究主要集中在確定性完全信息博弈之上。然而由于與現(xiàn)實之中的問題更加貼近,非確定性非完全信息博弈逐漸引起學術(shù)界的重視。 德州撲克是一種非確定性非完全信息博弈。因為它的規(guī)則簡單同時富于變化,所以其作為這種博弈的一個典型,正在成為計算機博弈研究領(lǐng)域的又一個熱點。機器學習中的蒙特卡羅樹搜索算法,是一種集成了蒙特卡羅方法作為評估的博弈樹搜索算法,毋需引入過多的領(lǐng)域知識,同時具有巨大的可擴展性。多臂匪徒問題是一種從多重決策選擇問題之中抽象出來的一種機器學習模型。UCB策略是求解多臂匪徒問題的一種方法。集成UCB策略的基于UCT的蒙特卡羅樹搜索算法被證明可以極大地提升計算機博弈引擎水平。 本文結(jié)合德州撲克的相關(guān)特性改進并設(shè)計了德州撲克的蒙特卡羅博弈樹,同時對博弈樹中的相關(guān)節(jié)點設(shè)計了對應的模擬、選擇、回溯更新策略。本文使用C++編程序語言、面向?qū)ο蠹夹g(shù)以及設(shè)計模式思想實現(xiàn)了一個德州撲克的博弈引擎。 本文為基于蒙特卡羅樹搜索算法的博弈引擎引入了與德州撲克的相關(guān)的領(lǐng)域知識,其包括Bucketing的底牌提取,以及在此基礎(chǔ)上的基于統(tǒng)計的對手模型用于模擬對手以及估計對手的底牌的概率分布。最后我們提出了一個保守度的概念用于將引擎的下注行為改造成一個比較“松”的策略。 本文設(shè)計四個實驗來驗證純粹的蒙特卡羅樹搜索引擎的性能,并通過分析輸出日志,發(fā)現(xiàn)了過“緊”的下注策略對于博弈的負面影響。我們測試了在引入保守度后執(zhí)行一個比較“松”的下注策略時對博弈結(jié)果的影響,同時驗證集成了對手模型后對于程序博弈水平的提升。 最終,通過實驗結(jié)果的分析,可以確認,蒙特卡羅樹搜索算法可以應用于求解非確定性非完全信息博弈問題。同時在求解德州撲克博弈的問題中,集成領(lǐng)域知識以及對手模型可以提高蒙特卡羅樹搜索引擎的性能。
【關(guān)鍵詞】:計算機博弈 德州撲克 蒙特卡羅樹搜索 對手模型
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP18
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-12
- 1.1 研究背景9
- 1.2 課題研究內(nèi)容9-10
- 1.3 課題意義10
- 1.4 論文結(jié)構(gòu)10-12
- 第二章 德州撲克12-21
- 2.1 德克薩斯撲克12-15
- 2.1.1 德州撲克的起源與現(xiàn)狀12
- 2.1.2 德州撲克的游戲規(guī)則12-14
- 2.1.3 德州撲克的打牌規(guī)則14-15
- 2.2 德州撲克的特性描述15-18
- 2.2.1 德州撲克的博弈特性15-17
- 2.2.2 德州撲克的問題復雜度17-18
- 2.3 相關(guān)研究18-20
- 2.3.1 基于博弈論理論的研究18-19
- 2.3.2 基于領(lǐng)域知識的研究19
- 2.3.3 基于博弈樹的研究19-20
- 2.4 本章小結(jié)20-21
- 第三章 傳統(tǒng)蒙特卡羅樹搜索21-28
- 3.1 博弈樹理論21-22
- 3.2 蒙特卡羅樹搜索算法22-24
- 3.2.1 蒙特卡羅方法22-23
- 3.2.2 蒙特卡羅樹搜索23-24
- 3.3 基于UCT策略的蒙特卡羅樹搜索算法24-27
- 3.3.1 UCB1策略25-26
- 3.3.2 博弈樹的信息上限UCT策略26-27
- 3.4 本章小結(jié)27-28
- 第四章 基于德州撲克的蒙特卡羅樹搜索28-45
- 4.1 基于德州撲克的博弈樹構(gòu)造28-32
- 4.1.1 博弈樹節(jié)點的設(shè)計28-30
- 4.1.2 節(jié)點狀態(tài)的轉(zhuǎn)移30-32
- 4.2 博弈樹節(jié)點的蒙特卡羅模擬32-34
- 4.2.1 葉子節(jié)點的蒙特卡羅模擬32
- 4.2.2 決策節(jié)點以及對手節(jié)點的蒙特卡羅模擬32-33
- 4.2.3 隨機節(jié)點的蒙特卡羅模擬33-34
- 4.3 博弈樹節(jié)點的更新回溯以及選擇策略34-37
- 4.3.1 葉子節(jié)點的更新回溯策略34-35
- 4.3.2 隨機節(jié)點的回溯與選擇策略35
- 4.3.3 決策節(jié)點的回溯與選擇策略35-36
- 4.3.4 對手節(jié)點的回溯與選擇策略36-37
- 4.4 博弈引擎的設(shè)計與實現(xiàn)37-44
- 4.4.1 博弈樹節(jié)點的構(gòu)造37-39
- 4.4.2 蒙特卡羅樹搜索的設(shè)計與實現(xiàn)39-42
- 4.4.3 博弈引擎的設(shè)計與實現(xiàn)42-44
- 4.5 本章小結(jié)44-45
- 第五章 領(lǐng)域知識的集成45-53
- 5.1 Buckting底牌提取45-47
- 5.2 基于統(tǒng)計的對手模型47-50
- 5.3 翻牌前的策略積極化50-52
- 5.4 本章小結(jié)52-53
- 第六章 實驗與結(jié)果分析53-56
- 6.1 實驗設(shè)計與結(jié)果分析53-55
- 6.2 本章小結(jié)55-56
- 第七章 總結(jié)與展望56-58
- 參考文獻58-60
- 致謝60-61
- 攻讀學位期間發(fā)表的學術(shù)論文61
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 孫杰;;淺析人工智能[J];內(nèi)江科技;2011年07期
本文關(guān)鍵詞:基于蒙特卡羅樹搜索的計算機撲克程序,由筆耕文化傳播整理發(fā)布。
,本文編號:275218
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/275218.html
最近更新
教材專著