基于強化學習與博弈樹搜索的非完備信息博弈算法的研究與應用

發(fā)布時間：2024-03-15 19:45

　　博弈問題存在于人們生活的各個方面,根據(jù)參與者對博弈信息掌握程度的不同,可以把博弈問題分為完備信息博弈和非完備信息博弈兩類。在現(xiàn)實生活中,人們往往很難獲取到所有的博弈信息,因此很多博弈問題,比如商業(yè)談判、廣告定價、軍事推演、網(wǎng)絡安全等都可以歸結(jié)為非完備信息博弈。隨著人工智能相關(guān)技術(shù)的不斷發(fā)展,利用人工智能技術(shù)來解決非完備信息博弈已經(jīng)成為了當前的研究熱點,具有十分重要的現(xiàn)實意義。本文主要研究關(guān)于麻將的機器博弈問題。在麻將游戲中,對手的手牌信息以及牌庫中的信息對于每位參與者來說都是不可見的,因此麻將游戲是典型的非完備信息博弈問題。以往的麻將程序主要是通過Expectimax搜索算法來進行設計的。目前關(guān)于Expectimax搜索算法的研究主要集中在兩個方面。一方面是研究如何合理地對搜索樹的分支進行剪枝,另一方面是研究如何設計合理的估值函數(shù)。然而,在麻將博弈問題上,目前Expectimax搜索算法的剪枝策略與估值函數(shù)的設計還依賴于人工先驗知識,而沒有結(jié)合強化學習等算法來進行改進。為了解決這個問題,本文提出了一種結(jié)合Double DQN與Expectimax搜索的非完備信息博弈算法。該算法使用強化...

【文章頁數(shù)】：64 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 研究背景
    1.2 研究目的與意義
    1.3 國內(nèi)外研究現(xiàn)狀
    1.4 本文研究內(nèi)容
    1.5 本文章節(jié)結(jié)構(gòu)
第2章非完備信息機器博弈
    2.1 非完備信息博弈概述
    2.2 博弈樹與搜索
        2.2.1 Expectimax搜索
    2.3 基于深度強化學習的博弈方法
        2.3.1 深度學習
        2.3.2 強化學習
        2.3.3 深度強化學習
    2.4 本章小結(jié)
第3章基于Double DQN與Expectimax搜索的非完備信息博弈算法
    3.1 基于麻將先驗知識的特征編碼
    3.2 基于Expectimax搜索的麻將決策過程
    3.3 基于Double DQN的麻將模型訓練過程
    3.4 關(guān)于麻將吃碰杠決策的設計
    3.5 本章小結(jié)
第4章非完備信息博弈智能決策系統(tǒng)的實現(xiàn)與實驗分析
    4.1 麻將智能決策系統(tǒng)
    4.2 數(shù)據(jù)描述和數(shù)據(jù)預處理
    4.3 實驗結(jié)果與分析
    4.4 討論參數(shù)α的設置對模型的影響
    4.5 麻將比賽數(shù)據(jù)分析
    4.6 本章小結(jié)
第5章總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
致謝
參考文獻
附錄A 麻將博弈規(guī)則介紹
攻讀學位期間的研究成果

本文編號：3928778

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928778.html

上一篇：現(xiàn)代智能農(nóng)業(yè)大棚控制系統(tǒng)設計與應用研究
下一篇：基于深度學習的網(wǎng)絡流量入侵檢測研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強化學習與博弈樹搜索的非完備信息博弈算法的研究與應用