天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于強化學(xué)習(xí)與博弈樹搜索的非完備信息博弈算法的研究與應(yīng)用

發(fā)布時間:2024-03-15 19:45
  博弈問題存在于人們生活的各個方面,根據(jù)參與者對博弈信息掌握程度的不同,可以把博弈問題分為完備信息博弈和非完備信息博弈兩類。在現(xiàn)實生活中,人們往往很難獲取到所有的博弈信息,因此很多博弈問題,比如商業(yè)談判、廣告定價、軍事推演、網(wǎng)絡(luò)安全等都可以歸結(jié)為非完備信息博弈。隨著人工智能相關(guān)技術(shù)的不斷發(fā)展,利用人工智能技術(shù)來解決非完備信息博弈已經(jīng)成為了當前的研究熱點,具有十分重要的現(xiàn)實意義。本文主要研究關(guān)于麻將的機器博弈問題。在麻將游戲中,對手的手牌信息以及牌庫中的信息對于每位參與者來說都是不可見的,因此麻將游戲是典型的非完備信息博弈問題。以往的麻將程序主要是通過Expectimax搜索算法來進行設(shè)計的。目前關(guān)于Expectimax搜索算法的研究主要集中在兩個方面。一方面是研究如何合理地對搜索樹的分支進行剪枝,另一方面是研究如何設(shè)計合理的估值函數(shù)。然而,在麻將博弈問題上,目前Expectimax搜索算法的剪枝策略與估值函數(shù)的設(shè)計還依賴于人工先驗知識,而沒有結(jié)合強化學(xué)習(xí)等算法來進行改進。為了解決這個問題,本文提出了一種結(jié)合Double DQN與Expectimax搜索的非完備信息博弈算法。該算法使用強化...

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景
    1.2 研究目的與意義
    1.3 國內(nèi)外研究現(xiàn)狀
    1.4 本文研究內(nèi)容
    1.5 本文章節(jié)結(jié)構(gòu)
第2章 非完備信息機器博弈
    2.1 非完備信息博弈概述
    2.2 博弈樹與搜索
        2.2.1 Expectimax搜索
    2.3 基于深度強化學(xué)習(xí)的博弈方法
        2.3.1 深度學(xué)習(xí)
        2.3.2 強化學(xué)習(xí)
        2.3.3 深度強化學(xué)習(xí)
    2.4 本章小結(jié)
第3章 基于Double DQN與Expectimax搜索的非完備信息博弈算法
    3.1 基于麻將先驗知識的特征編碼
    3.2 基于Expectimax搜索的麻將決策過程
    3.3 基于Double DQN的麻將模型訓(xùn)練過程
    3.4 關(guān)于麻將吃碰杠決策的設(shè)計
    3.5 本章小結(jié)
第4章 非完備信息博弈智能決策系統(tǒng)的實現(xiàn)與實驗分析
    4.1 麻將智能決策系統(tǒng)
    4.2 數(shù)據(jù)描述和數(shù)據(jù)預(yù)處理
    4.3 實驗結(jié)果與分析
    4.4 討論參數(shù)α的設(shè)置對模型的影響
    4.5 麻將比賽數(shù)據(jù)分析
    4.6 本章小結(jié)
第5章 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
致謝
參考文獻
附錄A 麻將博弈規(guī)則介紹
攻讀學(xué)位期間的研究成果



本文編號:3928778

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928778.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4fb8c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com