天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于強化學習的蘇拉卡爾塔博弈算法

發(fā)布時間:2021-01-17 22:54
  本文探討了基于蒙特卡洛方法的強化學習博弈程序的原理,基于該原理結(jié)合BP算法設(shè)計了一個進行自學習的蘇拉卡爾塔博弈程序。實驗證明,該方法能讓智能體不斷的學習提高棋力,避免了繁瑣的手工構(gòu)建靜態(tài)評估函數(shù)過程。 

【文章來源】:智能計算機與應(yīng)用. 2020,10(04)

【文章頁數(shù)】:4 頁

【部分圖文】:

基于強化學習的蘇拉卡爾塔博弈算法


蘇拉卡爾塔棋盤、棋子以及開局布局

架構(gòu)圖,架構(gòu),服務(wù)器,權(quán)重


為了加快自對弈速度,本文使用了根并行方法[10],如圖2所示。當自對弈需要評估和擴展節(jié)點時,程序把當前局面發(fā)送到評估隊列中,評估服務(wù)器按批進行前向推理并返回相應(yīng)的自對弈程序。當一局自對弈程序完成后,對弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護一個訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進行一次反向傳播計算更新權(quán)重。同時每1 min,訓(xùn)練服務(wù)器和評估服務(wù)器進行一次權(quán)重的同步,以保證評估服務(wù)器的權(quán)重是最新的。3 實驗


本文編號:2983746

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2983746.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9e3a5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com