基于強化學習的蘇拉卡爾塔博弈算法
發(fā)布時間:2021-01-17 22:54
本文探討了基于蒙特卡洛方法的強化學習博弈程序的原理,基于該原理結(jié)合BP算法設(shè)計了一個進行自學習的蘇拉卡爾塔博弈程序。實驗證明,該方法能讓智能體不斷的學習提高棋力,避免了繁瑣的手工構(gòu)建靜態(tài)評估函數(shù)過程。
【文章來源】:智能計算機與應(yīng)用. 2020,10(04)
【文章頁數(shù)】:4 頁
【部分圖文】:
蘇拉卡爾塔棋盤、棋子以及開局布局
為了加快自對弈速度,本文使用了根并行方法[10],如圖2所示。當自對弈需要評估和擴展節(jié)點時,程序把當前局面發(fā)送到評估隊列中,評估服務(wù)器按批進行前向推理并返回相應(yīng)的自對弈程序。當一局自對弈程序完成后,對弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護一個訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進行一次反向傳播計算更新權(quán)重。同時每1 min,訓(xùn)練服務(wù)器和評估服務(wù)器進行一次權(quán)重的同步,以保證評估服務(wù)器的權(quán)重是最新的。3 實驗
本文編號:2983746
【文章來源】:智能計算機與應(yīng)用. 2020,10(04)
【文章頁數(shù)】:4 頁
【部分圖文】:
蘇拉卡爾塔棋盤、棋子以及開局布局
為了加快自對弈速度,本文使用了根并行方法[10],如圖2所示。當自對弈需要評估和擴展節(jié)點時,程序把當前局面發(fā)送到評估隊列中,評估服務(wù)器按批進行前向推理并返回相應(yīng)的自對弈程序。當一局自對弈程序完成后,對弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護一個訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進行一次反向傳播計算更新權(quán)重。同時每1 min,訓(xùn)練服務(wù)器和評估服務(wù)器進行一次權(quán)重的同步,以保證評估服務(wù)器的權(quán)重是最新的。3 實驗
本文編號:2983746
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2983746.html
最近更新
教材專著