基于強化學習的蘇拉卡爾塔博弈算法

發(fā)布時間：2021-01-17 22:54

　　本文探討了基于蒙特卡洛方法的強化學習博弈程序的原理,基于該原理結(jié)合BP算法設(shè)計了一個進行自學習的蘇拉卡爾塔博弈程序。實驗證明,該方法能讓智能體不斷的學習提高棋力,避免了繁瑣的手工構(gòu)建靜態(tài)評估函數(shù)過程。

【文章來源】：智能計算機與應(yīng)用. 2020,10(04)

【文章頁數(shù)】：4 頁

【部分圖文】：

基于強化學習的蘇拉卡爾塔博弈算法

蘇拉卡爾塔棋盤、棋子以及開局布局

架構(gòu)圖,架構(gòu),服務(wù)器,權(quán)重

為了加快自對弈速度，本文使用了根并行方法[10]，如圖2所示。當自對弈需要評估和擴展節(jié)點時，程序把當前局面發(fā)送到評估隊列中，評估服務(wù)器按批進行前向推理并返回相應(yīng)的自對弈程序。當一局自對弈程序完成后，對弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器，訓(xùn)練服務(wù)器維護一個訓(xùn)練數(shù)據(jù)集池，訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后，從數(shù)據(jù)池中采樣進行一次反向傳播計算更新權(quán)重。同時每1 min，訓(xùn)練服務(wù)器和評估服務(wù)器進行一次權(quán)重的同步，以保證評估服務(wù)器的權(quán)重是最新的。3 實驗

本文編號：2983746

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2983746.html

上一篇：基于拓撲位置關(guān)系的無人艇路徑搜索方法
下一篇：尋根文學對傳統(tǒng)文化的找尋與反思 ——基于鄉(xiāng)土文化意蘊的思考

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強化學習的蘇拉卡爾塔博弈算法