一種自學(xué)習(xí)的智能五子棋算法的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-03 18:20
強(qiáng)化學(xué)習(xí)長(zhǎng)期以來(lái)的一個(gè)目標(biāo)是創(chuàng)造一個(gè)能夠在具有挑戰(zhàn)性的領(lǐng)域,以超越人類的精通程度學(xué)習(xí)的算法.基于蒙特卡洛樹(shù)搜索與深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一種自學(xué)習(xí)智能五子棋算法,無(wú)需人類知識(shí),從零開(kāi)始學(xué)習(xí).其中深度神經(jīng)網(wǎng)絡(luò)是由32個(gè)卷積層組成的深度殘差網(wǎng)絡(luò);蒙特卡洛樹(shù)搜索可根據(jù)多次模擬博弈的結(jié)果預(yù)測(cè)最優(yōu)的移動(dòng)方案.將五子棋規(guī)則與蒙特卡洛樹(shù)搜索和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,蒙特卡洛樹(shù)搜索使用深度神經(jīng)網(wǎng)絡(luò)評(píng)估落子位置和選擇移動(dòng),增強(qiáng)樹(shù)的搜索強(qiáng)度,提高落子質(zhì)量,優(yōu)化自對(duì)弈迭代.通過(guò)蒙特卡洛樹(shù)搜索進(jìn)行自對(duì)弈,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)落子選擇以及游戲的贏家.經(jīng)過(guò)兩天的訓(xùn)練,該算法的埃洛等級(jí)分已經(jīng)達(dá)到4000分,遠(yuǎn)遠(yuǎn)高于普通人類水平.
【文章來(lái)源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(06)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
蒙特卡洛樹(shù)搜索流程示例
深度殘差網(wǎng)絡(luò)模型圖
棋盤數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]隨機(jī)多選擇殘差網(wǎng)絡(luò)集成的遙感圖像分類算法[J]. 周強(qiáng),徐宏偉,陳逸,孫玉寶. 小型微型計(jì)算機(jī)系統(tǒng). 2019(09)
[2]基于α-β剪枝樹(shù)算法的安卓五子棋程序設(shè)計(jì)與實(shí)現(xiàn)[J]. 宋萬(wàn)洋. 現(xiàn)代信息科技. 2019(11)
[3]五子棋人工智能算法實(shí)現(xiàn)研究[J]. 孫世文. 中國(guó)新通信. 2018(23)
[4]基于深度強(qiáng)化學(xué)習(xí)的流媒體邊緣云會(huì)話調(diào)度策略[J]. 徐西建,王子磊,奚宏生. 計(jì)算機(jī)工程. 2019(05)
碩士論文
[1]五子棋人工智能算法設(shè)計(jì)與實(shí)現(xiàn)[D]. 劉瑞.華南理工大學(xué) 2012
本文編號(hào):3211009
【文章來(lái)源】:小型微型計(jì)算機(jī)系統(tǒng). 2020,41(06)北大核心CSCD
【文章頁(yè)數(shù)】:7 頁(yè)
【部分圖文】:
蒙特卡洛樹(shù)搜索流程示例
深度殘差網(wǎng)絡(luò)模型圖
棋盤數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]隨機(jī)多選擇殘差網(wǎng)絡(luò)集成的遙感圖像分類算法[J]. 周強(qiáng),徐宏偉,陳逸,孫玉寶. 小型微型計(jì)算機(jī)系統(tǒng). 2019(09)
[2]基于α-β剪枝樹(shù)算法的安卓五子棋程序設(shè)計(jì)與實(shí)現(xiàn)[J]. 宋萬(wàn)洋. 現(xiàn)代信息科技. 2019(11)
[3]五子棋人工智能算法實(shí)現(xiàn)研究[J]. 孫世文. 中國(guó)新通信. 2018(23)
[4]基于深度強(qiáng)化學(xué)習(xí)的流媒體邊緣云會(huì)話調(diào)度策略[J]. 徐西建,王子磊,奚宏生. 計(jì)算機(jī)工程. 2019(05)
碩士論文
[1]五子棋人工智能算法設(shè)計(jì)與實(shí)現(xiàn)[D]. 劉瑞.華南理工大學(xué) 2012
本文編號(hào):3211009
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3211009.html
最近更新
教材專著