圍棋自對弈系統(tǒng)在高性能運(yùn)算集群上的構(gòu)建與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-10 16:38
圍棋,擁有上千年的歷史,由于其具有天文數(shù)字的狀態(tài)空間和決策空間,計(jì)算機(jī)在可接受的時(shí)間范圍內(nèi)能夠窮舉得出的盤面數(shù)量非常少。也因此,在2016年以前,人類普遍認(rèn)為計(jì)算機(jī)圍棋將很難戰(zhàn)勝職業(yè)棋手,被認(rèn)為是最復(fù)雜的智力游戲。計(jì)算機(jī)圍棋的發(fā)展也經(jīng)過了多年的演變,從早期的極大極小值算法,到蒙特卡洛樹搜索算法,再到alphaGo、AlphaGo Zero的深度學(xué)習(xí)方法,計(jì)算機(jī)圍棋的水平終于得到了飛躍般的提升。本文主要闡述如何將“AlphaGo Zero”增強(qiáng)學(xué)習(xí)的模式,移植于我國的神威·太湖之光超級計(jì)算機(jī)(以下簡稱“神威”)中,使其可以在神威的CPU超算集群中,進(jìn)行不需要人力干涉的增強(qiáng)學(xué)習(xí)完整流程。該流程也在實(shí)際的運(yùn)行中得到了驗(yàn)證,并將在本文中對于具體的運(yùn)行流程與運(yùn)行結(jié)果做出介紹、分析、總結(jié)。在本論文的研究工作中,核心工作主要分為三部分:1、根據(jù)神威超算集群的特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)增強(qiáng)學(xué)習(xí)的整體流程;2、對于蒙特卡洛樹搜索算法的原理進(jìn)行深入探討與研究,并在不影響算法有效性的前提下進(jìn)行優(yōu)化;3、運(yùn)行完整流程,根據(jù)實(shí)際運(yùn)行中遇到的問題,及時(shí)做出調(diào)整與完善。本論文也將主要圍繞這三部分的工作進(jìn)行研究與討論。在項(xiàng)目的...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-6對弈樹復(fù)用示意圖??
初學(xué)者硬要去模仿圍棋大師下棋,導(dǎo)致的直接結(jié)果是:實(shí)際對弈中的網(wǎng)絡(luò)很快??變得向人類棋譜的方向發(fā)展,并“學(xué)會(huì)”搶占一些關(guān)鍵點(diǎn),但事實(shí)上卻對于最??根本的提子、死活完全沒有理解,棋力沒有得到有效的提高。(如圖4-2)黑方??的勝率繼續(xù)下降,從而導(dǎo)致人類棋譜數(shù)據(jù)的比例進(jìn)一步提升,對弈棋譜的質(zhì)量??逐漸下降。在這種情況下,這一次的系統(tǒng)流程依然失敗。??36??
其次,假設(shè)初始狀態(tài)時(shí),由于黑棋的先手優(yōu)勢少于7.5目,導(dǎo)致黑棋勝率??較低。那么,為了在選擇棋譜的時(shí)候,保證雙方的勝率相同,則會(huì)有部分白棋??獲勝的棋譜剩佘,這部分棋譜被轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)的時(shí)間更晚,如圖4-3?(a)。??同時(shí),又因?yàn)榫W(wǎng)絡(luò)是在不斷進(jìn)化的,越晚生成的棋譜質(zhì)量越高,從而導(dǎo)致在最??新的訓(xùn)練數(shù)據(jù)中,黑方獲勝的棋譜的質(zhì)量會(huì)略高于白方獲勝的棋譜,這進(jìn)一步??使得神經(jīng)網(wǎng)絡(luò)中白方的勝率降低,對于本身黑棋勝率下降的現(xiàn)象產(chǎn)生了負(fù)反饋??調(diào)節(jié),如圖4-3?(b)。同理,當(dāng)白棋勝率較低時(shí),這種機(jī)制也會(huì)使得白棋的勝??率逐漸回升。使用這種方式,在保證了雙方勝率均衡、不影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的??同時(shí),也能保證黑白雙方的棋力同步進(jìn)化。??37??
本文編號:3074945
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-6對弈樹復(fù)用示意圖??
初學(xué)者硬要去模仿圍棋大師下棋,導(dǎo)致的直接結(jié)果是:實(shí)際對弈中的網(wǎng)絡(luò)很快??變得向人類棋譜的方向發(fā)展,并“學(xué)會(huì)”搶占一些關(guān)鍵點(diǎn),但事實(shí)上卻對于最??根本的提子、死活完全沒有理解,棋力沒有得到有效的提高。(如圖4-2)黑方??的勝率繼續(xù)下降,從而導(dǎo)致人類棋譜數(shù)據(jù)的比例進(jìn)一步提升,對弈棋譜的質(zhì)量??逐漸下降。在這種情況下,這一次的系統(tǒng)流程依然失敗。??36??
其次,假設(shè)初始狀態(tài)時(shí),由于黑棋的先手優(yōu)勢少于7.5目,導(dǎo)致黑棋勝率??較低。那么,為了在選擇棋譜的時(shí)候,保證雙方的勝率相同,則會(huì)有部分白棋??獲勝的棋譜剩佘,這部分棋譜被轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)的時(shí)間更晚,如圖4-3?(a)。??同時(shí),又因?yàn)榫W(wǎng)絡(luò)是在不斷進(jìn)化的,越晚生成的棋譜質(zhì)量越高,從而導(dǎo)致在最??新的訓(xùn)練數(shù)據(jù)中,黑方獲勝的棋譜的質(zhì)量會(huì)略高于白方獲勝的棋譜,這進(jìn)一步??使得神經(jīng)網(wǎng)絡(luò)中白方的勝率降低,對于本身黑棋勝率下降的現(xiàn)象產(chǎn)生了負(fù)反饋??調(diào)節(jié),如圖4-3?(b)。同理,當(dāng)白棋勝率較低時(shí),這種機(jī)制也會(huì)使得白棋的勝??率逐漸回升。使用這種方式,在保證了雙方勝率均衡、不影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的??同時(shí),也能保證黑白雙方的棋力同步進(jìn)化。??37??
本文編號:3074945
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3074945.html
最近更新
教材專著