圍棋自對弈系統(tǒng)在高性能運算集群上的構(gòu)建與實現(xiàn)
發(fā)布時間:2021-03-10 16:38
圍棋,擁有上千年的歷史,由于其具有天文數(shù)字的狀態(tài)空間和決策空間,計算機在可接受的時間范圍內(nèi)能夠窮舉得出的盤面數(shù)量非常少。也因此,在2016年以前,人類普遍認為計算機圍棋將很難戰(zhàn)勝職業(yè)棋手,被認為是最復(fù)雜的智力游戲。計算機圍棋的發(fā)展也經(jīng)過了多年的演變,從早期的極大極小值算法,到蒙特卡洛樹搜索算法,再到alphaGo、AlphaGo Zero的深度學(xué)習(xí)方法,計算機圍棋的水平終于得到了飛躍般的提升。本文主要闡述如何將“AlphaGo Zero”增強學(xué)習(xí)的模式,移植于我國的神威·太湖之光超級計算機(以下簡稱“神威”)中,使其可以在神威的CPU超算集群中,進行不需要人力干涉的增強學(xué)習(xí)完整流程。該流程也在實際的運行中得到了驗證,并將在本文中對于具體的運行流程與運行結(jié)果做出介紹、分析、總結(jié)。在本論文的研究工作中,核心工作主要分為三部分:1、根據(jù)神威超算集群的特點,設(shè)計并實現(xiàn)增強學(xué)習(xí)的整體流程;2、對于蒙特卡洛樹搜索算法的原理進行深入探討與研究,并在不影響算法有效性的前提下進行優(yōu)化;3、運行完整流程,根據(jù)實際運行中遇到的問題,及時做出調(diào)整與完善。本論文也將主要圍繞這三部分的工作進行研究與討論。在項目的...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-6對弈樹復(fù)用示意圖??
初學(xué)者硬要去模仿圍棋大師下棋,導(dǎo)致的直接結(jié)果是:實際對弈中的網(wǎng)絡(luò)很快??變得向人類棋譜的方向發(fā)展,并“學(xué)會”搶占一些關(guān)鍵點,但事實上卻對于最??根本的提子、死活完全沒有理解,棋力沒有得到有效的提高。(如圖4-2)黑方??的勝率繼續(xù)下降,從而導(dǎo)致人類棋譜數(shù)據(jù)的比例進一步提升,對弈棋譜的質(zhì)量??逐漸下降。在這種情況下,這一次的系統(tǒng)流程依然失敗。??36??
其次,假設(shè)初始狀態(tài)時,由于黑棋的先手優(yōu)勢少于7.5目,導(dǎo)致黑棋勝率??較低。那么,為了在選擇棋譜的時候,保證雙方的勝率相同,則會有部分白棋??獲勝的棋譜剩佘,這部分棋譜被轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)的時間更晚,如圖4-3?(a)。??同時,又因為網(wǎng)絡(luò)是在不斷進化的,越晚生成的棋譜質(zhì)量越高,從而導(dǎo)致在最??新的訓(xùn)練數(shù)據(jù)中,黑方獲勝的棋譜的質(zhì)量會略高于白方獲勝的棋譜,這進一步??使得神經(jīng)網(wǎng)絡(luò)中白方的勝率降低,對于本身黑棋勝率下降的現(xiàn)象產(chǎn)生了負反饋??調(diào)節(jié),如圖4-3?(b)。同理,當白棋勝率較低時,這種機制也會使得白棋的勝??率逐漸回升。使用這種方式,在保證了雙方勝率均衡、不影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的??同時,也能保證黑白雙方的棋力同步進化。??37??
本文編號:3074945
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-6對弈樹復(fù)用示意圖??
初學(xué)者硬要去模仿圍棋大師下棋,導(dǎo)致的直接結(jié)果是:實際對弈中的網(wǎng)絡(luò)很快??變得向人類棋譜的方向發(fā)展,并“學(xué)會”搶占一些關(guān)鍵點,但事實上卻對于最??根本的提子、死活完全沒有理解,棋力沒有得到有效的提高。(如圖4-2)黑方??的勝率繼續(xù)下降,從而導(dǎo)致人類棋譜數(shù)據(jù)的比例進一步提升,對弈棋譜的質(zhì)量??逐漸下降。在這種情況下,這一次的系統(tǒng)流程依然失敗。??36??
其次,假設(shè)初始狀態(tài)時,由于黑棋的先手優(yōu)勢少于7.5目,導(dǎo)致黑棋勝率??較低。那么,為了在選擇棋譜的時候,保證雙方的勝率相同,則會有部分白棋??獲勝的棋譜剩佘,這部分棋譜被轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)的時間更晚,如圖4-3?(a)。??同時,又因為網(wǎng)絡(luò)是在不斷進化的,越晚生成的棋譜質(zhì)量越高,從而導(dǎo)致在最??新的訓(xùn)練數(shù)據(jù)中,黑方獲勝的棋譜的質(zhì)量會略高于白方獲勝的棋譜,這進一步??使得神經(jīng)網(wǎng)絡(luò)中白方的勝率降低,對于本身黑棋勝率下降的現(xiàn)象產(chǎn)生了負反饋??調(diào)節(jié),如圖4-3?(b)。同理,當白棋勝率較低時,這種機制也會使得白棋的勝??率逐漸回升。使用這種方式,在保證了雙方勝率均衡、不影響神經(jīng)網(wǎng)絡(luò)訓(xùn)練的??同時,也能保證黑白雙方的棋力同步進化。??37??
本文編號:3074945
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/3074945.html
最近更新
教材專著