基于深度學(xué)習(xí)和蒙特卡洛樹(shù)搜索的圍棋博弈研究
發(fā)布時(shí)間:2020-04-08 22:37
【摘要】:完備信息博弈一直是機(jī)器博弈的主要研究方向,而機(jī)器博弈是人工智能的重要領(lǐng)域,是檢驗(yàn)人工智能發(fā)展水平的重要指標(biāo)之一。在完備信息博弈中,簡(jiǎn)單而深邃的圍棋在計(jì)算機(jī)中的處理具有極高的復(fù)雜性,是檢驗(yàn)機(jī)器博弈水平的重要手段。圍棋機(jī)器博弈的研究成果可以應(yīng)用到人工智能的其他領(lǐng)域,包括金融決策和運(yùn)動(dòng)控制等。2016年Deepmind團(tuán)隊(duì)推出的Alpha Go一舉戰(zhàn)勝了圍棋世界冠軍李世石,但這并不代表圍棋問(wèn)題已經(jīng)被完美地解決,圍棋博弈中還有很多值得研究的問(wèn)題。蒙特卡洛樹(shù)搜索算法的一個(gè)重要步驟為模擬,在給定的時(shí)間內(nèi),模擬的次數(shù)越多,蒙特卡洛樹(shù)搜索算法的結(jié)果越準(zhǔn)確,返回的結(jié)果可參考性越高。模擬中需要策略進(jìn)行快速走子,傳統(tǒng)的方法采用基于模式的方法進(jìn)行快速走子,但是基于模式的快速走子存在一些問(wèn)題:模式存儲(chǔ)在內(nèi)存中,每次需要對(duì)棋盤(pán)中的模式進(jìn)行統(tǒng)計(jì)比對(duì),會(huì)耗費(fèi)大量的時(shí)間;基于模式的方法在快速走子時(shí)的準(zhǔn)確率不高,影響模擬的結(jié)果。為了解決上述問(wèn)題,本論文采用深度學(xué)習(xí)與蒙特卡洛樹(shù)搜索算法結(jié)合的方法,用深度學(xué)習(xí)對(duì)棋譜進(jìn)行學(xué)習(xí)得到網(wǎng)絡(luò)層數(shù)較多的策略網(wǎng)絡(luò)和網(wǎng)絡(luò)層數(shù)較少的快速走子網(wǎng)絡(luò),用策略網(wǎng)絡(luò)結(jié)合蒙特卡洛樹(shù)搜索算法對(duì)博弈樹(shù)進(jìn)行搜索,并且針對(duì)用模式進(jìn)行快速走子方法的缺陷提出了利用訓(xùn)練的快速走子網(wǎng)絡(luò)來(lái)進(jìn)行快速走子的方法。該方法利用3至5層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行快速走子滿(mǎn)足蒙特卡洛樹(shù)搜索算法中模擬時(shí)對(duì)快速走子時(shí)間的要求,且較于傳統(tǒng)的基于模式的方法在對(duì)棋譜的預(yù)測(cè)上準(zhǔn)確率更高,使得模擬的結(jié)果更有參考價(jià)值。另外,使用快速走子網(wǎng)絡(luò)能夠更好地利用GPU資源,且不需要對(duì)模式進(jìn)行統(tǒng)計(jì)和比對(duì),提升了蒙特卡洛樹(shù)搜索算法中模擬的速度。本論文將快速走子網(wǎng)絡(luò)方法應(yīng)用在圍棋博弈的蒙特卡洛樹(shù)搜索算法中,實(shí)現(xiàn)了基于深度學(xué)習(xí)和蒙特卡洛樹(shù)搜索算法的圍棋博弈智能體,利用本論文實(shí)現(xiàn)的智能體與傳統(tǒng)的基于模式的蒙特卡洛樹(shù)搜索算法智能體對(duì)弈,驗(yàn)證了算法的有效性。
【圖文】:
圖 2-1 圍棋棋盤(pán)中,計(jì)算機(jī)不僅與對(duì)手下圍棋中一般會(huì)采取一個(gè)對(duì)計(jì)算的發(fā)展至關(guān)重要。世界上目以及應(yīng)氏圍棋規(guī)則,三種規(guī)用的是中國(guó)或者日本圍棋規(guī)判定雙方棋手占地多少的規(guī)采取的是“數(shù)子”的方式,以在計(jì)算機(jī)圍棋博弈中,普遍目”法。圍棋規(guī)則中黑方先勢(shì)為 7.5 個(gè)棋子,在終局判到 185(即大于 361/2+7.5/2(即大于 361/2-7.5/2=176.75法為“數(shù)目”法,需要判斷圍點(diǎn)屬于己方或者對(duì)方是一件弈都普遍采用的中國(guó)圍棋規(guī)
狀態(tài)后結(jié)果為17010 ,從數(shù)字上來(lái)看,圍棋的狀態(tài)空象棋遠(yuǎn)遠(yuǎn)不能比的。復(fù)雜度為博弈從初始狀態(tài)開(kāi)始能夠生成的所有可能為博弈樹(shù)的大小反應(yīng)了博弈過(guò)程中搜索空間的大小點(diǎn)越多,要想對(duì)博弈樹(shù)進(jìn)行搜索就更困難,所以可博弈的難度。從博弈樹(shù)復(fù)雜度來(lái)看,中國(guó)象棋的博棋的博弈樹(shù)復(fù)雜度為12310 ,,19 路圍棋的博弈樹(shù)復(fù)圍棋的博弈樹(shù)復(fù)雜度也是中國(guó)象棋和國(guó)際象棋遠(yuǎn)遠(yuǎn)博弈樹(shù)用博弈樹(shù)來(lái)解決博弈問(wèn)題,基本方法是從初始博弈方能夠選擇的所有合法的動(dòng)作對(duì)博弈樹(shù)進(jìn)行擴(kuò)展,結(jié)束狀態(tài)。圖 2-2 給出簡(jiǎn)單井字棋游戲的前三層博已經(jīng)合并為一個(gè)局面。井字游戲?yàn)橥婕译p方分別放,直到一方率先使得己方的三個(gè)棋子能橫、豎或者
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP18
本文編號(hào):2619908
【圖文】:
圖 2-1 圍棋棋盤(pán)中,計(jì)算機(jī)不僅與對(duì)手下圍棋中一般會(huì)采取一個(gè)對(duì)計(jì)算的發(fā)展至關(guān)重要。世界上目以及應(yīng)氏圍棋規(guī)則,三種規(guī)用的是中國(guó)或者日本圍棋規(guī)判定雙方棋手占地多少的規(guī)采取的是“數(shù)子”的方式,以在計(jì)算機(jī)圍棋博弈中,普遍目”法。圍棋規(guī)則中黑方先勢(shì)為 7.5 個(gè)棋子,在終局判到 185(即大于 361/2+7.5/2(即大于 361/2-7.5/2=176.75法為“數(shù)目”法,需要判斷圍點(diǎn)屬于己方或者對(duì)方是一件弈都普遍采用的中國(guó)圍棋規(guī)
狀態(tài)后結(jié)果為17010 ,從數(shù)字上來(lái)看,圍棋的狀態(tài)空象棋遠(yuǎn)遠(yuǎn)不能比的。復(fù)雜度為博弈從初始狀態(tài)開(kāi)始能夠生成的所有可能為博弈樹(shù)的大小反應(yīng)了博弈過(guò)程中搜索空間的大小點(diǎn)越多,要想對(duì)博弈樹(shù)進(jìn)行搜索就更困難,所以可博弈的難度。從博弈樹(shù)復(fù)雜度來(lái)看,中國(guó)象棋的博棋的博弈樹(shù)復(fù)雜度為12310 ,,19 路圍棋的博弈樹(shù)復(fù)圍棋的博弈樹(shù)復(fù)雜度也是中國(guó)象棋和國(guó)際象棋遠(yuǎn)遠(yuǎn)博弈樹(shù)用博弈樹(shù)來(lái)解決博弈問(wèn)題,基本方法是從初始博弈方能夠選擇的所有合法的動(dòng)作對(duì)博弈樹(shù)進(jìn)行擴(kuò)展,結(jié)束狀態(tài)。圖 2-2 給出簡(jiǎn)單井字棋游戲的前三層博已經(jīng)合并為一個(gè)局面。井字游戲?yàn)橥婕译p方分別放,直到一方率先使得己方的三個(gè)棋子能橫、豎或者
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP18
【參考文獻(xiàn)】
相關(guān)博士學(xué)位論文 前1條
1 張加佳;非完備信息機(jī)器博弈中風(fēng)險(xiǎn)及對(duì)手模型的研究[D];哈爾濱工業(yè)大學(xué);2015年
相關(guān)碩士學(xué)位論文 前1條
1 李昌;基于Q學(xué)習(xí)算法的非完備信息機(jī)器博弈的研究[D];哈爾濱工業(yè)大學(xué);2015年
本文編號(hào):2619908
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2619908.html
最近更新
教材專(zhuān)著