基于深度學習和蒙特卡洛樹搜索的圍棋博弈研究

發(fā)布時間：2020-04-08 22:37

【摘要】：完備信息博弈一直是機器博弈的主要研究方向,而機器博弈是人工智能的重要領域,是檢驗人工智能發(fā)展水平的重要指標之一。在完備信息博弈中,簡單而深邃的圍棋在計算機中的處理具有極高的復雜性,是檢驗機器博弈水平的重要手段。圍棋機器博弈的研究成果可以應用到人工智能的其他領域,包括金融決策和運動控制等。2016年Deepmind團隊推出的Alpha Go一舉戰(zhàn)勝了圍棋世界冠軍李世石,但這并不代表圍棋問題已經(jīng)被完美地解決,圍棋博弈中還有很多值得研究的問題。蒙特卡洛樹搜索算法的一個重要步驟為模擬,在給定的時間內(nèi),模擬的次數(shù)越多,蒙特卡洛樹搜索算法的結(jié)果越準確,返回的結(jié)果可參考性越高。模擬中需要策略進行快速走子,傳統(tǒng)的方法采用基于模式的方法進行快速走子,但是基于模式的快速走子存在一些問題:模式存儲在內(nèi)存中,每次需要對棋盤中的模式進行統(tǒng)計比對,會耗費大量的時間;基于模式的方法在快速走子時的準確率不高,影響模擬的結(jié)果。為了解決上述問題,本論文采用深度學習與蒙特卡洛樹搜索算法結(jié)合的方法,用深度學習對棋譜進行學習得到網(wǎng)絡層數(shù)較多的策略網(wǎng)絡和網(wǎng)絡層數(shù)較少的快速走子網(wǎng)絡,用策略網(wǎng)絡結(jié)合蒙特卡洛樹搜索算法對博弈樹進行搜索,并且針對用模式進行快速走子方法的缺陷提出了利用訓練的快速走子網(wǎng)絡來進行快速走子的方法。該方法利用3至5層卷積神經(jīng)網(wǎng)絡進行快速走子滿足蒙特卡洛樹搜索算法中模擬時對快速走子時間的要求,且較于傳統(tǒng)的基于模式的方法在對棋譜的預測上準確率更高,使得模擬的結(jié)果更有參考價值。另外,使用快速走子網(wǎng)絡能夠更好地利用GPU資源,且不需要對模式進行統(tǒng)計和比對,提升了蒙特卡洛樹搜索算法中模擬的速度。本論文將快速走子網(wǎng)絡方法應用在圍棋博弈的蒙特卡洛樹搜索算法中,實現(xiàn)了基于深度學習和蒙特卡洛樹搜索算法的圍棋博弈智能體,利用本論文實現(xiàn)的智能體與傳統(tǒng)的基于模式的蒙特卡洛樹搜索算法智能體對弈,驗證了算法的有效性。
【圖文】：

圍棋,對手,計算機

圖 2-1 圍棋棋盤中，計算機不僅與對手下圍棋中一般會采取一個對計算的發(fā)展至關重要。世界上目以及應氏圍棋規(guī)則，三種規(guī)用的是中國或者日本圍棋規(guī)判定雙方棋手占地多少的規(guī)采取的是“數(shù)子”的方式，以在計算機圍棋博弈中，普遍目”法。圍棋規(guī)則中黑方先勢為 7.5 個棋子，在終局判到 185（即大于 361/2+7.5/2（即大于 361/2-7.5/2=176.75法為“數(shù)目”法，需要判斷圍點屬于己方或者對方是一件弈都普遍采用的中國圍棋規(guī)

博弈樹,三層,圍棋

狀態(tài)后結(jié)果為17010 ，從數(shù)字上來看，圍棋的狀態(tài)空象棋遠遠不能比的。復雜度為博弈從初始狀態(tài)開始能夠生成的所有可能為博弈樹的大小反應了博弈過程中搜索空間的大小點越多，要想對博弈樹進行搜索就更困難，所以可博弈的難度。從博弈樹復雜度來看，中國象棋的博棋的博弈樹復雜度為12310 ，，19 路圍棋的博弈樹復圍棋的博弈樹復雜度也是中國象棋和國際象棋遠遠博弈樹用博弈樹來解決博弈問題，基本方法是從初始博弈方能夠選擇的所有合法的動作對博弈樹進行擴展，結(jié)束狀態(tài)。圖 2-2 給出簡單井字棋游戲的前三層博已經(jīng)合并為一個局面。井字游戲為玩家雙方分別放，直到一方率先使得己方的三個棋子能橫、豎或者
【學位授予單位】：哈爾濱工業(yè)大學
【學位級別】：碩士
【學位授予年份】：2018
【分類號】：TP18

【參考文獻】

相關博士學位論文前1條

1 張加佳;非完備信息機器博弈中風險及對手模型的研究[D];哈爾濱工業(yè)大學;2015年

相關碩士學位論文前1條

1 李昌;基于Q學習算法的非完備信息機器博弈的研究[D];哈爾濱工業(yè)大學;2015年

本文編號：2619908

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2619908.html

上一篇：基于OpenStack云計算平臺負載均衡技術(shù)研究
下一篇：基于改進蟻群算法的西安終端區(qū)空域靈活使用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習和蒙特卡洛樹搜索的圍棋博弈研究