基于深度強(qiáng)化學(xué)習(xí)機(jī)制的棋盤類游戲算法的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2024-02-26 03:57

　　隨著人工智能的不斷發(fā)展,深度強(qiáng)化學(xué)習(xí)以其獨(dú)特的優(yōu)勢(shì)越來(lái)越多地受到研究者的關(guān)注。通過(guò)將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)有機(jī)地結(jié)合起來(lái),深度強(qiáng)化學(xué)習(xí)不僅賦予強(qiáng)化學(xué)習(xí)智能體在高維環(huán)境下端對(duì)端的學(xué)習(xí)能力,而且為其他機(jī)器學(xué)習(xí)任務(wù)在超越缺乏訓(xùn)練樣本的情況下進(jìn)一步挖掘模型潛力提供了可能。盡管如此,由于從深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)繼承而來(lái)的雙重復(fù)雜性,在面臨諸如棋盤類游戲、視頻游戲等復(fù)雜學(xué)習(xí)任務(wù)時(shí),深度強(qiáng)化學(xué)習(xí)還存在著諸如訓(xùn)練不穩(wěn)定、樣本利用率低、成果難以復(fù)現(xiàn)、依賴準(zhǔn)確的超參數(shù)以及難以擺脫局部最優(yōu)等困難。本文以棋盤類游戲?yàn)榍腥朦c(diǎn),設(shè)計(jì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)與Upper Confidence Bound Applied to Trees(UCT)算法的深度強(qiáng)化學(xué)習(xí)算法,并針對(duì)上述問(wèn)題,從以下三個(gè)方面加以改進(jìn):(1)為了提升訓(xùn)練過(guò)程中采樣的質(zhì)量,提出一種利用UCT算法的搜索結(jié)果訓(xùn)練棋盤類游戲智能體的方法。該方法使用使用UCT算法對(duì)神經(jīng)網(wǎng)絡(luò)采樣軌跡進(jìn)行重新的評(píng)估,以此修正神經(jīng)網(wǎng)絡(luò)偏差。(2)結(jié)合神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹(shù)搜索的方法不僅需要大量的訓(xùn)練樣本,而且難以擺脫避免訓(xùn)練過(guò)程中的偏差對(duì)搜索軌跡的誤導(dǎo)。針對(duì)此問(wèn)題,提出一種結(jié)合集成學(xué)習(xí)...

【文章頁(yè)數(shù)】：85 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖２．２?Ａ３Ｃ總體結(jié)構(gòu)??所謂“異步”，是指該算法的交互過(guò)程與更新過(guò)程是多線程異步進(jìn)行的

?第二章深度強(qiáng)化學(xué)習(xí)概述??訓(xùn)練效率。圖２．２描述了?Ａ３Ｃ算法的總體結(jié)構(gòu)。??全局網(wǎng)絡(luò)??動(dòng)作｜?價(jià)值??分布?估計(jì)??個(gè)?７ｊ＼??行動(dòng)者?ｉ?平論家??網(wǎng)絡(luò)?網(wǎng)絡(luò)??￣／Ｋ￣?￣７Ｒ￣??菊入?輸入??工人１?工人２?｜?工人Ｎ??｜行?｜評(píng)?｜行?｜評(píng)?丨行?｜評(píng)??動(dòng)論....

圖３．１多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖［Ｓｃｈａｕｌ，?ｅｔａｌ．，?２００８］??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個(gè)循環(huán)單元僅接收前一個(gè)循環(huán)單元的輸出作為??先驗(yàn)信息，而這一模式顯然不能滿足多維度的掃描空間的情況

，，．，，維循環(huán)神經(jīng)網(wǎng)絡(luò)，發(fā)展出了一套新的狀態(tài)－動(dòng)作函數(shù)評(píng)估器。多維循環(huán)祌經(jīng)網(wǎng)絡(luò)??的訓(xùn)練數(shù)據(jù)同樣通過(guò)智能體自我對(duì)弈的方法實(shí)現(xiàn)。同時(shí)，文章創(chuàng)造性地利用了神??經(jīng)演化算法，開(kāi)創(chuàng)了將演化算法應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域的先河。??多維循環(huán)神經(jīng)網(wǎng)絡(luò)??循環(huán)神經(jīng)網(wǎng)絡(luò)己在諸如語(yǔ)音識(shí)別、語(yǔ)義分析、機(jī)器....

圖３．３基本的蒙特卡洛樹(shù)搜索流程［Ａｂｒａｍｓｏｎ，?１９８７］??

?（｜）?？??ａｉ??圖３．３基本的蒙特卡洛樹(shù)搜索流程［Ａｂｒａｍｓｏｎ，?１９８７］??一個(gè)基本的蒙特卡洛樹(shù)搜索流程如圖３．３所示，包含以下四個(gè)步驟：??選擇（Ｓｅｌｅｃｔｉｏｎ）：從根節(jié)點(diǎn)出發(fā)，向下選擇訪問(wèn)具有最大Ｑ值的子節(jié)點(diǎn)，直??到抵達(dá)葉節(jié)點(diǎn)或最深層數(shù)限制為止。值的定義....

圖３．４祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??

這里的神經(jīng)網(wǎng)絡(luò)總體上采用類似于谷歌公司在２０１５年發(fā)布的Ｄｅ印??Ｑ－ｎｅｔｗｏｒｋ的結(jié)構(gòu)。不過(guò)，由于本棋盤類游戲環(huán)境的狀態(tài)空間遠(yuǎn)遠(yuǎn)不及視頻游戲，??因此也在一定程度上做出了適應(yīng)性調(diào)整。如圖３．４所示，神經(jīng)網(wǎng)絡(luò)輸入層由３通??道的尺寸為ｓｉｚｅ?ｘ?ｓｉｚｅ的棋局信息構(gòu)成。接下來(lái)....

本文編號(hào)：3911297

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3911297.html

上一篇：這些年,百度都做了什么?
下一篇：基于改進(jìn)煙花算法的非線性模擬電路測(cè)試激勵(lì)優(yōu)化

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強(qiáng)化學(xué)習(xí)機(jī)制的棋盤類游戲算法的設(shè)計(jì)與實(shí)現(xiàn)