基于深度強(qiáng)化學(xué)習(xí)機(jī)制的棋盤類游戲算法的設(shè)計(jì)與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.2?A3C總體結(jié)構(gòu)??所謂“異步”,是指該算法的交互過程與更新過程是多線程異步進(jìn)行的
?第二章深度強(qiáng)化學(xué)習(xí)概述??訓(xùn)練效率。圖2.2描述了?A3C算法的總體結(jié)構(gòu)。??全局網(wǎng)絡(luò)??動(dòng)作|?價(jià)值??分布?估計(jì)??個(gè)?7j\??行動(dòng)者?i?平論家??網(wǎng)絡(luò)?網(wǎng)絡(luò)?? ̄/K ̄? ̄7R ̄??菊入?輸入??工人1?工人2?|?工人N??|行?|評(píng)?|行?|評(píng)?丨行?|評(píng)??動(dòng)論....
圖3.1多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[Schaul,?etal.,?2008]??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個(gè)循環(huán)單元僅接收前一個(gè)循環(huán)單元的輸出作為??先驗(yàn)信息,而這一模式顯然不能滿足多維度的掃描空間的情況
,,.,,維循環(huán)神經(jīng)網(wǎng)絡(luò),發(fā)展出了一套新的狀態(tài)-動(dòng)作函數(shù)評(píng)估器。多維循環(huán)祌經(jīng)網(wǎng)絡(luò)??的訓(xùn)練數(shù)據(jù)同樣通過智能體自我對(duì)弈的方法實(shí)現(xiàn)。同時(shí),文章創(chuàng)造性地利用了神??經(jīng)演化算法,開創(chuàng)了將演化算法應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域的先河。??多維循環(huán)神經(jīng)網(wǎng)絡(luò)??循環(huán)神經(jīng)網(wǎng)絡(luò)己在諸如語(yǔ)音識(shí)別、語(yǔ)義分析、機(jī)器....
圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??
?(|)????ai??圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??一個(gè)基本的蒙特卡洛樹搜索流程如圖3.3所示,包含以下四個(gè)步驟:??選擇(Selection):從根節(jié)點(diǎn)出發(fā),向下選擇訪問具有最大Q值的子節(jié)點(diǎn),直??到抵達(dá)葉節(jié)點(diǎn)或最深層數(shù)限制為止。值的定義....
圖3.4祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??
這里的神經(jīng)網(wǎng)絡(luò)總體上采用類似于谷歌公司在2015年發(fā)布的De印??Q-network的結(jié)構(gòu)。不過,由于本棋盤類游戲環(huán)境的狀態(tài)空間遠(yuǎn)遠(yuǎn)不及視頻游戲,??因此也在一定程度上做出了適應(yīng)性調(diào)整。如圖3.4所示,神經(jīng)網(wǎng)絡(luò)輸入層由3通??道的尺寸為size?x?size的棋局信息構(gòu)成。接下來....
本文編號(hào):3911297
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3911297.html