天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于深度強(qiáng)化學(xué)習(xí)機(jī)制的棋盤類游戲算法的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2024-02-26 03:57
  隨著人工智能的不斷發(fā)展,深度強(qiáng)化學(xué)習(xí)以其獨(dú)特的優(yōu)勢(shì)越來越多地受到研究者的關(guān)注。通過將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)有機(jī)地結(jié)合起來,深度強(qiáng)化學(xué)習(xí)不僅賦予強(qiáng)化學(xué)習(xí)智能體在高維環(huán)境下端對(duì)端的學(xué)習(xí)能力,而且為其他機(jī)器學(xué)習(xí)任務(wù)在超越缺乏訓(xùn)練樣本的情況下進(jìn)一步挖掘模型潛力提供了可能。盡管如此,由于從深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)繼承而來的雙重復(fù)雜性,在面臨諸如棋盤類游戲、視頻游戲等復(fù)雜學(xué)習(xí)任務(wù)時(shí),深度強(qiáng)化學(xué)習(xí)還存在著諸如訓(xùn)練不穩(wěn)定、樣本利用率低、成果難以復(fù)現(xiàn)、依賴準(zhǔn)確的超參數(shù)以及難以擺脫局部最優(yōu)等困難。本文以棋盤類游戲?yàn)榍腥朦c(diǎn),設(shè)計(jì)實(shí)現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)與Upper Confidence Bound Applied to Trees(UCT)算法的深度強(qiáng)化學(xué)習(xí)算法,并針對(duì)上述問題,從以下三個(gè)方面加以改進(jìn):(1)為了提升訓(xùn)練過程中采樣的質(zhì)量,提出一種利用UCT算法的搜索結(jié)果訓(xùn)練棋盤類游戲智能體的方法。該方法使用使用UCT算法對(duì)神經(jīng)網(wǎng)絡(luò)采樣軌跡進(jìn)行重新的評(píng)估,以此修正神經(jīng)網(wǎng)絡(luò)偏差。(2)結(jié)合神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹搜索的方法不僅需要大量的訓(xùn)練樣本,而且難以擺脫避免訓(xùn)練過程中的偏差對(duì)搜索軌跡的誤導(dǎo)。針對(duì)此問題,提出一種結(jié)合集成學(xué)習(xí)...

【文章頁(yè)數(shù)】:85 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.2?A3C總體結(jié)構(gòu)??所謂“異步”,是指該算法的交互過程與更新過程是多線程異步進(jìn)行的

圖2.2?A3C總體結(jié)構(gòu)??所謂“異步”,是指該算法的交互過程與更新過程是多線程異步進(jìn)行的

?第二章深度強(qiáng)化學(xué)習(xí)概述??訓(xùn)練效率。圖2.2描述了?A3C算法的總體結(jié)構(gòu)。??全局網(wǎng)絡(luò)??動(dòng)作|?價(jià)值??分布?估計(jì)??個(gè)?7j\??行動(dòng)者?i?平論家??網(wǎng)絡(luò)?網(wǎng)絡(luò)?? ̄/K ̄? ̄7R ̄??菊入?輸入??工人1?工人2?|?工人N??|行?|評(píng)?|行?|評(píng)?丨行?|評(píng)??動(dòng)論....


圖3.1多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[Schaul,?etal.,?2008]??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個(gè)循環(huán)單元僅接收前一個(gè)循環(huán)單元的輸出作為??先驗(yàn)信息,而這一模式顯然不能滿足多維度的掃描空間的情況

圖3.1多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[Schaul,?etal.,?2008]??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個(gè)循環(huán)單元僅接收前一個(gè)循環(huán)單元的輸出作為??先驗(yàn)信息,而這一模式顯然不能滿足多維度的掃描空間的情況

,,.,,維循環(huán)神經(jīng)網(wǎng)絡(luò),發(fā)展出了一套新的狀態(tài)-動(dòng)作函數(shù)評(píng)估器。多維循環(huán)祌經(jīng)網(wǎng)絡(luò)??的訓(xùn)練數(shù)據(jù)同樣通過智能體自我對(duì)弈的方法實(shí)現(xiàn)。同時(shí),文章創(chuàng)造性地利用了神??經(jīng)演化算法,開創(chuàng)了將演化算法應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域的先河。??多維循環(huán)神經(jīng)網(wǎng)絡(luò)??循環(huán)神經(jīng)網(wǎng)絡(luò)己在諸如語(yǔ)音識(shí)別、語(yǔ)義分析、機(jī)器....


圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??

圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??

?(|)????ai??圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??一個(gè)基本的蒙特卡洛樹搜索流程如圖3.3所示,包含以下四個(gè)步驟:??選擇(Selection):從根節(jié)點(diǎn)出發(fā),向下選擇訪問具有最大Q值的子節(jié)點(diǎn),直??到抵達(dá)葉節(jié)點(diǎn)或最深層數(shù)限制為止。值的定義....


圖3.4祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??

圖3.4祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??

這里的神經(jīng)網(wǎng)絡(luò)總體上采用類似于谷歌公司在2015年發(fā)布的De印??Q-network的結(jié)構(gòu)。不過,由于本棋盤類游戲環(huán)境的狀態(tài)空間遠(yuǎn)遠(yuǎn)不及視頻游戲,??因此也在一定程度上做出了適應(yīng)性調(diào)整。如圖3.4所示,神經(jīng)網(wǎng)絡(luò)輸入層由3通??道的尺寸為size?x?size的棋局信息構(gòu)成。接下來....



本文編號(hào):3911297

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3911297.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶46e88***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
91人妻人人精品人人爽| 国产欧美日韩综合精品二区| 少妇福利视频一区二区| 爱在午夜降临前在线观看| 日韩人妻精品免费一区二区三区| 欧美成人精品国产成人综合| 国产偷拍盗摄一区二区| 国产一区二区三区香蕉av| 精品人妻一区二区四区| 国产精品成人一区二区在线| 欧美六区视频在线观看| 办公室丝袜高跟秘书国产| 欧美精品专区一区二区| 国产一区二区三区香蕉av| 免费黄片视频美女一区| 婷婷九月在线中文字幕| 国产一级二级三级观看| 粉嫩内射av一区二区| 五月天丁香亚洲综合网| 手机在线观看亚洲中文字幕| 国内外激情免费在线视频| 婷婷基地五月激情五月| 精品久久综合日本欧美| 亚洲国产一级片在线观看| 日本精品最新字幕视频播放| 中文字幕av诱惑一区二区| 字幕日本欧美一区二区| 不卡在线播放一区二区三区| 欧美日韩亚洲巨色人妻| 99久久免费看国产精品| 最新国产欧美精品91| 最新69国产精品视频| 乱女午夜精品一区二区三区| 日本午夜免费观看视频| 一二区中文字幕在线观看| 国产黑人一区二区三区| 超碰在线免费公开中国黄片| 东京热男人的天堂社区| 福利一区二区视频在线| 日本高清加勒比免费在线| 91日韩在线视频观看|