天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于深度強化學(xué)習(xí)的3D游戲的非完備信息機器博弈研究

發(fā)布時間:2020-03-31 05:58
【摘要】:人工智能提出至今,已經(jīng)滲透到各個領(lǐng)域并日益發(fā)揮著其強大的作用,機器博弈被譽為其中最具挑戰(zhàn)性的研究方向之一,也是驗證人工智能理論與計算理論的試金石。機器博弈分為完備信息機器博弈與非完備信息機器博弈兩大類。非完備信息機器博弈的特點是智能體在博弈過程中無法獲得博弈過程的全部信息。非完備信息博弈指參與人對某些博弈信息不可知,相比于完備信息博弈,無疑增加了研究的復(fù)雜性。許多現(xiàn)實生活中的決策問題都可以抽象為非完備信息博弈問題,例如軍事博弈、商業(yè)競爭、網(wǎng)絡(luò)安全、金融調(diào)控等問題。因此,對非完備信息機器博弈領(lǐng)域內(nèi)的相關(guān)問題進行研究具有重要的現(xiàn)實意義。解決非完備信息機器博弈問題的傳統(tǒng)方法是將非完備信息機器博弈模型抽象為部分可觀測馬爾科夫決策模型,之后利用強化學(xué)習(xí)的相關(guān)算法加以處理。然而傳統(tǒng)的強化學(xué)習(xí)在信息非完備以及高維的狀態(tài)空間下無法收斂,僅通過有限的數(shù)據(jù)和反復(fù)測試無法遍歷博弈過程中的所有狀態(tài)。論文將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,用深度學(xué)習(xí)網(wǎng)絡(luò)替換強化學(xué)習(xí)中的狀態(tài)-動作值函數(shù),利用深度強化學(xué)習(xí)算法解決非完備信息機器博弈領(lǐng)域內(nèi)的相關(guān)問題。傳統(tǒng)強化學(xué)習(xí)算法需要人工提取特征,很難發(fā)現(xiàn)特征間的內(nèi)在聯(lián)系,同時訓(xùn)練時需要大量的領(lǐng)域知識,可擴展性差。深度強化學(xué)習(xí)算法直接使用原始的游戲畫面作為輸入,完成了端到端的訓(xùn)練,實現(xiàn)了智能體自我學(xué)習(xí)的過程。本文針對深度強化學(xué)習(xí)算法決策時無法解決長時間歷史信息的問題,將深度強化學(xué)習(xí)算法與長短期記憶模型進行結(jié)合,引用了DRQN網(wǎng)絡(luò)。同時針對傳統(tǒng)深度強化學(xué)習(xí)算法中存在次優(yōu)動作的Q值過估計問題,結(jié)合了雙重Q學(xué)習(xí)算法,將原深度強化學(xué)習(xí)中Q值的估計過程進行了解耦,并將DRQN網(wǎng)絡(luò)與雙重Q學(xué)習(xí)進行結(jié)合,提出了DDQRN網(wǎng)絡(luò)。又因改進后的DDQRN網(wǎng)絡(luò)訓(xùn)練效率不高、收斂緩慢,為了加快網(wǎng)絡(luò)的訓(xùn)練收斂速度,本文提出了基于優(yōu)先級搜索的記憶回放結(jié)構(gòu)。同時為了提高智能體的對戰(zhàn)效率,對網(wǎng)絡(luò)結(jié)構(gòu)進行了細分,不同的神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)不同的任務(wù)場景,最終對戰(zhàn)網(wǎng)絡(luò)由視覺神經(jīng)網(wǎng)絡(luò)、地圖導(dǎo)航策略強化神經(jīng)網(wǎng)絡(luò)、對戰(zhàn)策略強化神經(jīng)網(wǎng)絡(luò)所組成,在類似于現(xiàn)實生活的以第一人稱為視角的三維對戰(zhàn)射擊博弈Vizdoom游戲中實現(xiàn)了高智力水平的強化學(xué)習(xí)智能體。與傳統(tǒng)的強化學(xué)習(xí)算法相比,達到了更高的博弈水平。
【圖文】:

當(dāng)前狀態(tài),函數(shù)矩陣,動作行為,動作值


Q學(xué)習(xí)算法在下面給出:強化學(xué)習(xí)中比較流行的一種偏離策略的學(xué)習(xí)方法就是Q學(xué)習(xí) 實際上Q學(xué)習(xí)是通過不斷地學(xué)習(xí)訓(xùn)練最終收斂到了一個狀態(tài)-動作矩陣,如下圖2-3所示:圖2-3 狀態(tài)-動作值函數(shù)矩陣表中的每一項w值對應(yīng)的就是智能體在當(dāng)前狀態(tài)下采取某個動作行為對應(yīng)的狀態(tài)動作 Q ( s , a )值,初始化時Q值矩陣初始化為隨機值,之后通過不斷的訓(xùn)練迭代,最終Q矩陣會收斂 當(dāng)智能體實際運行時選擇Q矩陣中當(dāng)前狀態(tài)下Q值最大的動作執(zhí)行 算法 2-1 Q 學(xué)習(xí)算法初始化:所有狀態(tài) s ,,行為 a,和其所對應(yīng)的 Q 值 Q ( s,a)循環(huán):執(zhí)行以下操作,直到ts 是終止?fàn)顟B(tài)(1)根據(jù)當(dāng)前狀態(tài) ,選取處于當(dāng)前狀態(tài)下的最優(yōu)動作策略ta

學(xué)習(xí)網(wǎng)絡(luò)


Belief Networks,DBNs[33]),如圖2-4所示,其包含了許多個隱藏層的神經(jīng)網(wǎng)絡(luò),其原理是將低層特征進行組合從而形成非常抽象的高層特征,以發(fā)掘數(shù)據(jù)特征更深層的內(nèi)在聯(lián)系,通過將多層非線性結(jié)構(gòu)進行組合使其擁有了其他算法所不具有的非常強大的特征表達能力 深度學(xué)習(xí)擁有自動提取特征的能力,從而不需要人工進行復(fù)雜的特征提取過程,深度學(xué)習(xí)能夠從訓(xùn)練數(shù)據(jù)中隱式地學(xué)習(xí),能夠刻畫出人類專家都無法察覺的數(shù)據(jù)的內(nèi)在信息 同時因為大數(shù)據(jù)時代的來臨以及運算深度神經(jīng)網(wǎng)絡(luò)所需的硬件計算速度的改進使得深度學(xué)習(xí)越來越多的可以應(yīng)用到實際生活中的不同的領(lǐng)域,如圖像識別 語音識別翻譯 自然語言處理等 深度學(xué)習(xí)最常用的經(jīng)典模型有遞歸神經(jīng)網(wǎng)絡(luò),自動編碼器,卷積神經(jīng)網(wǎng)絡(luò)等 圖2-4 深度學(xué)習(xí)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)[34]設(shè)計的初衷是為了解決圖像識別的問題
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP18;TP317

【參考文獻】

相關(guān)期刊論文 前1條

1 郭茂祖,劉揚,黃梯云;加強學(xué)習(xí)主要算法的比較研究[J];計算機工程與應(yīng)用;2001年21期



本文編號:2608670

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2608670.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶89728***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com