天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

聚焦對(duì)象的Q值學(xué)習(xí)算法改進(jìn)研究

發(fā)布時(shí)間:2021-07-09 03:47
  本論文主要研究聚焦對(duì)象的Q值學(xué)習(xí)算法改進(jìn)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一大分支,其中Q值學(xué)習(xí)算法是一個(gè)經(jīng)典的算法。Q值學(xué)習(xí)算法缺點(diǎn)之一是無(wú)法應(yīng)用于狀態(tài)較多的場(chǎng)景。聚焦對(duì)象的Q值學(xué)習(xí)算法是Q值學(xué)習(xí)算法的一種改進(jìn)算法,可以應(yīng)用于特定的狀態(tài)更多的場(chǎng)景。通過(guò)人為分類場(chǎng)景中的對(duì)象,分解場(chǎng)景的狀態(tài)空間,指數(shù)級(jí)減少了該場(chǎng)景的狀態(tài)空間的規(guī)模,使算法可以在一定時(shí)間內(nèi)訓(xùn)練出結(jié)果。本論文將從穩(wěn)定性、收斂速度等角度研究改進(jìn)聚焦對(duì)象的Q值學(xué)習(xí)算法。論文主要內(nèi)容如下:首先將傳統(tǒng)的聚焦對(duì)象的Q值學(xué)習(xí)算法與基于模型的學(xué)習(xí)算法相結(jié)合,在原算法的流程中結(jié)合了Prioritized Sweeping算法。算法在訓(xùn)練的同時(shí)增加了對(duì)模型采樣學(xué)習(xí)的步驟。通過(guò)實(shí)驗(yàn)驗(yàn)證該改進(jìn)加快收斂速度。第二,嘗試改變聚焦對(duì)象的Q值學(xué)習(xí)算法使用的控制策略,通過(guò)場(chǎng)景測(cè)試不同控制策略對(duì)收斂的影響。原算法改進(jìn)了控制策略,再結(jié)合基于模型的學(xué)習(xí)算法后,減少了原算法的參數(shù)數(shù)量,內(nèi)存開(kāi)銷更低,收斂更加穩(wěn)定。第三,論文嘗試從提高計(jì)算資源利用的角度改進(jìn)聚焦對(duì)象的Q值學(xué)習(xí)算法。將傳統(tǒng)的結(jié)合基于模型學(xué)習(xí)的算法步驟中,模型學(xué)習(xí)的部分通過(guò)異步方式實(shí)現(xiàn)。本論文參考已有的Actor-C... 

【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:55 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

聚焦對(duì)象的Q值學(xué)習(xí)算法改進(jìn)研究


馬爾可夫決策過(guò)程下agent環(huán)境交互馬爾可夫決策過(guò)程給出了一種簡(jiǎn)潔的框架,即agent從交互中學(xué)習(xí),實(shí)現(xiàn)目標(biāo)

框架圖,無(wú)模型,框架,模型


東南大學(xué)碩士學(xué)位論文2.4 模型學(xué)習(xí)和無(wú)模型學(xué)習(xí)結(jié)合的算法基于模型的方法主要是以規(guī)劃為重心,而無(wú)模型方法主要依賴于探索學(xué)習(xí)。規(guī)劃和學(xué)習(xí)相結(jié)合是是多年來(lái)逐漸發(fā)展起來(lái)的一種方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和無(wú)模型結(jié)合的方法模型方法和無(wú)模型方法有著共通點(diǎn),即都是關(guān)于值函數(shù)計(jì)算的方法。所有的方法都是基于對(duì)未來(lái)事件的預(yù)測(cè),用這個(gè)值來(lái)更新值函數(shù)。不斷的做值函數(shù)近似值。因此,可以將二者相結(jié)合。如圖 2-1 就是一種模型和無(wú)模型相結(jié)合的典型框架。

界面圖,界面,閾值,像素


估 的兩個(gè)相鄰的值,這樣 T 集合中每個(gè)類的閾值 小個(gè)候選值。閾值集 T 運(yùn)行固定周期數(shù),分別比較這三個(gè)值得到的期得到最高期望獎(jiǎng)賞的那個(gè)值 。下次更新就取新閾值 為 10%時(shí)算法在不同的應(yīng)用場(chǎng)景下都有不錯(cuò)的效果[17], 。例像素游戲 Space Invader 為例,簡(jiǎn)單介紹一下聚焦對(duì)象算法的區(qū)別。der 是經(jīng)典的像素游戲之一,界面如圖 3-1:


本文編號(hào):3272957

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3272957.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24bc1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
狠狠干狠狠操亚洲综合| 婷婷亚洲综合五月天麻豆| 亚洲精品偷拍一区二区三区| 欧美夫妻性生活一区二区| 日本不卡一区视频欧美| 欧美精品中文字幕亚洲| 日韩精品少妇人妻一区二区| 国产精品久久男人的天堂| 精品少妇一区二区三区四区| 日本乱论一区二区三区| 1024你懂的在线视频| 国内自拍偷拍福利视频| 久久国内午夜福利直播| 国产一区一一一区麻豆| 精品人妻久久一品二品三品| 精品国产av一区二区三区不卡蜜 | 国产精品午夜福利免费阅读| 国内胖女人做爰视频有没有| 日韩1区二区三区麻豆| 亚洲欧洲一区二区综合精品| 中文字幕高清不卡一区| 精品日韩av一区二区三区| 国产av一区二区三区久久不卡| 成人午夜免费观看视频| 日韩人妻精品免费一区二区三区| 亚洲天堂精品1024| 亚洲最新的黄色录像在线| 亚洲欧美日产综合在线网| 东京热加勒比一区二区三区| 久久精品国产99精品最新| 国产成人精品国内自产拍| 高清不卡一卡二卡区在线| 男生和女生哪个更好色| 中日韩美女黄色一级片| 高清一区二区三区大伊香蕉| 草草草草在线观看视频| 国产精品香蕉一级免费| 成人精品国产亚洲av久久| 激情少妇一区二区三区| 日本道播放一区二区三区| 国产女性精品一区二区三区|