聚焦對象的Q值學習算法改進研究
發(fā)布時間:2021-07-09 03:47
本論文主要研究聚焦對象的Q值學習算法改進。強化學習是機器學習中一大分支,其中Q值學習算法是一個經典的算法。Q值學習算法缺點之一是無法應用于狀態(tài)較多的場景。聚焦對象的Q值學習算法是Q值學習算法的一種改進算法,可以應用于特定的狀態(tài)更多的場景。通過人為分類場景中的對象,分解場景的狀態(tài)空間,指數級減少了該場景的狀態(tài)空間的規(guī)模,使算法可以在一定時間內訓練出結果。本論文將從穩(wěn)定性、收斂速度等角度研究改進聚焦對象的Q值學習算法。論文主要內容如下:首先將傳統的聚焦對象的Q值學習算法與基于模型的學習算法相結合,在原算法的流程中結合了Prioritized Sweeping算法。算法在訓練的同時增加了對模型采樣學習的步驟。通過實驗驗證該改進加快收斂速度。第二,嘗試改變聚焦對象的Q值學習算法使用的控制策略,通過場景測試不同控制策略對收斂的影響。原算法改進了控制策略,再結合基于模型的學習算法后,減少了原算法的參數數量,內存開銷更低,收斂更加穩(wěn)定。第三,論文嘗試從提高計算資源利用的角度改進聚焦對象的Q值學習算法。將傳統的結合基于模型學習的算法步驟中,模型學習的部分通過異步方式實現。本論文參考已有的Actor-C...
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:55 頁
【學位級別】:碩士
【部分圖文】:
馬爾可夫決策過程下agent環(huán)境交互馬爾可夫決策過程給出了一種簡潔的框架,即agent從交互中學習,實現目標
東南大學碩士學位論文2.4 模型學習和無模型學習結合的算法基于模型的方法主要是以規(guī)劃為重心,而無模型方法主要依賴于探索學習。規(guī)劃和學習相結合是是多年來逐漸發(fā)展起來的一種方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和無模型結合的方法模型方法和無模型方法有著共通點,即都是關于值函數計算的方法。所有的方法都是基于對未來事件的預測,用這個值來更新值函數。不斷的做值函數近似值。因此,可以將二者相結合。如圖 2-1 就是一種模型和無模型相結合的典型框架。
估 的兩個相鄰的值,這樣 T 集合中每個類的閾值 小個候選值。閾值集 T 運行固定周期數,分別比較這三個值得到的期得到最高期望獎賞的那個值 。下次更新就取新閾值 為 10%時算法在不同的應用場景下都有不錯的效果[17], 。例像素游戲 Space Invader 為例,簡單介紹一下聚焦對象算法的區(qū)別。der 是經典的像素游戲之一,界面如圖 3-1:
本文編號:3272957
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:55 頁
【學位級別】:碩士
【部分圖文】:
馬爾可夫決策過程下agent環(huán)境交互馬爾可夫決策過程給出了一種簡潔的框架,即agent從交互中學習,實現目標
東南大學碩士學位論文2.4 模型學習和無模型學習結合的算法基于模型的方法主要是以規(guī)劃為重心,而無模型方法主要依賴于探索學習。規(guī)劃和學習相結合是是多年來逐漸發(fā)展起來的一種方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和無模型結合的方法模型方法和無模型方法有著共通點,即都是關于值函數計算的方法。所有的方法都是基于對未來事件的預測,用這個值來更新值函數。不斷的做值函數近似值。因此,可以將二者相結合。如圖 2-1 就是一種模型和無模型相結合的典型框架。
估 的兩個相鄰的值,這樣 T 集合中每個類的閾值 小個候選值。閾值集 T 運行固定周期數,分別比較這三個值得到的期得到最高期望獎賞的那個值 。下次更新就取新閾值 為 10%時算法在不同的應用場景下都有不錯的效果[17], 。例像素游戲 Space Invader 為例,簡單介紹一下聚焦對象算法的區(qū)別。der 是經典的像素游戲之一,界面如圖 3-1:
本文編號:3272957
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3272957.html