基于泛函梯度的策略梯度方法的研究
[Abstract]:Reinforcement learning is one of the important research directions of machine learning, which aims to make agents improve their own strategies and maximize the accumulated reward by interacting with the environment. Most of the classical reinforcement learning methods are based on the value function, but the method based on the value function is difficult to deal with the task of continuous action, and has the phenomenon of "policy degradation". Therefore, the strategy-based search method has been developed significantly in recent years. Policy gradient method is one of the most important methods in policy search, which updates the strategy based on the policy parameter gradient. In the strategy gradient method, the strategy is usually represented by linear model, which results in the system being constrained by the limited representation ability of linear model. Functional gradient can be used to generate non-parametric models in supervised learning. The Boosting class method based on functional gradient has become one of the representative methods of supervised learning. However, there is little research on functional gradient in reinforcement learning. In this paper, the use of functional gradient method in strategic gradient method is studied. The main work is as follows: firstly, the combination of PolicyBoost, learning decision tree and other complex models based on functional gradient method is designed. It avoids the disadvantage of manual design of linear features in the past. Secondly, we prove the convergence of PolicyBoost under certain conditions. Aiming at the possible over-fitting phenomenon in theoretical analysis, the over-fitting problem is alleviated by introducing the baseline and constructing the sample pool. Finally, the experiments of classical task Mountain Car,Acrobot, and challenging helicopter hover control task in reinforcement learning show that the proposed algorithm is effective and stable.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉木;黃知超;鐘奕;范興明;楊升振;;一種改進(jìn)的梯度方向角的圓檢測(cè)方法[J];電子設(shè)計(jì)工程;2011年18期
2 高智;仲思東;;基于梯度方向角量化的匹配新算法[J];計(jì)算機(jī)工程;2007年22期
3 生海迪;段會(huì)川;孔超;;詞袋模型中梯度方向離散精度閾值經(jīng)驗(yàn)分析[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年09期
4 汪旭東;賈淵;;基于概率密度梯度方向的角點(diǎn)重定位技術(shù)[J];計(jì)算機(jī)應(yīng)用;2010年02期
5 李立春,馮衛(wèi)東,于起峰;根據(jù)邊緣梯度方向的十字絲目標(biāo)快速自動(dòng)檢測(cè)[J];光學(xué)技術(shù);2004年03期
6 胡海鷗;祝建中;;一種邊點(diǎn)梯度方向引導(dǎo)的光滑邊段提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期
7 郭軍;周暉;朱長(zhǎng)仁;肖順平;;基于梯度方向二進(jìn)制模式的空間金字塔模型方法[J];國(guó)防科技大學(xué)學(xué)報(bào);2014年02期
8 王健;王孝通;徐曉剛;李博;;基于梯度的隨機(jī)Hough快速圓檢測(cè)方法[J];計(jì)算機(jī)應(yīng)用研究;2006年08期
9 裴沛;;基于邊緣梯度方向的圖像二值化方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年05期
10 王靜;蔣愛德;;基于投影函數(shù)和梯度方向的快速人眼定位方法[J];科技信息(學(xué)術(shù)研究);2007年25期
相關(guān)會(huì)議論文 前5條
1 趙淼;王珂;莊嚴(yán);王偉;;基于梯度方向雙邊對(duì)稱性的旋轉(zhuǎn)人臉中心跟蹤[A];2005年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2005年
2 王健;王孝通;徐曉剛;李博;;一種新的基于隨機(jī)Hough變換的圓檢測(cè)算法[A];第十二屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
3 李士進(jìn);熊輝;陸建峰;楊靜宇;;一種穩(wěn)健的人臉檢測(cè)方法[A];中國(guó)圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國(guó)圖象圖形科技大會(huì)論文集[C];1998年
4 金英俊;王鐵軍;;開孔梯度泡沫彈塑性性質(zhì)的三維數(shù)值模擬[A];2009年度全國(guó)復(fù)合材料力學(xué)研討會(huì)論文集[C];2009年
5 鄧海峰;苗振江;;基于梯度直方圖的行人檢測(cè)算法的改進(jìn)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
相關(guān)博士學(xué)位論文 前2條
1 蘇亞藝;基于房?jī)r(jià)梯度的城市居住功能疏解研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年
2 戚建強(qiáng);離心—凝膠成型工藝制備氣孔梯度陶瓷[D];中國(guó)建筑材料科學(xué)研究總院;2007年
相關(guān)碩士學(xué)位論文 前5條
1 李耀;復(fù)雜環(huán)境中的車牌定位算法研究[D];南京郵電大學(xué);2015年
2 許丹;方差相關(guān)的策略梯度方法研究[D];蘇州大學(xué);2016年
3 侯鵬飛;基于泛函梯度的策略梯度方法的研究[D];南京大學(xué);2017年
4 劉美霞;面向復(fù)雜腦神經(jīng)纖維結(jié)構(gòu)重建的處理方法研究[D];天津大學(xué);2012年
5 楊小上;基于梯度方向特征的行人檢測(cè)[D];東北師范大學(xué);2012年
,本文編號(hào):2468376
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2468376.html