天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

方差相關(guān)的策略梯度方法研究

發(fā)布時(shí)間:2017-08-20 17:41

  本文關(guān)鍵詞:方差相關(guān)的策略梯度方法研究


  更多相關(guān)文章: 強(qiáng)化學(xué)習(xí) 方差相關(guān) 策略梯度 時(shí)間差分 POMDP


【摘要】:強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,它允許智能體直接與環(huán)境進(jìn)行交互,并且可以在無(wú)標(biāo)簽數(shù)據(jù)以及模型未知的情況下進(jìn)行自主在線學(xué)習(xí)。目前絕大多數(shù)強(qiáng)化學(xué)習(xí)算法的目標(biāo)是最大化平均獎(jiǎng)賞或者長(zhǎng)期累積(折扣)獎(jiǎng)賞,但是對(duì)于控制、金融以及醫(yī)療診斷等風(fēng)險(xiǎn)敏感的問(wèn)題,在最大化上述目標(biāo)的同時(shí)應(yīng)該考慮控制獎(jiǎng)賞的方差,使得整個(gè)控制或者學(xué)習(xí)過(guò)程更加穩(wěn)定。本文著眼于風(fēng)險(xiǎn)敏感的強(qiáng)化學(xué)習(xí)問(wèn)題,將方差相關(guān)的風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn)引入策略梯度方法中,提出方差相關(guān)的策略梯度算法。主要研究可以概括為以下三部分:(1)當(dāng)離策略行動(dòng)者-評(píng)論家算法采用探索性強(qiáng)的行為策略時(shí),它的方差會(huì)增加,往往不能滿足風(fēng)險(xiǎn)敏感問(wèn)題對(duì)于方差的要求。針對(duì)此問(wèn)題,將方差相關(guān)的風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn)引入該算法中,提出一種方差相關(guān)的離策略行動(dòng)者-評(píng)論家算法—VOPAC。從理論上分析了算法的收斂性,并通過(guò)一個(gè)復(fù)雜的連續(xù)狀態(tài)空間控制問(wèn)題驗(yàn)證算法在控制方差方面的有效性。(2)時(shí)間差分與資格跡是強(qiáng)化學(xué)習(xí)中解決時(shí)間信度分配問(wèn)題的非常有效的方法,并且被廣泛運(yùn)用于各種強(qiáng)化學(xué)習(xí)算法中。基于真實(shí)在線TD(?)算法,引入方差相關(guān)風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn),提出一種方差相關(guān)的策略梯度時(shí)間差分算法—VPGTD(?)。從理論上證明了該算法的向前觀點(diǎn)與向后觀點(diǎn)的完全一致,并通過(guò)一個(gè)情節(jié)式的連續(xù)狀態(tài)空間控制問(wèn)題驗(yàn)證算法在控制方差方面的有效性。(3)上述兩個(gè)研究是基于MDP模型的,對(duì)于POMDP模型,由于其對(duì)環(huán)境的感知是不準(zhǔn)確的,所以不確定性更強(qiáng),方差更大。針對(duì)此問(wèn)題,將帶中間狀態(tài)的策略梯度算法結(jié)合值函數(shù)方法,提出帶中間狀態(tài)的行動(dòng)者-評(píng)論家算法—ACIS,并從理論上分析算法的收斂性;诖艘敕讲羁刂茩C(jī)制,提出一種帶中間狀態(tài)的方差相關(guān)行動(dòng)者-評(píng)論家算法—VACIS,并通過(guò)實(shí)驗(yàn)驗(yàn)證算法在降低方差方面的性能。
【關(guān)鍵詞】:強(qiáng)化學(xué)習(xí) 方差相關(guān) 策略梯度 時(shí)間差分 POMDP
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181
【目錄】:
  • 中文摘要4-5
  • Abstract5-10
  • 第一章 引言10-17
  • 1.1 研究背景及意義10-12
  • 1.2 研究現(xiàn)狀12-14
  • 1.3 研究?jī)?nèi)容14-15
  • 1.4 論文組織結(jié)構(gòu)15-17
  • 第二章 背景知識(shí)17-26
  • 2.1 馬爾科夫決策過(guò)程17-19
  • 2.2 部分可觀測(cè)馬爾科夫決策過(guò)程19-20
  • 2.3 方差相關(guān)風(fēng)險(xiǎn)評(píng)估標(biāo)準(zhǔn)20-21
  • 2.4 強(qiáng)化學(xué)習(xí)基本方法21-25
  • 2.4.1 時(shí)間差分方法21-22
  • 2.4.2 策略梯度方法22-24
  • 2.4.3 行動(dòng)者-評(píng)論家方法24-25
  • 2.5 本章小結(jié)25-26
  • 第三章 方差相關(guān)的離策略行動(dòng)者-評(píng)論家算法26-42
  • 3.1 離策略行動(dòng)者-評(píng)論家算法26-32
  • 3.1.1 離策略方法26-27
  • 3.1.2 離策略方法的獎(jiǎng)賞方差27-31
  • 3.1.3 近似策略梯度方法31-32
  • 3.2 方差相關(guān)的離策略行動(dòng)者-評(píng)論家算法32-37
  • 3.2.1 VOPAC算法32-36
  • 3.2.2 算法收斂性分析36-37
  • 3.3 實(shí)驗(yàn)及結(jié)果分析37-41
  • 3.3.1 Pinball實(shí)驗(yàn)描述37-38
  • 3.3.2 實(shí)驗(yàn)結(jié)果及分析38-41
  • 3.4 本章小結(jié)41-42
  • 第四章 方差相關(guān)的策略梯度時(shí)間差分算法42-56
  • 4.1 時(shí)間差分與資格跡42-46
  • 4.1.1 n步TD預(yù)測(cè)42-43
  • 4.1.2 向前觀點(diǎn)43-44
  • 4.1.3 向后觀點(diǎn)44-46
  • 4.2 方差相關(guān)的策略梯度時(shí)間差分算法46-51
  • 4.2.1 VPGTD(l )46-49
  • 4.2.2 向后與向前觀點(diǎn)一致性分析49-51
  • 4.3 實(shí)驗(yàn)及結(jié)果分析51-54
  • 4.3.1 Acrobot實(shí)驗(yàn)描述52-53
  • 4.3.2 實(shí)驗(yàn)結(jié)果及分析53-54
  • 4.4 本章小結(jié)54-56
  • 第五章 帶中間狀態(tài)的方差相關(guān)行動(dòng)者-評(píng)論家算法56-73
  • 5.1 帶中間狀態(tài)的POMDP模型56-60
  • 5.1.1 中間狀態(tài)56-58
  • 5.1.2 帶中間狀態(tài)的策略梯度方法58-59
  • 5.1.3 POMDP模型中方差相關(guān)策略梯度方法59-60
  • 5.2 帶中間狀態(tài)的方差相關(guān)行動(dòng)者-評(píng)論家算法60-67
  • 5.2.1 ACIS算法60-63
  • 5.2.2 VACIS算法63-65
  • 5.2.3 算法收斂性分析65-67
  • 5.3 實(shí)驗(yàn)及結(jié)果分析67-72
  • 5.3.1 Load-Unload與Navigation實(shí)驗(yàn)描述67-69
  • 5.3.2 ACIS算法實(shí)驗(yàn)及結(jié)果分析69-71
  • 5.3.3 VACIS算法實(shí)驗(yàn)及結(jié)果分析71-72
  • 5.4 本章小結(jié)72-73
  • 第六章 總結(jié)與展望73-76
  • 6.1 總結(jié)73-74
  • 6.2 展望74-76
  • 參考文獻(xiàn)76-81
  • 攻讀碩士學(xué)位期間公開發(fā)表(錄用)的論文及參與的項(xiàng)目81-82
  • 一、公開發(fā)表(錄用)的學(xué)術(shù)論文81
  • 二、專利81
  • 三、參加的科研項(xiàng)目81-82
  • 致謝82-83

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉木;黃知超;鐘奕;范興明;楊升振;;一種改進(jìn)的梯度方向角的圓檢測(cè)方法[J];電子設(shè)計(jì)工程;2011年18期

2 高智;仲思東;;基于梯度方向角量化的匹配新算法[J];計(jì)算機(jī)工程;2007年22期

3 生海迪;段會(huì)川;孔超;;詞袋模型中梯度方向離散精度閾值經(jīng)驗(yàn)分析[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年09期

4 汪旭東;賈淵;;基于概率密度梯度方向的角點(diǎn)重定位技術(shù)[J];計(jì)算機(jī)應(yīng)用;2010年02期

5 李立春,馮衛(wèi)東,于起峰;根據(jù)邊緣梯度方向的十字絲目標(biāo)快速自動(dòng)檢測(cè)[J];光學(xué)技術(shù);2004年03期

6 胡海鷗;祝建中;;一種邊點(diǎn)梯度方向引導(dǎo)的光滑邊段提取方法[J];計(jì)算機(jī)工程與應(yīng)用;2011年16期

7 郭軍;周暉;朱長(zhǎng)仁;肖順平;;基于梯度方向二進(jìn)制模式的空間金字塔模型方法[J];國(guó)防科技大學(xué)學(xué)報(bào);2014年02期

8 王健;王孝通;徐曉剛;李博;;基于梯度的隨機(jī)Hough快速圓檢測(cè)方法[J];計(jì)算機(jī)應(yīng)用研究;2006年08期

9 裴沛;;基于邊緣梯度方向的圖像二值化方法[J];計(jì)算機(jī)與現(xiàn)代化;2013年05期

10 王靜;蔣愛德;;基于投影函數(shù)和梯度方向的快速人眼定位方法[J];科技信息(學(xué)術(shù)研究);2007年25期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條

1 趙淼;王珂;莊嚴(yán);王偉;;基于梯度方向雙邊對(duì)稱性的旋轉(zhuǎn)人臉中心跟蹤[A];2005年中國(guó)智能自動(dòng)化會(huì)議論文集[C];2005年

2 王健;王孝通;徐曉剛;李博;;一種新的基于隨機(jī)Hough變換的圓檢測(cè)算法[A];第十二屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年

3 李士進(jìn);熊輝;陸建峰;楊靜宇;;一種穩(wěn)健的人臉檢測(cè)方法[A];中國(guó)圖象圖形科學(xué)技術(shù)新進(jìn)展——第九屆全國(guó)圖象圖形科技大會(huì)論文集[C];1998年

4 金英俊;王鐵軍;;開孔梯度泡沫彈塑性性質(zhì)的三維數(shù)值模擬[A];2009年度全國(guó)復(fù)合材料力學(xué)研討會(huì)論文集[C];2009年

5 鄧海峰;苗振江;;基于梯度直方圖的行人檢測(cè)算法的改進(jìn)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 蘇亞藝;基于房?jī)r(jià)梯度的城市居住功能疏解研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年

2 戚建強(qiáng);離心—凝膠成型工藝制備氣孔梯度陶瓷[D];中國(guó)建筑材料科學(xué)研究總院;2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 李耀;復(fù)雜環(huán)境中的車牌定位算法研究[D];南京郵電大學(xué);2015年

2 許丹;方差相關(guān)的策略梯度方法研究[D];蘇州大學(xué);2016年

3 劉美霞;面向復(fù)雜腦神經(jīng)纖維結(jié)構(gòu)重建的處理方法研究[D];天津大學(xué);2012年

4 楊小上;基于梯度方向特征的行人檢測(cè)[D];東北師范大學(xué);2012年



本文編號(hào):708023

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/708023.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1068d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com