基于一般化斜投影的異策略時序差分學習算法
【圖文】:
L1Φ=D(I-wγP)Φ=DL2Φ其中L2=I-wγP,權重w是一個實數(shù).顯然,當w。昂停睍r,XR就等于XTD和XBR.由于TD和BR的方法各有優(yōu)點(TD的方法收斂速度快,但無法保證收斂性,而BR的方法具有很好的收斂性,收斂的速度卻很慢),所以通過將兩者加權得到RTD的方法,能夠綜合TD和BR的優(yōu)點,在收斂的速度和穩(wěn)定性之間做一個權衡,因此本文中。鲗儆冢暗剑敝g的實數(shù).圖1幾種方法投影的幾何關系Fig.1Geometricrelationshipsbetweenseveralmethodsfromtheprojectionview圖1描述了最佳投影方向和TD、BR的投影方向的關系,其中:ΠTD=ΠLT1XTD=ΠLT1DΦΠBR=ΠLT1XBR=ΠLT1DL1ΦΠR=ΠLT1XR=ΠLT1DL2ΦΠ=ΠLT1X*=ΠDΦ盡管采用了加權求和的方法,從幾何角度來看,新的投影方向仍然不是與span(Φ)正交的,即最優(yōu)投影方向,但是通過選取合適的權值w,新的投影點與最優(yōu)投影點間的距離會更近,也就是說估計的值函數(shù)精確度更高.2目標函數(shù)和一般化投影的時序差分學習算法2.1RTD算法用加權求和的方法得出一般的XR=DL2Φ后,就可以得到目標函數(shù):J(θ)=‖XTR(Vθ-TVθ)‖22=E[δ(φ-γwφ′)]TE[δ(φ-γw
第6期吳毓雙等:基于一般化斜投影的異策略時序差分學習算法續(xù)圖3圖3權值w在不同參數(shù)值下的性能曲線Fig.3Performancecomparisonswithotheralgorithmsfordifferentweightvalues對取不同權值(-1~5)的RTD算法進行相同條件下的實驗效果比對如圖4.圖4選取不同權值的RTD算法在相同實驗下效果曲線圖Fig.4Performancefiguresfordifferentweightvalues圖4給出了不同權值的RTD算法的實驗效果對比圖.從該圖中可以看出,w落在絕對收斂范圍內時能穩(wěn)定收斂,但速度一般,而落入相對收斂范圍內時,算法能夠保證較好收斂性和較快收斂速度,且當w。埃担ɑ疑┖停保常S色)時,算法的效果最佳.5總結與展望本文從投影的角度出發(fā),,對TD和BR的投影空間加權求和,將投影方向一般化,然后基于得到的一般化斜投影方向推導出兩種異策略的殘差時序差分學習算法,并給出了這兩種算法在異策略下的收斂性證明.本文通過Baird的異策略反例實驗,證實了本文提出的算法具有穩(wěn)定的收斂性,同時分析了權值不同對算法性能的影響,并且在收斂速度上與相關算法進行了對比.后續(xù)工作將從以下幾方面展開:(1)本文選取權值是通過人為設定的,而接下來將考慮利用自適應的方法選取最優(yōu)權值;(2)理論分析權值w選取在相對收斂范圍時能夠很快收斂的原因;(3)用有限樣本分析的方法分析算法的收斂性和性能界.參考文獻[1]SuttonRS,SzepesváriC,
【作者單位】: 南京郵電大學貝爾英才學院;南京郵電大學計算機學院;南京大學計算機軟件新技術國家重點實驗室;
【基金】:國家自然科學基金(61403208) 南京大學計算機軟件新技術國家重點實驗室開放課題(KFKT2016B04) 南京郵電大學引進人才科研啟動基金(NY214014)
【分類號】:TP181
【相似文獻】
相關期刊論文 前10條
1 任慶生,葉中行,曾進;進化算法的收斂速度[J];上海交通大學學報;1999年06期
2 齊潔;汪定偉;;極值優(yōu)化算法綜述[J];控制與決策;2007年10期
3 孫騫;張進;王宇翔;;蟻群算法優(yōu)化策略綜述[J];信息安全與技術;2014年02期
4 胡娟,王常青,韓偉,全智;蟻群算法及其實現(xiàn)方法研究[J];計算機仿真;2004年07期
5 李金漢;杜德生;;一種改進蟻群算法的仿真研究[J];自動化技術與應用;2008年02期
6 李修琳;魯建廈;柴國鐘;湯洪濤;;混合蜂群算法求解柔性作業(yè)車間調度問題[J];計算機集成制造系統(tǒng);2011年07期
7 秦全德;程適;李麗;史玉回;;人工蜂群算法研究綜述[J];智能系統(tǒng)學報;2014年02期
8 李豆豆;邵世煌;齊金鵬;;生存遷移算法[J];系統(tǒng)仿真學報;2008年08期
9 曹炬;賈紅;李婷婷;;煙花爆炸優(yōu)化算法[J];計算機工程與科學;2011年01期
10 劉曉勇;付輝;;一種快速AP聚類算法[J];山東大學學報(工學版);2011年04期
相關博士學位論文 前1條
1 王可心;大規(guī)模過程系統(tǒng)非線性優(yōu)化的簡約空間理論與算法研究[D];浙江大學;2008年
相關碩士學位論文 前10條
1 馬英鈞;基于人工蜂群算法的約束優(yōu)化問題研究[D];華中師范大學;2015年
2 孫方亮;基于粒子群與中心引力的一種新混合算法及應用[D];西安電子科技大學;2014年
3 張德祥;基于改進蟻群算法的機器人三維路徑規(guī)劃研究[D];青島科技大學;2015年
4 盧協(xié)平;聯(lián)盟競賽算法的研究與應用[D];福州大學;2014年
5 代水芹;基于種群分解的進化超多目標算法及其應用[D];廣東工業(yè)大學;2016年
6 李倩;支持張量機的切平面算法研究[D];華南理工大學;2016年
7 姚洪曼;基于改進人工蜂群算法的模糊聚類研究[D];廣西大學;2016年
8 丁亞英;基于局部搜索和二進制的改進人工蜂群算法[D];南京師范大學;2016年
9 楊杰;基于粒子群優(yōu)化算法的不確定聚類技術研究[D];北方民族大學;2016年
10 周雨鵬;基于鴿群算法的函數(shù)優(yōu)化問題求解[D];東北師范大學;2016年
本文編號:2520993
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2520993.html