天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

一種不穩(wěn)定環(huán)境下的策略搜索及遷移方法

發(fā)布時(shí)間:2019-09-26 18:30
【摘要】:強(qiáng)化學(xué)習(xí)是一種Agent在與環(huán)境交互過(guò)程中,通過(guò)累計(jì)獎(jiǎng)賞最大化來(lái)尋求最優(yōu)策略的在線學(xué)習(xí)方法.由于在不穩(wěn)定環(huán)境中,某一時(shí)刻的MDP模型在與Agent交互之后就發(fā)生了變化,導(dǎo)致基于穩(wěn)定MDP模型傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法無(wú)法完成不穩(wěn)定環(huán)境下的最優(yōu)策略求解問(wèn)題.針對(duì)不穩(wěn)定環(huán)境下的策略求解問(wèn)題,利用MDP分布對(duì)不穩(wěn)定環(huán)境進(jìn)行建模,提出一種基于公式集的策略搜索算法——FSPS.FSPS算法在學(xué)習(xí)過(guò)程中搜集所獲得的歷史樣本信息,并對(duì)其進(jìn)行特征信息的提取,利用這些特征信息來(lái)構(gòu)造不同的用于動(dòng)作選擇的公式,采取策略搜索算法求解最優(yōu)公式.在此基礎(chǔ)之上,給出所求解策略的最優(yōu)性邊界,并從理論上證明了遷移到新MDP分布中策略的最優(yōu)性主要依賴于MDP分布之間的距離以及所求解策略在原始MDP分布中的性能.最后,將FSPS算法用于經(jīng)典的Markov Chain問(wèn)題,實(shí)驗(yàn)結(jié)果表明,所求解的策略具有較好的性能.
【圖文】:

狀態(tài)轉(zhuǎn)移,問(wèn)題,遷移策略,最優(yōu)策略


264邐電子學(xué)邋報(bào)邐2017年逡逑右1邋-的概座儲(chǔ)彳曰I邋-嚴(yán).I邐R、_尺",…邐'邋用于求解最優(yōu)策略,而戶,,用于遷移所學(xué)習(xí)的最優(yōu)策略’逡逑’邋-T日、]慨半守心“+邐,邋_r邐并測(cè)試所遷移策略的性能?在解決其他問(wèn)題時(shí),可以根據(jù)實(shí)逡逑/邋^邋_2_邐際情況設(shè)置為其他概率分布,如泊松分布(Poisson邋distribu-逡逑/邐—邋+邋S邋(邋h邋*邋h*邋)成立邐lion)、高斯分布(Gaussian邋distribution)等.逡逑^邋n邋,,u邐'邋A,"邐在實(shí)驗(yàn)過(guò)程中,設(shè)定每個(gè)MDP分布包含200個(gè)子逡逑根據(jù)定理3,我們可以發(fā)現(xiàn)策略/!;.從/\(邋?)遷移邋MDP,即《=200;MDP分布之間距離的閾值(=0.01,折扣逡逑到 ̄(邋?)后,當(dāng)MDP樣本足夠大時(shí),其性能主要依賴因子y=0.9,T=0.0丨,CR=0.3,Cp=0.7,,e—貪心策略中^逡逑于P?,(邋?)和P,,:(邋?)之間的距離,?)以及W邋0.7;從MDP分布中采樣得到的子MDP的數(shù)量默認(rèn)是200;逡逑在P?,(邋?)中的,/i;邋)?因此,如果當(dāng)兩個(gè)MDP分邐根據(jù)算法2,求解P,,和之間的距離是34.54.逡逑布足夠接近時(shí),我們可以直接將策略從一個(gè)MDP分布邐在不穩(wěn)定MDP環(huán)境下,包括貪心策略(Greedy邋Poli-逡逑直接遷移到另一個(gè)MDP分布,實(shí)現(xiàn)策略的遷移,并保證邐cy)、&貪心策略或者模擬退火策略等在內(nèi)的傳統(tǒng)強(qiáng)化逡逑所遷移策略在新分布中具有較好的性能.另外,當(dāng)我們邐學(xué)習(xí)無(wú)法很好地平衡算法執(zhí)行過(guò)程中的探索和利用問(wèn)逡逑固定t的值,邐題_例如,貪心策略在算法執(zhí)行過(guò)程中僅利用Agem已逡逑^29邐邐邋/In2(2/r)邐

遷移策略,最優(yōu)性,樣本數(shù)量,邊界


第2期邐朱斐:一種不穩(wěn)定環(huán)境下的策略搜索及遷移方法邐265逡逑接著,我們通過(guò)實(shí)驗(yàn)比較各策略在不同MDP樣本邐邐逡逑數(shù)量下的性能.在實(shí)驗(yàn)中,我們?cè)O(shè)定MDP樣本的數(shù)量分逡逑趙邋400邋-邋\逡逑另丨丨是丨0、20、40、80、150以及200.圖2是在不同吣叩采邋g邐邐邐邐邐逡逑樣情況下,與各策略的性目匕比較圖.從圖2中1丨丨以行出邐2000邋500邋1000邋1500邋2000邋2500邋3000邋3500邋4000邋4500邋5000逡逑在不同MDP樣本情況下,相比與貪心策略、心貪心策略邐i90|邐逡逑,邐邋蝴丨80-逡逑以及隨機(jī)策略,13邋-、/pU,u)邋I對(duì)應(yīng)的策略始終能夠取邐趣?-邐^_____逡逑S邋160-邐邐逡逑得較優(yōu)的實(shí)驗(yàn)結(jié)果.同時(shí),觀察i3邋_邋/pu,“)I在同邐邐逡逑MDP樣本情況下累計(jì)獎(jiǎng)賞值,可以發(fā)現(xiàn)丨3邋-邐140。5。。丨_邋_邋:漂。的^恀循棚5_逡逑的曲線相對(duì)是比較穩(wěn)定的,這也是由于該策略能夠較邐圖3不同MDP樣本數(shù)《下遷移策略的最優(yōu)性邊界逡逑好的平衡學(xué)習(xí)過(guò)程中的探索和利用問(wèn)題.另外,相對(duì)于邐7邋結(jié)束語(yǔ)逡逑基于制數(shù)的3作選.擇【策略,?二¥(二U加f易邐*文主要針對(duì)傳統(tǒng)強(qiáng)化學(xué)習(xí)算法無(wú)法求解非穩(wěn)定逡逑計(jì)界,這也可財(cái)栛」’加Pㄓ剩眨輳ⅲ停模衻w下灥測(cè)及控}碧,提出灀(dān)停模蟹植祭疵楨義希常擔(dān)埃危卞問(wèn)霾晃榷ǎ停模謝肪常⑸杓屏艘恢只詮郊牟唄運(yùn)彥義細(xì)猓

本文編號(hào):2542285

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2542285.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6d8f5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com