最小二乘時(shí)序差分中的正則化:罰函數(shù)和貝葉斯的比較
【學(xué)位授予單位】:武漢大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O212
【圖文】:
21,32).在這些實(shí)驗(yàn)中,環(huán)境設(shè)定為一個(gè)包含20個(gè)狀態(tài),2個(gè)動(dòng)作的MDP,如圖4.1邋.這些逡逑狀態(tài)連成鏈狀,在每個(gè)狀態(tài)上,agent可以采取”左”或”右”這兩個(gè)動(dòng)作的其中一個(gè),結(jié)果是有一逡逑定的概率成功轉(zhuǎn)移到所選定的方向,失敗則移到所選定方向的反方向.即agent在狀態(tài)&上,采逡逑取”左”的動(dòng)作時(shí),有p的概率轉(zhuǎn)移到狀態(tài)Sh,有1邋-p的概率轉(zhuǎn)移到狀態(tài)si+1,同樣”右”的動(dòng)逡逑作的轉(zhuǎn)移結(jié)果也是類(lèi)似的設(shè)定.當(dāng)agent在邊界狀態(tài)上,且所轉(zhuǎn)移的方向不存在狀態(tài)時(shí),則保持現(xiàn)逡逑
number邋of邋noise邋features逡逑圖4.2:實(shí)驗(yàn)人?噪聲特征個(gè)數(shù)fc,lafae從0到㈨變化時(shí)近似狀態(tài)價(jià)值函數(shù)與真值的誤差逡逑圖4.2是噪聲特征個(gè)數(shù)fcn(5ise從0到1000變化時(shí)近似狀態(tài)價(jià)值函數(shù)與真值的誤差.該實(shí)驗(yàn)設(shè)逡逑定Avbf邋=邋9,噪聲數(shù)fcn()ise從0到1000依次變化.每次實(shí)驗(yàn)的樣本數(shù)n邋=邋500.每種方法同樣的實(shí)逡逑驗(yàn)重復(fù)100次,以得到均值和標(biāo)準(zhǔn)差.為了圖表的簡(jiǎn)潔性,這里選取了兩種最優(yōu)化帶罰函數(shù)的方法逡逑LSTD-L邋(2.5)和邋LSTD-k邋(2.10),以及兩種貝葉斯推斷方法邋bLSTD-w邋(3.5)和邋bLSTD-w邋(3.6)作逡逑為代表.這里未畫(huà)出結(jié)果的LSTD-/22方法的效果與LSTD七幾乎相同,而LSTD七和帶非凸懲逡逑罰的LSTD方法估計(jì)所得到的狀態(tài)價(jià)值函數(shù)的近似結(jié)果,則與LSTD-i21相差無(wú)幾.逡逑從中可以看到,當(dāng)無(wú)關(guān)的噪聲個(gè)數(shù)逐漸增加時(shí),LSTD七估計(jì)對(duì)狀態(tài)價(jià)值函數(shù)的近似誤差很高,逡逑且方差隨著無(wú)關(guān)特征個(gè)數(shù)的增多而變大,表明該方法越來(lái)越不穩(wěn)定;而帶稀疏約束的LSTD-;21和逡逑帶有稀疏拉普拉斯先驗(yàn)的貝葉斯推斷方法bLSTD-w和bLSTD-w都有較高的近似精度
邐30逡逑圖4.3:實(shí)驗(yàn)人?估計(jì)系數(shù)w的稀疏程度逡逑圖4.3由上至下是真實(shí)的系數(shù)u;和LSTD42,邋LSTD-L邋bLSTD-u;所得到的估計(jì),橫軸表示系逡逑數(shù)向量的指標(biāo).該實(shí)驗(yàn)設(shè)定樣本數(shù)n邋=邋50;相關(guān)特征包括hbf邋=邋9個(gè)徑向基函數(shù)和一個(gè)常數(shù),無(wú)關(guān)逡逑噪聲特征數(shù)Arnc)ise邋=邋20,總共30個(gè)特征;真實(shí)的系數(shù)逡逑w邋=邋(10,...,邋10,邋-10,...,-10,邋0邐0)T.逡逑v邐v邐,邋v邐V邐"邋vV?'逡逑5邋個(gè)邋10邐5邋個(gè)-10邐20邋個(gè)邋0逡逑從圖中可以看到,LSTD七估計(jì)無(wú)法識(shí)別出這些噪聲特征;LSTD-/,能將大部分噪聲特征的系逡逑數(shù)完全收縮到0,但對(duì)于相關(guān)特征的系數(shù),由于徑向基函數(shù)造成的特征之間的相關(guān)性,沒(méi)有Z2懲罰逡逑均勻分配系數(shù)質(zhì)量,LSTD4估計(jì)將許多的相關(guān)特征的系數(shù)也收縮到0,只是將正負(fù)質(zhì)量完全分配逡逑給一正一負(fù)兩個(gè)相關(guān)的系數(shù);貝葉斯推斷方法bLSTD-W雖然沒(méi)有將噪聲特征的系數(shù)完全收縮到逡逑0
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳聰偉;張輝;;非線(xiàn)性約束優(yōu)化問(wèn)題的乘子罰函數(shù)方法[J];數(shù)學(xué)學(xué)習(xí)與研究;2013年23期
2 陳祖浩;最優(yōu)過(guò)程罰函數(shù)方法的數(shù)學(xué)理論[J];數(shù)學(xué)年刊A輯(中文版);1982年03期
3 房月華;;非線(xiàn)性方程組的一個(gè)不使用罰函數(shù)和filter的算法[J];西南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2018年05期
4 連淑君;唐加會(huì);杜愛(ài)華;;帶等式約束的光滑優(yōu)化問(wèn)題的一類(lèi)新的精確罰函數(shù)[J];運(yùn)籌學(xué)學(xué)報(bào);2018年04期
5 程曉良;連續(xù)壓力空間的有限元罰方法[J];杭州大學(xué)學(xué)報(bào)(自然科學(xué)版);1991年01期
6 吳聰偉;曹繼平;朱亞紅;;基于約束優(yōu)化問(wèn)題乘子罰函數(shù)方法的全局收斂性分析[J];萍鄉(xiāng)高等專(zhuān)科學(xué)校學(xué)報(bào);2013年03期
7 陳靜靜;劉三陽(yáng);丁毓;;基于罰函數(shù)方法的Leach協(xié)議[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2019年07期
8 赫振華;白富生;;二次罰函數(shù)的可分化方法[J];重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期
9 田占強(qiáng);馬志壘;李成;;復(fù)合材料纖維疊層織物彈道侵徹?cái)?shù)值分析[J];機(jī)械設(shè)計(jì)與制造;2011年12期
10 田大鋼;郭俐;;線(xiàn)性規(guī)劃問(wèn)題罰函數(shù)方法的一種統(tǒng)一形式[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2008年05期
相關(guān)會(huì)議論文 前1條
1 薛毅;姚富玲;;求解等式約束問(wèn)題的一類(lèi)修正罰函數(shù)方法[A];中國(guó)運(yùn)籌學(xué)會(huì)第七屆學(xué)術(shù)交流會(huì)論文集(上卷)[C];2004年
相關(guān)博士學(xué)位論文 前1條
1 韓伯順;非線(xiàn)性規(guī)劃中的罰函數(shù)及填充函數(shù)方法[D];上海大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 嚴(yán)博宇;最小二乘時(shí)序差分中的正則化:罰函數(shù)和貝葉斯的比較[D];武漢大學(xué);2018年
2 楊書(shū)濤(TOUNA YANG);約束優(yōu)化問(wèn)題的罰函數(shù)光滑化方法[D];大連理工大學(xué);2018年
3 唐加會(huì);等式約束優(yōu)化與極大極小化問(wèn)題的罰函數(shù)研究[D];曲阜師范大學(xué);2017年
4 程桂香;非線(xiàn)性最優(yōu)化問(wèn)題的一族新的罰函數(shù)方法研究[D];首都師范大學(xué);2006年
5 李秀慧;非凸規(guī)劃的同倫—罰函數(shù)方法及其在稀疏投資組合優(yōu)化中的應(yīng)用[D];大連理工大學(xué);2017年
6 劉佛祥;基于動(dòng)態(tài)罰函數(shù)和多目標(biāo)的人工蜂群算法求解約束優(yōu)化問(wèn)題的研究[D];南京師范大學(xué);2017年
7 劉俊梅;混合差分進(jìn)化算法及應(yīng)用研究[D];北方民族大學(xué);2010年
8 李會(huì)榮;融合粒子群的全局優(yōu)化混合智能算法研究[D];北方民族大學(xué);2009年
9 雷翻翻;非線(xiàn)性規(guī)劃問(wèn)題的粒子群優(yōu)化算法研究[D];北方民族大學(xué);2011年
10 杜愛(ài)華;約束優(yōu)化問(wèn)題的精確罰函數(shù)研究[D];曲阜師范大學(xué);2017年
本文編號(hào):2745400
本文鏈接:http://sikaile.net/kejilunwen/yysx/2745400.html