一種基于隨機(jī)投影的貝葉斯時間差分算法
本文關(guān)鍵詞:一種基于隨機(jī)投影的貝葉斯時間差分算法,由筆耕文化傳播整理發(fā)布。
【摘要】:在強化學(xué)習(xí)方法中,大部分的算法都是基于值函數(shù)評估的算法.高斯過程時間差分算法利用貝葉斯方法來評估值函數(shù),通過貝爾曼公式和貝葉斯規(guī)則,建立立即獎賞與值函數(shù)之間的概率生成模型.在狀態(tài)空間中,通過在線核稀疏化并利用最小二乘方法來求解新樣本的近似線性逼近,以提高算法的執(zhí)行速度,但時間復(fù)雜度依然較高.針對在狀態(tài)空間中近似狀態(tài)的選擇問題,在高斯過程框架下提出一種基于隨機(jī)投影的貝葉斯時間差分算法,該算法利用哈希函數(shù)把字典狀態(tài)集合中的元素映射成哈希值,根據(jù)哈希值進(jìn)行分組,進(jìn)而減少狀態(tài)之間的比較.實驗結(jié)果表明,該方法不僅能夠提高算法的執(zhí)行速度,而且較好地平衡了評估狀態(tài)值函數(shù)精度和算法執(zhí)行時間.
【作者單位】: 蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;吉林大學(xué)符號計算與知識工程教育部重點實驗室;軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心;
【關(guān)鍵詞】: 強化學(xué)習(xí) 馬爾科夫決策過程 高斯過程 隨機(jī)投影 時間差分算法
【基金】:國家自然科學(xué)基金(No.61272005,No.61303108,No.61373094,No.61472262,No.61502323,No.61502329) 江蘇省自然科學(xué)基金(No.BK2012616) 江蘇省高校自然科學(xué)研究項目(No.13KJB520020) 吉林大學(xué)符號計算與知識工程教育部重點實驗室項目(No.93K172014K04) 蘇州市應(yīng)用基礎(chǔ)研究計劃工業(yè)部分(No.SYG201422,No.SY201308)
【分類號】:TP181
【正文快照】: 1引言 強化學(xué)習(xí)(Reinforcement Learning,RL)是在未知、動態(tài)環(huán)境中在線求解最優(yōu)策略,以獲取最大期望回報的一類算法.強化學(xué)習(xí)方法的基本框架為:Agent通過試錯與環(huán)境進(jìn)行交互,將每一步的延遲回報通過時間信用分配機(jī)制傳遞給過去動作序列中的某些動作,用值函數(shù)評價每個狀態(tài)或狀
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳德祥;;一種基于反向的差分算法[J];電腦編程技巧與維護(hù);2014年04期
2 陳尚飛;;利于計算曲線點串的差分算法[J];廣西民族大學(xué)學(xué)報(自然科學(xué)版);2006年S2期
3 崔鵬;周兵;楊鎮(zhèn)江;;基于特征大小的背景差分算法研究[J];微計算機(jī)信息;2010年12期
4 李聰明;;基于差分算法的K-均值聚類分析[J];現(xiàn)代計算機(jī)(專業(yè)版);2008年06期
5 王鎮(zhèn)西;王冬青;張惠娟;;基于改進(jìn)差分算法的運動目標(biāo)檢測與跟蹤[J];工業(yè)控制計算機(jī);2010年10期
6 羅志偉;邵明亮;王昌榮;;改進(jìn)式背景差分算法研究[J];中國測試;2014年02期
7 宋武;陳德祥;汪文彬;;一種基于分解多目標(biāo)的三角差分算法[J];電腦知識與技術(shù);2012年31期
8 陶春鳴;梅楊;;基于GPS差分算法的研究與滑坡監(jiān)測系統(tǒng)軟件實現(xiàn)[J];河南科學(xué);2007年05期
9 宋武;;基于密度的多目標(biāo)差分算法[J];科技信息;2009年19期
10 肖剛;謝紅;;基于二進(jìn)制差分算法的HWSN目標(biāo)覆蓋研究[J];應(yīng)用科技;2013年06期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 謝昱飛;張涵信;袁先旭;葉友達(dá);;差分算法對稱性分析的數(shù)值驗證[A];中國力學(xué)學(xué)會學(xué)術(shù)大會'2005論文摘要集(下)[C];2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 陳戀芳;基于差分算法的群孔加工工藝優(yōu)化[D];福州大學(xué);2011年
2 劉戰(zhàn);求解溫鹽雙擴(kuò)散系統(tǒng)的高精度緊致差分算法[D];寧夏大學(xué);2004年
3 劉潔瑋;雙曲守恒律的數(shù)值差分算法[D];合肥工業(yè)大學(xué);2007年
4 肖麗君;基于對稱差分算法的視頻運動目標(biāo)分割研究[D];吉林大學(xué);2007年
本文關(guān)鍵詞:一種基于隨機(jī)投影的貝葉斯時間差分算法,由筆耕文化傳播整理發(fā)布。
,本文編號:507402
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/507402.html