天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

分層強(qiáng)化學(xué)習(xí)綜述

發(fā)布時間:2018-04-01 17:39

  本文選題:人工智能 切入點:機(jī)器學(xué)習(xí) 出處:《智能系統(tǒng)學(xué)報》2017年05期


【摘要】:強(qiáng)化學(xué)習(xí)(reinforcement learning)是機(jī)器學(xué)習(xí)和人工智能領(lǐng)域的重要分支,近年來受到社會各界和企業(yè)的廣泛關(guān)注。強(qiáng)化學(xué)習(xí)算法要解決的主要問題是,智能體如何直接與環(huán)境進(jìn)行交互來學(xué)習(xí)策略。但是當(dāng)狀態(tài)空間維度增加時,傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往面臨著維度災(zāi)難,難以取得好的學(xué)習(xí)效果。分層強(qiáng)化學(xué)習(xí)(hierarchical reinforcement learning)致力于將一個復(fù)雜的強(qiáng)化學(xué)習(xí)問題分解成幾個子問題并分別解決,可以取得比直接解決整個問題更好的效果。分層強(qiáng)化學(xué)習(xí)是解決大規(guī)模強(qiáng)化學(xué)習(xí)問題的潛在途徑,然而其受到的關(guān)注不高。本文將介紹和回顧分層強(qiáng)化學(xué)習(xí)的幾大類方法。
[Abstract]:Reinforcement learning is an important branch of machine learning and artificial intelligence, which has attracted wide attention from all walks of life and enterprises in recent years. The main problems to be solved by reinforcement learning algorithms are, However, when the dimension of state space increases, the traditional reinforcement learning methods often face the disaster of dimension. Hierarchical reinforcement learning aims to decompose a complex reinforcement learning problem into several sub-problems and solve them separately. Hierarchical reinforcement learning is a potential way to solve large-scale reinforcement learning problems, but its attention is not high. This paper will introduce and review several kinds of hierarchical reinforcement learning methods.
【作者單位】: 南京大學(xué)軟件新技術(shù)國家重點實驗室;
【基金】:國家自然科學(xué)基金項目(61375061) 江蘇省自然科學(xué)基金項目(BK20160066)
【分類號】:TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 夏潤海,王開顏;機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[J];濰坊學(xué)院學(xué)報;2003年02期

2 張明玉,倪志偉;基于機(jī)器學(xué)習(xí)的智能決策支持系統(tǒng)[J];淮南師范學(xué)院學(xué)報;2005年03期

3 楊凌霄;武建平;;機(jī)器學(xué)習(xí)方法在人臉檢測中的應(yīng)用[J];計算機(jī)與數(shù)字工程;2008年03期

4 ;第十一屆中國機(jī)器學(xué)習(xí)會議[J];智能系統(tǒng)學(xué)報;2008年02期

5 ;第14屆中國機(jī)器學(xué)習(xí)會議[J];智能系統(tǒng)學(xué)報;2012年06期

6 費宗銘;呂建;王志堅;陳道蓄;徐家福;;機(jī)器學(xué)習(xí)[J];計算機(jī)科學(xué);1991年01期

7 趙沁平;魏華;王軍玲;;機(jī)器學(xué)習(xí)技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)[J];計算機(jī)科學(xué);1993年05期

8 姚敏;機(jī)器學(xué)習(xí)及其發(fā)展方向[J];計算機(jī)時代;1994年04期

9 ;第31屆機(jī)器學(xué)習(xí)國際會議(英文)[J];智能系統(tǒng)學(xué)報;2014年01期

10 黃海濱;機(jī)器學(xué)習(xí)及其主要策略[J];河池師范高等?茖W(xué)校學(xué)報(自然科學(xué)版);2000年04期

相關(guān)會議論文 前10條

1 王玨;;歸納機(jī)器學(xué)習(xí)[A];2001年中國智能自動化會議論文集(上冊)[C];2001年

2 吳滄浦;;智能系統(tǒng)與機(jī)器學(xué)習(xí)的新領(lǐng)域[A];西部大開發(fā) 科教先行與可持續(xù)發(fā)展——中國科協(xié)2000年學(xué)術(shù)年會文集[C];2000年

3 周晴杰;徐立鴻;吳啟迪;;機(jī)器學(xué)習(xí)串級結(jié)構(gòu)的初步探討[A];1998年中國控制會議論文集[C];1998年

4 李剛;郭崇慧;林鴻飛;楊志豪;唐煥文;;基于詞典法和機(jī)器學(xué)習(xí)法相結(jié)合的蛋白質(zhì)名識別[A];大連理工大學(xué)生物醫(yī)學(xué)工程學(xué)術(shù)論文集(第2卷)[C];2005年

5 蔡健平;林世平;;基于機(jī)器學(xué)習(xí)的詞語和句子極性分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

6 黃金鐵;李景銀;周建常;;對高爐爐況評價模型參數(shù)的機(jī)器學(xué)習(xí)——一個三類線性模式分類器的實現(xiàn)[A];1995中國控制與決策學(xué)術(shù)年會論文集[C];1995年

7 程國建;蔡磊;潘華賢;;核向量機(jī)在大規(guī)模機(jī)器學(xué)習(xí)中的應(yīng)用[A];第十一屆中國青年信息與管理學(xué)者大會論文集[C];2009年

8 張鈸;張鈴;;統(tǒng)計學(xué)習(xí)理論及其應(yīng)用[A];2001年中國智能自動化會議論文集(上冊)[C];2001年

9 周川;林學(xué),

本文編號:1696628


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1696628.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c7fd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com