天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于知識(shí)的深度強(qiáng)化學(xué)習(xí)研究綜述

發(fā)布時(shí)間:2018-05-18 17:54

  本文選題:深度強(qiáng)化學(xué)習(xí) + 知識(shí); 參考:《系統(tǒng)工程與電子技術(shù)》2017年11期


【摘要】:作為解決序貫決策的機(jī)器學(xué)習(xí)方法,強(qiáng)化學(xué)習(xí)采取持續(xù)的"交互-試錯(cuò)"機(jī)制,實(shí)現(xiàn)智能體(Agent)與環(huán)境的不斷交互,從而學(xué)得完成任務(wù)的最優(yōu)策略,契合了人類提升智能的行為決策方式。知識(shí)作為一種包含了經(jīng)驗(yàn)、價(jià)值觀、認(rèn)知規(guī)律以及專家見解等要素的結(jié)構(gòu)化信息,應(yīng)用于強(qiáng)化學(xué)習(xí)可以有效提高Agent的學(xué)習(xí)效率,降低學(xué)習(xí)難度。鑒于此,本文以強(qiáng)化學(xué)習(xí)的基本理論為起點(diǎn),對(duì)深度強(qiáng)化學(xué)習(xí)以及基于知識(shí)的深度強(qiáng)化學(xué)習(xí)研究成果進(jìn)行了系統(tǒng)性的總結(jié)與梳理。
[Abstract]:As a machine learning method to solve sequential decision making, reinforcement learning adopts continuous "interactive trial and error" mechanism to realize the continuous interaction between agent and environment, so as to obtain the optimal strategy for accomplishing tasks. It fits in with the way human beings make decisions to improve their intelligence. Knowledge, as a kind of structured information including experience, values, cognitive rules and expert opinions, can be used in intensive learning to improve the learning efficiency and reduce the learning difficulty of Agent. In view of this, based on the basic theory of reinforcement learning, this paper systematically summarizes and combs the research results of deep reinforcement learning and knowledge-based in-depth reinforcement learning.
【作者單位】: 解放軍理工大學(xué)指揮信息系統(tǒng)學(xué)院;浙江大學(xué)機(jī)械工程學(xué)院;
【基金】:總裝備部預(yù)研基金(9140A06020315JB25081) 中國博士后科學(xué)基金第八批特別項(xiàng)目(2015T81081);中國博士后科學(xué)基金第60批面上項(xiàng)目(2016M6029174) 江蘇省自然科學(xué)基金青年基金面上項(xiàng)目(BK20140075)資助課題
【分類號(hào)】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 馬志方;;一種類推學(xué)習(xí)法[J];計(jì)算機(jī)研究與發(fā)展;1990年09期

2 汪云九,姚國正;神經(jīng)系統(tǒng)中學(xué)習(xí)和記憶的數(shù)學(xué)模型[J];自然雜志;1987年11期

3 馮英偉;韓瑛;;基于Agent技術(shù)的網(wǎng)絡(luò)教育學(xué)習(xí)者分析[J];教育信息化;2006年20期

4 吳元斌;;單agent強(qiáng)化學(xué)習(xí)與多agent強(qiáng)化學(xué)習(xí)比較研究[J];電腦與信息技術(shù);2009年01期

5 汪國華;;CBR模式下個(gè)體進(jìn)行高效率學(xué)習(xí)的思考[J];數(shù)學(xué)通訊;2009年06期

6 王星;方濱興;張宏莉;何慧;趙蕾;;關(guān)系分類的學(xué)習(xí)界限研究[J];軟件學(xué)報(bào);2013年11期

7 張景祥;王士同;鄧趙紅;李奕;蔣亦樟;;具有協(xié)同約束的共生遷移學(xué)習(xí)算法研究[J];電子學(xué)報(bào);2014年03期

8 孫方平;符秀輝;;復(fù)雜環(huán)境下機(jī)器人的行為學(xué)習(xí)研究[J];儀器儀表學(xué)報(bào);2006年S3期

9 趙鳳飛;覃征;;一種多動(dòng)機(jī)強(qiáng)化學(xué)習(xí)框架[J];計(jì)算機(jī)研究與發(fā)展;2013年02期

10 余志剛,徐華中;變學(xué)習(xí)因子神經(jīng)網(wǎng)絡(luò)自適應(yīng)控制研究[J];武漢汽車工業(yè)大學(xué)學(xué)報(bào);1997年02期

相關(guān)博士學(xué)位論文 前5條

1 王星;關(guān)系分類模型的學(xué)習(xí)界限與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2015年

2 潘劍寒;基于多潛在空間的遷移學(xué)習(xí)算法研究[D];合肥工業(yè)大學(xué);2016年

3 田青;有序?qū)W習(xí)及在圖像分析中的應(yīng)用研究[D];南京航空航天大學(xué);2016年

4 鄒朋成;有監(jiān)督的相似性度量學(xué)習(xí)研究與應(yīng)用[D];南京航空航天大學(xué);2016年

5 龍明盛;遷移學(xué)習(xí)問題與方法研究[D];清華大學(xué);2014年

相關(guān)碩士學(xué)位論文 前10條

1 李杰龍;基于主動(dòng)學(xué)習(xí)的多示例多標(biāo)簽學(xué)習(xí)算法研究[D];廣東工業(yè)大學(xué);2016年

2 謝江龍;面向張量數(shù)據(jù)的遷移學(xué)習(xí)研究與應(yīng)用[D];廣東工業(yè)大學(xué);2016年

3 周誼成;面向強(qiáng)化學(xué)習(xí)的模型學(xué)習(xí)算法研究[D];蘇州大學(xué);2016年

4 魯成祥;基于動(dòng)機(jī)的強(qiáng)化學(xué)習(xí)及其應(yīng)用研究[D];曲阜師范大學(xué);2016年

5 徐驍;深度學(xué)習(xí)的亞健康識(shí)別算法的研究[D];遼寧大學(xué);2016年

6 趙權(quán);標(biāo)記分布學(xué)習(xí)若干問題研究[D];東南大學(xué);2016年

7 李波;基于分層強(qiáng)化學(xué)習(xí)的多agent路徑規(guī)劃與編隊(duì)方法研究[D];河南師范大學(xué);2016年

8 楊衛(wèi);面向深度學(xué)習(xí)擴(kuò)展算法的編譯優(yōu)化方法[D];吉林大學(xué);2017年

9 焦夏;基于多Agent的移動(dòng)學(xué)習(xí)模型研究[D];寧波大學(xué);2013年

10 馬海鵬;泛在學(xué)習(xí)環(huán)境下一種學(xué)習(xí)控制模型的研究[D];陜西師范大學(xué);2014年



本文編號(hào):1906623

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1906623.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶76e09***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com