深度強(qiáng)化學(xué)習(xí)理論及其應(yīng)用綜述
發(fā)布時(shí)間:2021-09-22 23:44
一方面,隨著深度強(qiáng)化學(xué)習(xí)理論和應(yīng)用研究不斷深入,其在游戲、機(jī)器人控制、對(duì)話系統(tǒng)、自動(dòng)駕駛等領(lǐng)域發(fā)揮重要作用;另一方面,深度強(qiáng)化學(xué)習(xí)受到探索-利用困境、獎(jiǎng)勵(lì)稀疏、樣本采集困難、穩(wěn)定性較差等問題的限制,存在很多不足.面對(duì)這些問題,研究者們提出各種各樣的解決方法,新的理論進(jìn)一步推動(dòng)深度強(qiáng)化學(xué)習(xí)的發(fā)展,在彌補(bǔ)缺陷的同時(shí)擴(kuò)展強(qiáng)化學(xué)習(xí)的研究領(lǐng)域,延伸出模仿學(xué)習(xí)、分層強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)等新的研究方向.文中從深度強(qiáng)化學(xué)習(xí)的理論、困難、應(yīng)用及發(fā)展前景等方面對(duì)其進(jìn)行探討.
【文章來源】:模式識(shí)別與人工智能. 2019,32(01)北大核心CSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
馬爾科夫決策過程Fig.1Markovdecisionprocess
決策的最終目標(biāo)是在抵達(dá)目標(biāo)狀態(tài)的同時(shí)實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大化.圖1馬爾科夫決策過程Fig.1Markovdecisionprocess在強(qiáng)化學(xué)習(xí)過程中,決策的主體稱為智能體(Agent).智能體首先需要對(duì)其所處的狀態(tài)進(jìn)行觀測(cè),并根據(jù)觀測(cè)結(jié)果(Observation)進(jìn)行決策,采取相應(yīng)行動(dòng).該行動(dòng)一方面與環(huán)境(Environment)發(fā)生交互,環(huán)境以獎(jiǎng)勵(lì)的形式對(duì)智能體的行動(dòng)給出相應(yīng)的反饋;另一方面,該行動(dòng)改變智能體的狀態(tài).一個(gè)循環(huán)結(jié)束后,智能體開始新一輪的觀測(cè),直到智能體進(jìn)入終止?fàn)顟B(tài),此時(shí)一次完整的迭代結(jié)束,如圖2所示.智能體將此次迭代中的所有狀態(tài)及其相應(yīng)的動(dòng)作以狀態(tài)-動(dòng)作序列的形式記錄下來,生成軌跡(Trajectory):τ={st,at,st+1,at+1,…}.同時(shí)統(tǒng)計(jì)每一步的即時(shí)回報(bào),計(jì)算此次迭代中獲得的累計(jì)回報(bào)Gt,將這些信息作為策略更新時(shí)的訓(xùn)練樣本.智能體采取行動(dòng)依據(jù)的策略使用函數(shù)π(as)表示,智能體學(xué)習(xí)的目標(biāo)就是優(yōu)化這個(gè)策略函數(shù).根據(jù)優(yōu)化對(duì)象的不同,強(qiáng)化學(xué)習(xí)方法可分為策略搜索方法(PolicySearch)和值函數(shù)方法(ValueFunction).強(qiáng)化學(xué)習(xí)過程中的狀態(tài)轉(zhuǎn)移概率又稱為系統(tǒng)動(dòng)態(tài)(Dynamics)、轉(zhuǎn)移動(dòng)態(tài)(TransitionDynamics)或環(huán)境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知,可將強(qiáng)化學(xué)習(xí)方法分為基于模型(ModelBased)的強(qiáng)化學(xué)習(xí)方法和免模型(ModelFree)的強(qiáng)化學(xué)習(xí)方法[15].圖2強(qiáng)化學(xué)習(xí)過程Fig.2Reinforcementlearningprocess早期強(qiáng)化學(xué)習(xí)中的一個(gè)經(jīng)典問題是軌跡規(guī)劃問題.軌跡規(guī)劃問題的目標(biāo)是訓(xùn)練程序在給定初始?
本文編號(hào):3404593
【文章來源】:模式識(shí)別與人工智能. 2019,32(01)北大核心CSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
馬爾科夫決策過程Fig.1Markovdecisionprocess
決策的最終目標(biāo)是在抵達(dá)目標(biāo)狀態(tài)的同時(shí)實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大化.圖1馬爾科夫決策過程Fig.1Markovdecisionprocess在強(qiáng)化學(xué)習(xí)過程中,決策的主體稱為智能體(Agent).智能體首先需要對(duì)其所處的狀態(tài)進(jìn)行觀測(cè),并根據(jù)觀測(cè)結(jié)果(Observation)進(jìn)行決策,采取相應(yīng)行動(dòng).該行動(dòng)一方面與環(huán)境(Environment)發(fā)生交互,環(huán)境以獎(jiǎng)勵(lì)的形式對(duì)智能體的行動(dòng)給出相應(yīng)的反饋;另一方面,該行動(dòng)改變智能體的狀態(tài).一個(gè)循環(huán)結(jié)束后,智能體開始新一輪的觀測(cè),直到智能體進(jìn)入終止?fàn)顟B(tài),此時(shí)一次完整的迭代結(jié)束,如圖2所示.智能體將此次迭代中的所有狀態(tài)及其相應(yīng)的動(dòng)作以狀態(tài)-動(dòng)作序列的形式記錄下來,生成軌跡(Trajectory):τ={st,at,st+1,at+1,…}.同時(shí)統(tǒng)計(jì)每一步的即時(shí)回報(bào),計(jì)算此次迭代中獲得的累計(jì)回報(bào)Gt,將這些信息作為策略更新時(shí)的訓(xùn)練樣本.智能體采取行動(dòng)依據(jù)的策略使用函數(shù)π(as)表示,智能體學(xué)習(xí)的目標(biāo)就是優(yōu)化這個(gè)策略函數(shù).根據(jù)優(yōu)化對(duì)象的不同,強(qiáng)化學(xué)習(xí)方法可分為策略搜索方法(PolicySearch)和值函數(shù)方法(ValueFunction).強(qiáng)化學(xué)習(xí)過程中的狀態(tài)轉(zhuǎn)移概率又稱為系統(tǒng)動(dòng)態(tài)(Dynamics)、轉(zhuǎn)移動(dòng)態(tài)(TransitionDynamics)或環(huán)境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知,可將強(qiáng)化學(xué)習(xí)方法分為基于模型(ModelBased)的強(qiáng)化學(xué)習(xí)方法和免模型(ModelFree)的強(qiáng)化學(xué)習(xí)方法[15].圖2強(qiáng)化學(xué)習(xí)過程Fig.2Reinforcementlearningprocess早期強(qiáng)化學(xué)習(xí)中的一個(gè)經(jīng)典問題是軌跡規(guī)劃問題.軌跡規(guī)劃問題的目標(biāo)是訓(xùn)練程序在給定初始?
本文編號(hào):3404593
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3404593.html
最近更新
教材專著