多智能體深度強(qiáng)化學(xué)習(xí)方法及應(yīng)用研究
發(fā)布時(shí)間:2022-01-23 00:14
在大數(shù)據(jù)時(shí)代,最亟待解決的問(wèn)題是如何在海量數(shù)據(jù)中獲取最需要的信息。這主要有兩方面的困難,一是海量數(shù)據(jù)難以處理,二是人類(lèi)社會(huì)是一個(gè)多智能體系統(tǒng),智能體之間存在很大的差異性,難以對(duì)“最需要”這一模糊概念下統(tǒng)一的準(zhǔn)確定義。因此,本論文研究多智能體深度強(qiáng)化學(xué)習(xí)方法,希望能學(xué)習(xí)出用戶(hù)模式,在數(shù)據(jù)中挖掘到每個(gè)用戶(hù)最需要的信息,最大化用戶(hù)體驗(yàn),進(jìn)而可以根據(jù)用戶(hù)模式實(shí)現(xiàn)定制化推薦系統(tǒng)、自動(dòng)控制、智能資源動(dòng)態(tài)分配以及智能導(dǎo)航等應(yīng)用場(chǎng)景。一方面,深度學(xué)習(xí)能夠利用深度神經(jīng)網(wǎng)絡(luò),在復(fù)雜的數(shù)據(jù)中高效的提取特征,從而使得計(jì)算設(shè)備可以對(duì)抽象概念進(jìn)行感知,因此是處理海量數(shù)據(jù)的有效手段。另一方面,強(qiáng)化學(xué)習(xí)通過(guò)獎(jiǎng)勵(lì)的設(shè)置可以對(duì)智能體進(jìn)行定制化學(xué)習(xí)。隨之而來(lái)的深度強(qiáng)化學(xué)習(xí),可以利用深度神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)中提取特征,并最終學(xué)習(xí)到智能體的最優(yōu)策略,這種強(qiáng)大的特征提取方法是傳統(tǒng)強(qiáng)化學(xué)習(xí)方法所不具備的。但是多智能體深度強(qiáng)化學(xué)習(xí)卻面臨著更多的挑戰(zhàn)。在多智能體系統(tǒng)中,智能體在決策時(shí)不僅需要考慮環(huán)境因素,更要考慮其他智能體的決策。此外,由于智能體存在的差異性,無(wú)法統(tǒng)一對(duì)其收益進(jìn)行描述,難以學(xué)習(xí)和預(yù)測(cè)其行為。因此需要引入用戶(hù)模式,用以描述...
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:120 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
細(xì)胞壁的等效電路示意圖
[84]-[87]。圖1.2 多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景此外,多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景還包含其他領(lǐng)域。其中最有名的是在游戲領(lǐng)域中,以戰(zhàn)勝世界圍棋冠軍的 AlphaGo[65]所聞名。在機(jī)器人領(lǐng)域,多個(gè)機(jī)器人可以學(xué)習(xí)出不互相干擾的最優(yōu)行徑路線[88],或者同類(lèi)/異類(lèi)機(jī)器人協(xié)作[89]。在自然語(yǔ)言處理方面,語(yǔ)言架構(gòu)學(xué)習(xí)[90]、語(yǔ)義分析[91]、語(yǔ)句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一個(gè)主要研究方向就是計(jì)算機(jī)視覺(jué),希望計(jì)算機(jī)能直接從圖像或視頻中獲取知識(shí)。深度強(qiáng)化學(xué)習(xí)的開(kāi)山之作可以視為計(jì)算機(jī)視覺(jué)的一個(gè)應(yīng)用[62][63],此外
[120]。圖2.1 機(jī)器學(xué)習(xí)的分類(lèi)與機(jī)器學(xué)習(xí)的其他兩個(gè)分支不同的是,強(qiáng)化學(xué)習(xí)的思路來(lái)源于心理學(xué),即利用試錯(cuò)法和獎(jiǎng)勵(lì)來(lái)訓(xùn)練智能體學(xué)習(xí)行為,這也是強(qiáng)化學(xué)習(xí)的精髓所在。強(qiáng)化學(xué)習(xí)算法大致分為三類(lèi):動(dòng)態(tài)規(guī)劃,蒙特卡洛和瞬時(shí)差分法。強(qiáng)化學(xué)習(xí)的基本環(huán)境是一個(gè)馬爾科夫決策過(guò)程。一個(gè)馬爾科夫決策過(guò)程包含五個(gè)量,即 , , ,
本文編號(hào):3603191
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:120 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
細(xì)胞壁的等效電路示意圖
[84]-[87]。圖1.2 多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景此外,多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景還包含其他領(lǐng)域。其中最有名的是在游戲領(lǐng)域中,以戰(zhàn)勝世界圍棋冠軍的 AlphaGo[65]所聞名。在機(jī)器人領(lǐng)域,多個(gè)機(jī)器人可以學(xué)習(xí)出不互相干擾的最優(yōu)行徑路線[88],或者同類(lèi)/異類(lèi)機(jī)器人協(xié)作[89]。在自然語(yǔ)言處理方面,語(yǔ)言架構(gòu)學(xué)習(xí)[90]、語(yǔ)義分析[91]、語(yǔ)句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一個(gè)主要研究方向就是計(jì)算機(jī)視覺(jué),希望計(jì)算機(jī)能直接從圖像或視頻中獲取知識(shí)。深度強(qiáng)化學(xué)習(xí)的開(kāi)山之作可以視為計(jì)算機(jī)視覺(jué)的一個(gè)應(yīng)用[62][63],此外
[120]。圖2.1 機(jī)器學(xué)習(xí)的分類(lèi)與機(jī)器學(xué)習(xí)的其他兩個(gè)分支不同的是,強(qiáng)化學(xué)習(xí)的思路來(lái)源于心理學(xué),即利用試錯(cuò)法和獎(jiǎng)勵(lì)來(lái)訓(xùn)練智能體學(xué)習(xí)行為,這也是強(qiáng)化學(xué)習(xí)的精髓所在。強(qiáng)化學(xué)習(xí)算法大致分為三類(lèi):動(dòng)態(tài)規(guī)劃,蒙特卡洛和瞬時(shí)差分法。強(qiáng)化學(xué)習(xí)的基本環(huán)境是一個(gè)馬爾科夫決策過(guò)程。一個(gè)馬爾科夫決策過(guò)程包含五個(gè)量,即 , , ,
本文編號(hào):3603191
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3603191.html
最近更新
教材專(zhuān)著