多智能體深度強(qiáng)化學(xué)習(xí)方法及應(yīng)用研究
發(fā)布時間:2022-01-23 00:14
在大數(shù)據(jù)時代,最亟待解決的問題是如何在海量數(shù)據(jù)中獲取最需要的信息。這主要有兩方面的困難,一是海量數(shù)據(jù)難以處理,二是人類社會是一個多智能體系統(tǒng),智能體之間存在很大的差異性,難以對“最需要”這一模糊概念下統(tǒng)一的準(zhǔn)確定義。因此,本論文研究多智能體深度強(qiáng)化學(xué)習(xí)方法,希望能學(xué)習(xí)出用戶模式,在數(shù)據(jù)中挖掘到每個用戶最需要的信息,最大化用戶體驗,進(jìn)而可以根據(jù)用戶模式實現(xiàn)定制化推薦系統(tǒng)、自動控制、智能資源動態(tài)分配以及智能導(dǎo)航等應(yīng)用場景。一方面,深度學(xué)習(xí)能夠利用深度神經(jīng)網(wǎng)絡(luò),在復(fù)雜的數(shù)據(jù)中高效的提取特征,從而使得計算設(shè)備可以對抽象概念進(jìn)行感知,因此是處理海量數(shù)據(jù)的有效手段。另一方面,強(qiáng)化學(xué)習(xí)通過獎勵的設(shè)置可以對智能體進(jìn)行定制化學(xué)習(xí)。隨之而來的深度強(qiáng)化學(xué)習(xí),可以利用深度神經(jīng)網(wǎng)絡(luò)直接從數(shù)據(jù)中提取特征,并最終學(xué)習(xí)到智能體的最優(yōu)策略,這種強(qiáng)大的特征提取方法是傳統(tǒng)強(qiáng)化學(xué)習(xí)方法所不具備的。但是多智能體深度強(qiáng)化學(xué)習(xí)卻面臨著更多的挑戰(zhàn)。在多智能體系統(tǒng)中,智能體在決策時不僅需要考慮環(huán)境因素,更要考慮其他智能體的決策。此外,由于智能體存在的差異性,無法統(tǒng)一對其收益進(jìn)行描述,難以學(xué)習(xí)和預(yù)測其行為。因此需要引入用戶模式,用以描述...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:120 頁
【學(xué)位級別】:博士
【部分圖文】:
細(xì)胞壁的等效電路示意圖
[84]-[87]。圖1.2 多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場景此外,多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場景還包含其他領(lǐng)域。其中最有名的是在游戲領(lǐng)域中,以戰(zhàn)勝世界圍棋冠軍的 AlphaGo[65]所聞名。在機(jī)器人領(lǐng)域,多個機(jī)器人可以學(xué)習(xí)出不互相干擾的最優(yōu)行徑路線[88],或者同類/異類機(jī)器人協(xié)作[89]。在自然語言處理方面,語言架構(gòu)學(xué)習(xí)[90]、語義分析[91]、語句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一個主要研究方向就是計算機(jī)視覺,希望計算機(jī)能直接從圖像或視頻中獲取知識。深度強(qiáng)化學(xué)習(xí)的開山之作可以視為計算機(jī)視覺的一個應(yīng)用[62][63],此外
[120]。圖2.1 機(jī)器學(xué)習(xí)的分類與機(jī)器學(xué)習(xí)的其他兩個分支不同的是,強(qiáng)化學(xué)習(xí)的思路來源于心理學(xué),即利用試錯法和獎勵來訓(xùn)練智能體學(xué)習(xí)行為,這也是強(qiáng)化學(xué)習(xí)的精髓所在。強(qiáng)化學(xué)習(xí)算法大致分為三類:動態(tài)規(guī)劃,蒙特卡洛和瞬時差分法。強(qiáng)化學(xué)習(xí)的基本環(huán)境是一個馬爾科夫決策過程。一個馬爾科夫決策過程包含五個量,即 , , ,
本文編號:3603191
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:120 頁
【學(xué)位級別】:博士
【部分圖文】:
細(xì)胞壁的等效電路示意圖
[84]-[87]。圖1.2 多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場景此外,多智能體深度強(qiáng)化學(xué)習(xí)的應(yīng)用場景還包含其他領(lǐng)域。其中最有名的是在游戲領(lǐng)域中,以戰(zhàn)勝世界圍棋冠軍的 AlphaGo[65]所聞名。在機(jī)器人領(lǐng)域,多個機(jī)器人可以學(xué)習(xí)出不互相干擾的最優(yōu)行徑路線[88],或者同類/異類機(jī)器人協(xié)作[89]。在自然語言處理方面,語言架構(gòu)學(xué)習(xí)[90]、語義分析[91]、語句分析[92]、信息提取[93]等都是非常前沿的研究方向。另一個主要研究方向就是計算機(jī)視覺,希望計算機(jī)能直接從圖像或視頻中獲取知識。深度強(qiáng)化學(xué)習(xí)的開山之作可以視為計算機(jī)視覺的一個應(yīng)用[62][63],此外
[120]。圖2.1 機(jī)器學(xué)習(xí)的分類與機(jī)器學(xué)習(xí)的其他兩個分支不同的是,強(qiáng)化學(xué)習(xí)的思路來源于心理學(xué),即利用試錯法和獎勵來訓(xùn)練智能體學(xué)習(xí)行為,這也是強(qiáng)化學(xué)習(xí)的精髓所在。強(qiáng)化學(xué)習(xí)算法大致分為三類:動態(tài)規(guī)劃,蒙特卡洛和瞬時差分法。強(qiáng)化學(xué)習(xí)的基本環(huán)境是一個馬爾科夫決策過程。一個馬爾科夫決策過程包含五個量,即 , , ,
本文編號:3603191
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3603191.html
最近更新
教材專著