基于個(gè)體-協(xié)同觸發(fā)強(qiáng)化學(xué)習(xí)的多機(jī)器人行為決策方法
發(fā)布時(shí)間:2021-06-15 18:06
為了提高多機(jī)器人行為最優(yōu)決策控制中強(qiáng)化學(xué)習(xí)的效率和收斂速度,研究了多機(jī)器人的分布式馬爾科夫建模與控制策略。根據(jù)機(jī)器人有限感知能力設(shè)計(jì)了個(gè)體-協(xié)同感知觸發(fā)函數(shù),機(jī)器人個(gè)體從環(huán)境觀測結(jié)果計(jì)算個(gè)體-協(xié)同觸發(fā)響應(yīng)概率,定義一次觸發(fā)過程后開始計(jì)算聯(lián)合策略,減少機(jī)器人間通訊量和計(jì)算資源。引入雙學(xué)習(xí)率改進(jìn)Q學(xué)習(xí)算法,并將該算法應(yīng)用于機(jī)器人行為決策。仿真實(shí)驗(yàn)結(jié)果表明,當(dāng)機(jī)器人群組數(shù)量在20左右時(shí),本文算法的協(xié)同效率較高,單位時(shí)步比為1.085 0。同時(shí)距離調(diào)節(jié)參數(shù)η對機(jī)器人協(xié)同搜索效率有影響,當(dāng)η=0.008時(shí),所需的移動時(shí)步比和平均移動距離都能達(dá)到最小值。通過雙學(xué)習(xí)率的引入,該算法較基于環(huán)境模型的強(qiáng)化學(xué)習(xí)算法具有更高的學(xué)習(xí)效率和適用性,平均性能提升35%,對于提高多機(jī)器人自主協(xié)同能力具有較高的理論意義及應(yīng)用價(jià)值。
【文章來源】:儀器儀表學(xué)報(bào). 2020,41(05)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
觸發(fā)響應(yīng)強(qiáng)化學(xué)習(xí)算法流程
相對單智能體強(qiáng)化學(xué)習(xí),多智能體強(qiáng)化學(xué)習(xí)更適合多機(jī)器人協(xié)作的復(fù)雜問題,MDPs是該類學(xué)習(xí)方法的數(shù)學(xué)模型基礎(chǔ)。該類多機(jī)器人強(qiáng)化學(xué)習(xí)結(jié)構(gòu)如圖1所示。將多機(jī)器人強(qiáng)化學(xué)習(xí)過程一般化為馬爾可夫隨機(jī)策略,可以用多元組M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n為機(jī)器人個(gè)數(shù);S代表環(huán)境狀態(tài)集合,s t i ∈S表示第i個(gè)機(jī)器人在t時(shí)刻所處的狀態(tài); Ai為機(jī)器人個(gè)體可選擇的動作集合,a t i ∈A表示第i個(gè)機(jī)器人在t時(shí)刻的動作。多機(jī)器人聯(lián)合動作集可表示為A=A1×…×An,pi:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù);gi:S×A×S→R為回報(bào)函數(shù),表示機(jī)器人個(gè)體i在狀態(tài)s t i 執(zhí)行動作a t i 到動作s t+1 i 得到的立即回報(bào)。設(shè)策略π:Si→Ai為聯(lián)合狀態(tài) s → =(s 1 ,?,s n ) 到聯(lián)合動作空間 a → =(a 1 ,?,a n ) 的一個(gè)映射,以使行為從環(huán)境中獲得的累積回報(bào)值如式(1)所示。
多機(jī)器人在協(xié)作工作過程中,通過自身配備的傳感元件獲取信息而改變自身狀態(tài)來獲得對環(huán)境的適應(yīng)性。單個(gè)機(jī)器人如果能獲取并響應(yīng)其他機(jī)器人的知識,在局部環(huán)境中對強(qiáng)化學(xué)習(xí)回報(bào)進(jìn)行優(yōu)化,將有助于在保證學(xué)習(xí)速度的前提下加強(qiáng)它們之間的協(xié)作。在多智能體系統(tǒng)的強(qiáng)化學(xué)習(xí)中,個(gè)體間通過交換即時(shí)狀態(tài)、學(xué)習(xí)策略等信息可提高個(gè)體的學(xué)習(xí)效率。因此,設(shè)計(jì)多機(jī)器人感知交互結(jié)構(gòu)如圖2所示。2.1 個(gè)體-協(xié)同感知觸發(fā)函數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度強(qiáng)化算法的機(jī)器人動態(tài)目標(biāo)點(diǎn)跟隨研究[J]. 徐繼寧,曾杰. 計(jì)算機(jī)科學(xué). 2019(S2)
[2]基于改進(jìn)強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃方法[J]. 徐曉蘇,袁杰. 中國慣性技術(shù)學(xué)報(bào). 2019(03)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于深度Q網(wǎng)絡(luò)學(xué)習(xí)的機(jī)器人端到端控制方法[J]. 張浩杰,蘇治寶,蘇波. 儀器儀表學(xué)報(bào). 2018(10)
[5]多移動機(jī)器人運(yùn)動目標(biāo)環(huán)繞與避障控制[J]. 易國,毛建旭,王耀南,郭斯羽,繆志強(qiáng). 儀器儀表學(xué)報(bào). 2018(02)
[6]連續(xù)空間中的一種動作加權(quán)行動者評論家算法[J]. 劉全,章鵬,鐘珊,錢煒晟,翟建偉. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[7]局部環(huán)境增量采樣的服務(wù)機(jī)器人路徑規(guī)劃[J]. 陳彥杰,王耀南,譚建豪,毛建旭. 儀器儀表學(xué)報(bào). 2017(05)
[8]多移動微小型機(jī)器人編隊(duì)控制與協(xié)作避碰研究[J]. 張大偉,孟森森,鄧計(jì)才. 儀器儀表學(xué)報(bào). 2017(03)
[9]多機(jī)器人路徑規(guī)劃的安全性驗(yàn)證[J]. 劉濤,王淑靈,詹乃軍. 軟件學(xué)報(bào). 2017(05)
[10]復(fù)雜環(huán)境移動群機(jī)器人最優(yōu)路徑規(guī)劃方法[J]. 徐雪松,楊勝杰,陳榮元. 電子測量與儀器學(xué)報(bào). 2016(02)
本文編號:3231526
【文章來源】:儀器儀表學(xué)報(bào). 2020,41(05)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
觸發(fā)響應(yīng)強(qiáng)化學(xué)習(xí)算法流程
相對單智能體強(qiáng)化學(xué)習(xí),多智能體強(qiáng)化學(xué)習(xí)更適合多機(jī)器人協(xié)作的復(fù)雜問題,MDPs是該類學(xué)習(xí)方法的數(shù)學(xué)模型基礎(chǔ)。該類多機(jī)器人強(qiáng)化學(xué)習(xí)結(jié)構(gòu)如圖1所示。將多機(jī)器人強(qiáng)化學(xué)習(xí)過程一般化為馬爾可夫隨機(jī)策略,可以用多元組M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n為機(jī)器人個(gè)數(shù);S代表環(huán)境狀態(tài)集合,s t i ∈S表示第i個(gè)機(jī)器人在t時(shí)刻所處的狀態(tài); Ai為機(jī)器人個(gè)體可選擇的動作集合,a t i ∈A表示第i個(gè)機(jī)器人在t時(shí)刻的動作。多機(jī)器人聯(lián)合動作集可表示為A=A1×…×An,pi:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù);gi:S×A×S→R為回報(bào)函數(shù),表示機(jī)器人個(gè)體i在狀態(tài)s t i 執(zhí)行動作a t i 到動作s t+1 i 得到的立即回報(bào)。設(shè)策略π:Si→Ai為聯(lián)合狀態(tài) s → =(s 1 ,?,s n ) 到聯(lián)合動作空間 a → =(a 1 ,?,a n ) 的一個(gè)映射,以使行為從環(huán)境中獲得的累積回報(bào)值如式(1)所示。
多機(jī)器人在協(xié)作工作過程中,通過自身配備的傳感元件獲取信息而改變自身狀態(tài)來獲得對環(huán)境的適應(yīng)性。單個(gè)機(jī)器人如果能獲取并響應(yīng)其他機(jī)器人的知識,在局部環(huán)境中對強(qiáng)化學(xué)習(xí)回報(bào)進(jìn)行優(yōu)化,將有助于在保證學(xué)習(xí)速度的前提下加強(qiáng)它們之間的協(xié)作。在多智能體系統(tǒng)的強(qiáng)化學(xué)習(xí)中,個(gè)體間通過交換即時(shí)狀態(tài)、學(xué)習(xí)策略等信息可提高個(gè)體的學(xué)習(xí)效率。因此,設(shè)計(jì)多機(jī)器人感知交互結(jié)構(gòu)如圖2所示。2.1 個(gè)體-協(xié)同感知觸發(fā)函數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度強(qiáng)化算法的機(jī)器人動態(tài)目標(biāo)點(diǎn)跟隨研究[J]. 徐繼寧,曾杰. 計(jì)算機(jī)科學(xué). 2019(S2)
[2]基于改進(jìn)強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃方法[J]. 徐曉蘇,袁杰. 中國慣性技術(shù)學(xué)報(bào). 2019(03)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于深度Q網(wǎng)絡(luò)學(xué)習(xí)的機(jī)器人端到端控制方法[J]. 張浩杰,蘇治寶,蘇波. 儀器儀表學(xué)報(bào). 2018(10)
[5]多移動機(jī)器人運(yùn)動目標(biāo)環(huán)繞與避障控制[J]. 易國,毛建旭,王耀南,郭斯羽,繆志強(qiáng). 儀器儀表學(xué)報(bào). 2018(02)
[6]連續(xù)空間中的一種動作加權(quán)行動者評論家算法[J]. 劉全,章鵬,鐘珊,錢煒晟,翟建偉. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[7]局部環(huán)境增量采樣的服務(wù)機(jī)器人路徑規(guī)劃[J]. 陳彥杰,王耀南,譚建豪,毛建旭. 儀器儀表學(xué)報(bào). 2017(05)
[8]多移動微小型機(jī)器人編隊(duì)控制與協(xié)作避碰研究[J]. 張大偉,孟森森,鄧計(jì)才. 儀器儀表學(xué)報(bào). 2017(03)
[9]多機(jī)器人路徑規(guī)劃的安全性驗(yàn)證[J]. 劉濤,王淑靈,詹乃軍. 軟件學(xué)報(bào). 2017(05)
[10]復(fù)雜環(huán)境移動群機(jī)器人最優(yōu)路徑規(guī)劃方法[J]. 徐雪松,楊勝杰,陳榮元. 電子測量與儀器學(xué)報(bào). 2016(02)
本文編號:3231526
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3231526.html
最近更新
教材專著