基于個體-協(xié)同觸發(fā)強化學(xué)習(xí)的多機器人行為決策方法
發(fā)布時間:2021-06-15 18:06
為了提高多機器人行為最優(yōu)決策控制中強化學(xué)習(xí)的效率和收斂速度,研究了多機器人的分布式馬爾科夫建模與控制策略。根據(jù)機器人有限感知能力設(shè)計了個體-協(xié)同感知觸發(fā)函數(shù),機器人個體從環(huán)境觀測結(jié)果計算個體-協(xié)同觸發(fā)響應(yīng)概率,定義一次觸發(fā)過程后開始計算聯(lián)合策略,減少機器人間通訊量和計算資源。引入雙學(xué)習(xí)率改進Q學(xué)習(xí)算法,并將該算法應(yīng)用于機器人行為決策。仿真實驗結(jié)果表明,當(dāng)機器人群組數(shù)量在20左右時,本文算法的協(xié)同效率較高,單位時步比為1.085 0。同時距離調(diào)節(jié)參數(shù)η對機器人協(xié)同搜索效率有影響,當(dāng)η=0.008時,所需的移動時步比和平均移動距離都能達到最小值。通過雙學(xué)習(xí)率的引入,該算法較基于環(huán)境模型的強化學(xué)習(xí)算法具有更高的學(xué)習(xí)效率和適用性,平均性能提升35%,對于提高多機器人自主協(xié)同能力具有較高的理論意義及應(yīng)用價值。
【文章來源】:儀器儀表學(xué)報. 2020,41(05)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
觸發(fā)響應(yīng)強化學(xué)習(xí)算法流程
相對單智能體強化學(xué)習(xí),多智能體強化學(xué)習(xí)更適合多機器人協(xié)作的復(fù)雜問題,MDPs是該類學(xué)習(xí)方法的數(shù)學(xué)模型基礎(chǔ)。該類多機器人強化學(xué)習(xí)結(jié)構(gòu)如圖1所示。將多機器人強化學(xué)習(xí)過程一般化為馬爾可夫隨機策略,可以用多元組M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n為機器人個數(shù);S代表環(huán)境狀態(tài)集合,s t i ∈S表示第i個機器人在t時刻所處的狀態(tài); Ai為機器人個體可選擇的動作集合,a t i ∈A表示第i個機器人在t時刻的動作。多機器人聯(lián)合動作集可表示為A=A1×…×An,pi:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù);gi:S×A×S→R為回報函數(shù),表示機器人個體i在狀態(tài)s t i 執(zhí)行動作a t i 到動作s t+1 i 得到的立即回報。設(shè)策略π:Si→Ai為聯(lián)合狀態(tài) s → =(s 1 ,?,s n ) 到聯(lián)合動作空間 a → =(a 1 ,?,a n ) 的一個映射,以使行為從環(huán)境中獲得的累積回報值如式(1)所示。
多機器人在協(xié)作工作過程中,通過自身配備的傳感元件獲取信息而改變自身狀態(tài)來獲得對環(huán)境的適應(yīng)性。單個機器人如果能獲取并響應(yīng)其他機器人的知識,在局部環(huán)境中對強化學(xué)習(xí)回報進行優(yōu)化,將有助于在保證學(xué)習(xí)速度的前提下加強它們之間的協(xié)作。在多智能體系統(tǒng)的強化學(xué)習(xí)中,個體間通過交換即時狀態(tài)、學(xué)習(xí)策略等信息可提高個體的學(xué)習(xí)效率。因此,設(shè)計多機器人感知交互結(jié)構(gòu)如圖2所示。2.1 個體-協(xié)同感知觸發(fā)函數(shù)
【參考文獻】:
期刊論文
[1]基于深度強化算法的機器人動態(tài)目標(biāo)點跟隨研究[J]. 徐繼寧,曾杰. 計算機科學(xué). 2019(S2)
[2]基于改進強化學(xué)習(xí)的移動機器人路徑規(guī)劃方法[J]. 徐曉蘇,袁杰. 中國慣性技術(shù)學(xué)報. 2019(03)
[3]基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于深度Q網(wǎng)絡(luò)學(xué)習(xí)的機器人端到端控制方法[J]. 張浩杰,蘇治寶,蘇波. 儀器儀表學(xué)報. 2018(10)
[5]多移動機器人運動目標(biāo)環(huán)繞與避障控制[J]. 易國,毛建旭,王耀南,郭斯羽,繆志強. 儀器儀表學(xué)報. 2018(02)
[6]連續(xù)空間中的一種動作加權(quán)行動者評論家算法[J]. 劉全,章鵬,鐘珊,錢煒晟,翟建偉. 計算機學(xué)報. 2017(06)
[7]局部環(huán)境增量采樣的服務(wù)機器人路徑規(guī)劃[J]. 陳彥杰,王耀南,譚建豪,毛建旭. 儀器儀表學(xué)報. 2017(05)
[8]多移動微小型機器人編隊控制與協(xié)作避碰研究[J]. 張大偉,孟森森,鄧計才. 儀器儀表學(xué)報. 2017(03)
[9]多機器人路徑規(guī)劃的安全性驗證[J]. 劉濤,王淑靈,詹乃軍. 軟件學(xué)報. 2017(05)
[10]復(fù)雜環(huán)境移動群機器人最優(yōu)路徑規(guī)劃方法[J]. 徐雪松,楊勝杰,陳榮元. 電子測量與儀器學(xué)報. 2016(02)
本文編號:3231526
【文章來源】:儀器儀表學(xué)報. 2020,41(05)北大核心EICSCD
【文章頁數(shù)】:10 頁
【部分圖文】:
觸發(fā)響應(yīng)強化學(xué)習(xí)算法流程
相對單智能體強化學(xué)習(xí),多智能體強化學(xué)習(xí)更適合多機器人協(xié)作的復(fù)雜問題,MDPs是該類學(xué)習(xí)方法的數(shù)學(xué)模型基礎(chǔ)。該類多機器人強化學(xué)習(xí)結(jié)構(gòu)如圖1所示。將多機器人強化學(xué)習(xí)過程一般化為馬爾可夫隨機策略,可以用多元組M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n為機器人個數(shù);S代表環(huán)境狀態(tài)集合,s t i ∈S表示第i個機器人在t時刻所處的狀態(tài); Ai為機器人個體可選擇的動作集合,a t i ∈A表示第i個機器人在t時刻的動作。多機器人聯(lián)合動作集可表示為A=A1×…×An,pi:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù);gi:S×A×S→R為回報函數(shù),表示機器人個體i在狀態(tài)s t i 執(zhí)行動作a t i 到動作s t+1 i 得到的立即回報。設(shè)策略π:Si→Ai為聯(lián)合狀態(tài) s → =(s 1 ,?,s n ) 到聯(lián)合動作空間 a → =(a 1 ,?,a n ) 的一個映射,以使行為從環(huán)境中獲得的累積回報值如式(1)所示。
多機器人在協(xié)作工作過程中,通過自身配備的傳感元件獲取信息而改變自身狀態(tài)來獲得對環(huán)境的適應(yīng)性。單個機器人如果能獲取并響應(yīng)其他機器人的知識,在局部環(huán)境中對強化學(xué)習(xí)回報進行優(yōu)化,將有助于在保證學(xué)習(xí)速度的前提下加強它們之間的協(xié)作。在多智能體系統(tǒng)的強化學(xué)習(xí)中,個體間通過交換即時狀態(tài)、學(xué)習(xí)策略等信息可提高個體的學(xué)習(xí)效率。因此,設(shè)計多機器人感知交互結(jié)構(gòu)如圖2所示。2.1 個體-協(xié)同感知觸發(fā)函數(shù)
【參考文獻】:
期刊論文
[1]基于深度強化算法的機器人動態(tài)目標(biāo)點跟隨研究[J]. 徐繼寧,曾杰. 計算機科學(xué). 2019(S2)
[2]基于改進強化學(xué)習(xí)的移動機器人路徑規(guī)劃方法[J]. 徐曉蘇,袁杰. 中國慣性技術(shù)學(xué)報. 2019(03)
[3]基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動化. 2019(03)
[4]基于深度Q網(wǎng)絡(luò)學(xué)習(xí)的機器人端到端控制方法[J]. 張浩杰,蘇治寶,蘇波. 儀器儀表學(xué)報. 2018(10)
[5]多移動機器人運動目標(biāo)環(huán)繞與避障控制[J]. 易國,毛建旭,王耀南,郭斯羽,繆志強. 儀器儀表學(xué)報. 2018(02)
[6]連續(xù)空間中的一種動作加權(quán)行動者評論家算法[J]. 劉全,章鵬,鐘珊,錢煒晟,翟建偉. 計算機學(xué)報. 2017(06)
[7]局部環(huán)境增量采樣的服務(wù)機器人路徑規(guī)劃[J]. 陳彥杰,王耀南,譚建豪,毛建旭. 儀器儀表學(xué)報. 2017(05)
[8]多移動微小型機器人編隊控制與協(xié)作避碰研究[J]. 張大偉,孟森森,鄧計才. 儀器儀表學(xué)報. 2017(03)
[9]多機器人路徑規(guī)劃的安全性驗證[J]. 劉濤,王淑靈,詹乃軍. 軟件學(xué)報. 2017(05)
[10]復(fù)雜環(huán)境移動群機器人最優(yōu)路徑規(guī)劃方法[J]. 徐雪松,楊勝杰,陳榮元. 電子測量與儀器學(xué)報. 2016(02)
本文編號:3231526
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3231526.html
最近更新
教材專著