天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于個(gè)體-協(xié)同觸發(fā)強(qiáng)化學(xué)習(xí)的多機(jī)器人行為決策方法

發(fā)布時(shí)間:2021-06-15 18:06
  為了提高多機(jī)器人行為最優(yōu)決策控制中強(qiáng)化學(xué)習(xí)的效率和收斂速度,研究了多機(jī)器人的分布式馬爾科夫建模與控制策略。根據(jù)機(jī)器人有限感知能力設(shè)計(jì)了個(gè)體-協(xié)同感知觸發(fā)函數(shù),機(jī)器人個(gè)體從環(huán)境觀測結(jié)果計(jì)算個(gè)體-協(xié)同觸發(fā)響應(yīng)概率,定義一次觸發(fā)過程后開始計(jì)算聯(lián)合策略,減少機(jī)器人間通訊量和計(jì)算資源。引入雙學(xué)習(xí)率改進(jìn)Q學(xué)習(xí)算法,并將該算法應(yīng)用于機(jī)器人行為決策。仿真實(shí)驗(yàn)結(jié)果表明,當(dāng)機(jī)器人群組數(shù)量在20左右時(shí),本文算法的協(xié)同效率較高,單位時(shí)步比為1.085 0。同時(shí)距離調(diào)節(jié)參數(shù)η對機(jī)器人協(xié)同搜索效率有影響,當(dāng)η=0.008時(shí),所需的移動時(shí)步比和平均移動距離都能達(dá)到最小值。通過雙學(xué)習(xí)率的引入,該算法較基于環(huán)境模型的強(qiáng)化學(xué)習(xí)算法具有更高的學(xué)習(xí)效率和適用性,平均性能提升35%,對于提高多機(jī)器人自主協(xié)同能力具有較高的理論意義及應(yīng)用價(jià)值。 

【文章來源】:儀器儀表學(xué)報(bào). 2020,41(05)北大核心EICSCD

【文章頁數(shù)】:10 頁

【部分圖文】:

基于個(gè)體-協(xié)同觸發(fā)強(qiáng)化學(xué)習(xí)的多機(jī)器人行為決策方法


觸發(fā)響應(yīng)強(qiáng)化學(xué)習(xí)算法流程

機(jī)器人


相對單智能體強(qiáng)化學(xué)習(xí),多智能體強(qiáng)化學(xué)習(xí)更適合多機(jī)器人協(xié)作的復(fù)雜問題,MDPs是該類學(xué)習(xí)方法的數(shù)學(xué)模型基礎(chǔ)。該類多機(jī)器人強(qiáng)化學(xué)習(xí)結(jié)構(gòu)如圖1所示。將多機(jī)器人強(qiáng)化學(xué)習(xí)過程一般化為馬爾可夫隨機(jī)策略,可以用多元組M:<S,Ai,pi,gi>表示,i=1,2,…,n。其中,n為機(jī)器人個(gè)數(shù);S代表環(huán)境狀態(tài)集合,s t i ∈S表示第i個(gè)機(jī)器人在t時(shí)刻所處的狀態(tài); Ai為機(jī)器人個(gè)體可選擇的動作集合,a t i ∈A表示第i個(gè)機(jī)器人在t時(shí)刻的動作。多機(jī)器人聯(lián)合動作集可表示為A=A1×…×An,pi:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù);gi:S×A×S→R為回報(bào)函數(shù),表示機(jī)器人個(gè)體i在狀態(tài)s t i 執(zhí)行動作a t i 到動作s t+1 i 得到的立即回報(bào)。設(shè)策略π:Si→Ai為聯(lián)合狀態(tài) s → =(s 1 ,?,s n ) 到聯(lián)合動作空間 a → =(a 1 ,?,a n ) 的一個(gè)映射,以使行為從環(huán)境中獲得的累積回報(bào)值如式(1)所示。

機(jī)器人,多智能體系統(tǒng)


多機(jī)器人在協(xié)作工作過程中,通過自身配備的傳感元件獲取信息而改變自身狀態(tài)來獲得對環(huán)境的適應(yīng)性。單個(gè)機(jī)器人如果能獲取并響應(yīng)其他機(jī)器人的知識,在局部環(huán)境中對強(qiáng)化學(xué)習(xí)回報(bào)進(jìn)行優(yōu)化,將有助于在保證學(xué)習(xí)速度的前提下加強(qiáng)它們之間的協(xié)作。在多智能體系統(tǒng)的強(qiáng)化學(xué)習(xí)中,個(gè)體間通過交換即時(shí)狀態(tài)、學(xué)習(xí)策略等信息可提高個(gè)體的學(xué)習(xí)效率。因此,設(shè)計(jì)多機(jī)器人感知交互結(jié)構(gòu)如圖2所示。2.1 個(gè)體-協(xié)同感知觸發(fā)函數(shù)

【參考文獻(xiàn)】:
期刊論文
[1]基于深度強(qiáng)化算法的機(jī)器人動態(tài)目標(biāo)點(diǎn)跟隨研究[J]. 徐繼寧,曾杰.  計(jì)算機(jī)科學(xué). 2019(S2)
[2]基于改進(jìn)強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃方法[J]. 徐曉蘇,袁杰.  中國慣性技術(shù)學(xué)報(bào). 2019(03)
[3]基于強(qiáng)化學(xué)習(xí)的移動機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海.  制造業(yè)自動化. 2019(03)
[4]基于深度Q網(wǎng)絡(luò)學(xué)習(xí)的機(jī)器人端到端控制方法[J]. 張浩杰,蘇治寶,蘇波.  儀器儀表學(xué)報(bào). 2018(10)
[5]多移動機(jī)器人運(yùn)動目標(biāo)環(huán)繞與避障控制[J]. 易國,毛建旭,王耀南,郭斯羽,繆志強(qiáng).  儀器儀表學(xué)報(bào). 2018(02)
[6]連續(xù)空間中的一種動作加權(quán)行動者評論家算法[J]. 劉全,章鵬,鐘珊,錢煒晟,翟建偉.  計(jì)算機(jī)學(xué)報(bào). 2017(06)
[7]局部環(huán)境增量采樣的服務(wù)機(jī)器人路徑規(guī)劃[J]. 陳彥杰,王耀南,譚建豪,毛建旭.  儀器儀表學(xué)報(bào). 2017(05)
[8]多移動微小型機(jī)器人編隊(duì)控制與協(xié)作避碰研究[J]. 張大偉,孟森森,鄧計(jì)才.  儀器儀表學(xué)報(bào). 2017(03)
[9]多機(jī)器人路徑規(guī)劃的安全性驗(yàn)證[J]. 劉濤,王淑靈,詹乃軍.  軟件學(xué)報(bào). 2017(05)
[10]復(fù)雜環(huán)境移動群機(jī)器人最優(yōu)路徑規(guī)劃方法[J]. 徐雪松,楊勝杰,陳榮元.  電子測量與儀器學(xué)報(bào). 2016(02)



本文編號:3231526

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3231526.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b2c68***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
久久精品色妇熟妇丰满人妻91| 一区二区三区日韩经典| 黑丝袜美女老师的小逼逼| 亚洲精品中文字幕熟女| 国产日韩欧美综合视频| 人人爽夜夜爽夜夜爽精品视频| 欧美日韩中黄片免费看| 热久久这里只有精品视频| 亚洲国产成人爱av在线播放下载| 国产精品美女午夜视频| 亚洲精品美女三级完整版视频 | 日本人妻熟女一区二区三区| 日韩精品少妇人妻一区二区| 久久久精品日韩欧美丰满| 午夜福利在线观看免费| 亚洲国产性生活高潮免费视频 | 男生和女生哪个更好色 | 九九九热视频最新在线| 日本一本不卡免费视频| 午夜亚洲少妇福利诱惑| 国产色第一区不卡高清| 在线观看视频日韩成人| 中文字幕久热精品视频在线| 久久99精品日韩人妻| 午夜精品成年人免费视频| 青草草在线视频免费视频| 免费大片黄在线观看国语| 亚洲国产精品肉丝袜久久| 色综合久久六月婷婷中文字幕 | 麻豆一区二区三区在线免费| 亚洲欧美国产精品一区二区| 久久久免费精品人妻一区二区三区| 日韩精品成区中文字幕| 人妻少妇av中文字幕乱码高清| 香蕉尹人视频在线精品| 欧美日韩在线观看自拍| 国产精品夜色一区二区三区不卡| 欧美三级精品在线观看| 国产精品午夜福利免费阅读| 麻豆视传媒短视频在线看| 草草视频精品在线观看|