天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于MADDPG算法的多智能體協(xié)同控制研究

發(fā)布時間:2020-12-21 04:26
  傳統(tǒng)的工業(yè)機(jī)器人是建立在精確的數(shù)學(xué)模型的基礎(chǔ)上,其控制方法通常是在固定的環(huán)境中設(shè)定特定任務(wù)。然而這樣的傳統(tǒng)控制系統(tǒng)不具備適應(yīng)性以及泛化性,當(dāng)機(jī)器人處于的環(huán)境發(fā)生細(xì)微的改變時,機(jī)器人則無法準(zhǔn)確的完成任務(wù),因此智能控制算法逐漸成為機(jī)器控制的研究熱點。隨著強(qiáng)化學(xué)習(xí)以及深度學(xué)習(xí)的不斷發(fā)展,將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到機(jī)器人控制受到了廣大的研究人員的關(guān)注。本文首先介紹了傳統(tǒng)機(jī)械控制的控制原理和深度強(qiáng)化學(xué)習(xí)的發(fā)展,闡述了本課題的研究背景與研究目的。其次,在基于物理引擎的MuJoCo環(huán)境中采用了確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),重點研究DDPG算法在單個智能體環(huán)境的魯棒性與通用性。然而,隨著智能體數(shù)量的增加而引起的環(huán)境不穩(wěn)定,導(dǎo)致一般的深度強(qiáng)化學(xué)習(xí)在聯(lián)合行動空間中存在一定的困難。最后為了解決這個問題,本次設(shè)計一個四個機(jī)械手臂通過協(xié)作控制到達(dá)目標(biāo)位置的任務(wù),并使用了多智能體確定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)在MuJoCo中進(jìn)行訓(xùn)練。實驗結(jié)果表明,... 

【文章來源】:武漢紡織大學(xué)湖北省

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于MADDPG算法的多智能體協(xié)同控制研究


無人機(jī)群(來自網(wǎng)絡(luò))

流水線,機(jī)器人,智能機(jī)器人


1緒論2圖1.2流水線機(jī)器人(來自網(wǎng)絡(luò))智能機(jī)器人作為一門新興的研究學(xué)科,其涵蓋了機(jī)器人運(yùn)動學(xué)、生物仿真學(xué)科、人工智能技術(shù)、傳感器技術(shù)等多種學(xué)科知識,對社會的發(fā)展與人類生活的進(jìn)步起著重要的作用[4]。智能機(jī)器人通過獲取與處理外界的信息,自主的完成困難繁瑣的工業(yè)任務(wù)。同時也可隨著環(huán)境的變化,建立與修正新的環(huán)境模型來完成各種作業(yè)。智能機(jī)器人技術(shù)作為未來社會發(fā)展的重要工具,在許多領(lǐng)域中有著突出的作用[5]。例如智能機(jī)器人在制造領(lǐng)域中的應(yīng)用能夠高效率的提高產(chǎn)量,并成功推動了智能生產(chǎn)系統(tǒng)的發(fā)展以及今后人類的智能生活[6]。智能機(jī)器人系統(tǒng)最重要的組成部分是機(jī)器人的學(xué)習(xí)模塊,也是機(jī)器人智能化的重要因素。學(xué)習(xí)模塊實際上是機(jī)器人對外界信息的處理過程,而人工智能算法則是學(xué)習(xí)模塊的重要手段,負(fù)責(zé)賦予機(jī)器人判斷、邏輯分析、自主適應(yīng)等能力。我國以及其他國家已經(jīng)把智能機(jī)器人列為人類未來的高技術(shù)課題,并制定發(fā)展規(guī)劃,給與巨額扶助[7]。而作為如今火熱的協(xié)同控制算法則顯得更加的重要。1.2課題研究目的與意義近年來,隨著智能機(jī)器人的飛速發(fā)展,各行各業(yè)都離不開智能機(jī)器人的身影,尤其在一些復(fù)雜的工作環(huán)境以及人類無法完成的任務(wù)中,例如物流搬運(yùn)、海底探索等高危工作[8]。在以往的機(jī)器人系統(tǒng)中,單個的機(jī)器人控制上已經(jīng)有了相對完美的控制算法,同時機(jī)器視覺和嵌入式技術(shù)趨于成熟,單個機(jī)器人系統(tǒng)已經(jīng)越發(fā)的智能化[9]。然而隨著生活和科技的發(fā)展,對于機(jī)器人之間的協(xié)同控制研究格外的重要。簡單而言,機(jī)器人之間的協(xié)作能力,就是每個機(jī)器智能體組成一個大的系統(tǒng),多個智能體之間共同協(xié)作,感知,決策,完美的完成一個任務(wù)。因此相對于傳統(tǒng)的單個機(jī)器人控制算法,研究人員更迫切的想要研究多智能控制算法[10]。以

框架圖,學(xué)習(xí)標(biāo)準(zhǔn),框架


1緒論4特征表示。深度神經(jīng)網(wǎng)絡(luò)的第三次發(fā)展還在繼續(xù),現(xiàn)在研究人員已經(jīng)著眼于無監(jiān)督學(xué)習(xí)以及模型在小數(shù)據(jù)集的泛化能力,研究重點已經(jīng)發(fā)生了重大的變化。但是目前更多目光還是集中于對傳統(tǒng)的監(jiān)督學(xué)習(xí)算法的研究以及模型在大型數(shù)據(jù)集的泛化能力[17]。同時,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一部分,極大地促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展,最為廣泛的應(yīng)用在語音、圖像和自然語言處理這三個研究領(lǐng)域。1.3.2強(qiáng)化學(xué)習(xí)研究相關(guān)知識強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)一樣,也有著相當(dāng)長的發(fā)展歷史了,直到20世紀(jì)末強(qiáng)化學(xué)習(xí)才在機(jī)器學(xué)習(xí)和人工智能中得到了廣泛的研究,同時也與數(shù)學(xué)學(xué)科、機(jī)器人控制學(xué)等相關(guān)學(xué)科有關(guān)[18]。但是作為機(jī)器學(xué)習(xí)的一個重要研究領(lǐng)域,強(qiáng)化學(xué)習(xí)不同于深度學(xué)習(xí)的是更加注重解決問題的策略,同時強(qiáng)化學(xué)習(xí)是智能體與環(huán)境之間的交互,需要的是具有帶有回報獎勵的交互數(shù)據(jù),而不是與深度學(xué)習(xí)一樣需要大量帶有標(biāo)簽的數(shù)據(jù)。強(qiáng)化學(xué)習(xí)與環(huán)境交互的標(biāo)準(zhǔn)框架如圖1.3所示。圖1.3強(qiáng)化學(xué)習(xí)標(biāo)準(zhǔn)框架目前,強(qiáng)化學(xué)習(xí)的主要算法大致分為兩大類:一種是基于值的算法(Value-Based),另一種是基于策略的算法(Policy-Based)。同時也可以按模型分類,分為基于模型的算法與模型無關(guān)法。強(qiáng)化學(xué)習(xí)算法更新比較快,已經(jīng)出現(xiàn)了像Q-learning、Sarsa、DeepQNetwork、PolicyGradients等優(yōu)秀的算法。同時這些算法已經(jīng)在自動駕駛汽車,群體機(jī)器人,協(xié)作機(jī)械手,軌跡規(guī)劃等領(lǐng)域具有廣泛的潛在應(yīng)用。并且在《星際爭霸》等游戲中展示了良好的效果。

【參考文獻(xiàn)】:
期刊論文
[1]SCARA四軸機(jī)器人控制系統(tǒng)綜述[J]. 楊明,張如昊,張軍,朱昊天,孫永平,陳揚(yáng)洋,徐殿國.  電氣傳動. 2020(01)
[2]智能掃地機(jī)器人控制系統(tǒng)設(shè)計[J]. 苗振騰.  電子世界. 2019(24)
[3]機(jī)械臂運(yùn)動學(xué)建模及解算方法綜述[J]. 冷舒,吳克,居鶴華.  宇航學(xué)報. 2019(11)
[4]基于深度強(qiáng)化算法的機(jī)器人動態(tài)目標(biāo)點跟隨研究[J]. 徐繼寧,曾杰.  計算機(jī)科學(xué). 2019(S2)
[5]智能機(jī)器人及其控制技術(shù)研究[J]. 劉玉玲.  科技創(chuàng)新導(dǎo)報. 2019(26)
[6]基于二連桿任務(wù)的深度強(qiáng)化學(xué)習(xí)算法分析與比較[J]. 萬仁卓,王思源,馮繹銘,桂熙,丁雷,王駿,周國鵬.  湖北科技學(xué)院學(xué)報. 2019(03)
[7]綜述智能機(jī)器人的發(fā)展與組成[J]. 陸昱方.  通訊世界. 2019(01)
[8]智能機(jī)器人產(chǎn)業(yè)的現(xiàn)狀與未來[J]. 王哲,馮曉輝,李藝銘,莊金鑫.  人工智能. 2018(03)
[9]探究智能移動機(jī)器人的現(xiàn)狀及展望[J]. 武雨飛.  中國戰(zhàn)略新興產(chǎn)業(yè). 2018(12)
[10]深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應(yīng)用. 2017(12)

碩士論文
[1]基于多智能體強(qiáng)化學(xué)習(xí)的制造過程建模方法研究[D]. 李志鵬.齊魯工業(yè)大學(xué) 2019
[2]基于RoboCup多智能體系統(tǒng)學(xué)習(xí)與協(xié)作問題的研究[D]. 楊寶慶.江南大學(xué) 2008



本文編號:2929183

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2929183.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶86909***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com