天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于強化學習的倒立擺控制算法研究

發(fā)布時間:2022-01-09 10:48
  科技時代,人工智能充斥在我們生活的各個領域,從AIphaGo到AlphaZero都在漁釋著它的強大。機器學習作為人工智能的核心,是使計算機具有智能的根本途徑。強化學習作為機器學習研究領域的一個熱門方向,其通過智能體與環(huán)境的交互作用,從中汲取經驗,以自學習的方式不斷更新改進控制策略,逐步達到最優(yōu)或近優(yōu)控制效果。由于強化學習是一種無模型無監(jiān)督的機器學習方法,因此具有通用性強,適用范圍廣泛,參數(shù)自整定等優(yōu)點,能夠極大降低控制系統(tǒng)的設計難度和人力投入,具有廣闊的應用前景。因此,研究強化學習具有重要的理論價值和實際工程應用價值。倒立擺系統(tǒng)是一個多變量、非線性、高階次、強耦合的自不穩(wěn)定系統(tǒng),能夠模擬反映多數(shù)常見的控制對象,其控制算法具有多輸入單輸出的特點,因而是一種典型的自動控制理論研究裝置。以該問題作為研究對象,能夠有效反映出控制算法在實際應用系統(tǒng)中的隨動性、魯棒性、跟蹤及鎮(zhèn)定性等問題。因此,本文以一級直線倒立擺系統(tǒng)為對象,進行深度強化學習算法的研究。主要研究內容以及成果如下:(1)對強化學習的基礎概念進行介紹并分析。通過對常用強化學習算法的理論推導和馬爾科夫決策過程各參數(shù)分析,為強化學習以及深... 

【文章來源】:西安理工大學陜西省

【文章頁數(shù)】:63 頁

【學位級別】:碩士

【部分圖文】:

基于強化學習的倒立擺控制算法研究


強化學習示意圖

示意圖,倒立擺系統(tǒng),物理,一級


圖 2-5 一級直線倒立擺系統(tǒng)物理示意圖al schematic diagram of a linear inverted p的復雜系統(tǒng),倒立擺系統(tǒng)模型的建

畫面,行為空間,倒立擺,狀態(tài)變量


圖 3-1 Cartpole 仿真畫面Fig.3-1 Cartpole simulation screen態(tài)變量、行為空間、倒立擺小車的運動空間、倒了定義。其中狀態(tài)變量(state)為 4 維,分別為

【參考文獻】:
期刊論文
[1]深度強化學習研究綜述[J]. 趙星宇,丁世飛.  計算機科學. 2018(07)
[2]基于加權密集連接卷積網絡的深度強化學習方法[J]. 夏旻,宋穩(wěn)柱,施必成,劉佳.  計算機應用. 2018(08)
[3]深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應用. 2017(12)
[4]深度強化學習綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進.  計算機學報. 2018(01)
[5]深度強化學習綜述:兼論計算機圍棋的發(fā)展[J]. 趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅.  控制理論與應用. 2016(06)
[6]強化學習模型及其在避障中的應用[J]. 孫魁,吳成東.  山東工業(yè)技術. 2016(01)
[7]倒立擺系統(tǒng)的發(fā)展研究以及意義[J]. 韓復健.  山東工業(yè)技術. 2014(17)
[8]倒立擺系統(tǒng)數(shù)學建模與PID控制器實現(xiàn)[J]. 杜崗,徐靜.  連云港職業(yè)技術學院學報. 2013(02)
[9]基于神經網絡的強化學習研究概述[J]. 尤樹華,周誼成,王輝.  電腦知識與技術. 2012(28)
[10]強化學習研究綜述[J]. 陳學松,楊宜民.  計算機應用研究. 2010(08)

博士論文
[1]非參數(shù)化值函數(shù)逼近強化學習研究[D]. 季挺.南昌大學 2018

碩士論文
[1]強化學習在倒立擺起擺及平衡控制中的應用研究[D]. 毛文杰.西安理工大學 2018
[2]基于深度神經網絡的特征提取算法及其應用研究[D]. 李蓓蓓.江南大學 2018
[3]基于深度強化學習的視頻游戲決策模型研究與應用[D]. 郭勤.江西理工大學 2018
[4]基于深度強化學習的游戲博弈策略的研究與實現(xiàn)[D]. 吳睿.吉林大學 2018
[5]基于深度強化學習的游戲控制算法研究與實現(xiàn)[D]. 顏志鵬.電子科技大學 2018
[6]基于DQN的機械臂控制策略的研究[D]. 郭憲.北京交通大學 2018
[7]基于深度強化學習在游戲上的應用[D]. 王康.沈陽理工大學 2018
[8]基于深度卷積神經網絡的人臉表情識別方法[D]. 陳科雯.西安電子科技大學 2017
[9]貝葉斯強化學習中策略迭代算法研究[D]. 尤樹華.蘇州大學 2016
[10]直線倒立擺控制策略的對比研究[D]. 丁麗.齊魯工業(yè)大學 2015



本文編號:3578569

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3578569.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶c7632***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com