機器人足球行為控制學(xué)習(xí)算法的研究

發(fā)布時間：2018-11-21 14:27

【摘要】：機器人足球作為人工智能的一項重大挑戰(zhàn),集合了多類熱門研究于一身,是目前人工智能、多Agent系統(tǒng)研究的一個標準平臺。機器人足球智能可以從多Agnet協(xié)作、單機器人行為策略決策和行為動作優(yōu)化等多個方向研究。本文著重于足球機器人行為動作自主學(xué)習(xí)方向,引入強化學(xué)習(xí)算法,并針對多種足球機器人行為的強化學(xué)習(xí)進行仿真,驗證了強化學(xué)習(xí)在足球機器人行為動作優(yōu)化上的可行性。本文首先概括的介紹了機器人足球系統(tǒng),對機器人足球的多個智能化研究方向進行了闡述。介紹了傳統(tǒng)足球機器人行為動作的實現(xiàn)方式,說明了其方法的不足,提出了使用強化學(xué)習(xí)解決足球機器人行為控制上所面臨的問題的思路。然后對強化學(xué)習(xí)進行了詳細的闡述,從Markov決策過程開始,引出了針對離散狀態(tài)空間Q學(xué)習(xí)算法,并針對連續(xù)狀態(tài)空間介紹了連續(xù)逼近法在強化學(xué)習(xí)中的應(yīng)用,并介紹了基于多層前饋神經(jīng)網(wǎng)絡(luò)的強化學(xué)習(xí)算法的實現(xiàn)過程。接著針對足球機器人截球行為,介紹了基于CMAC網(wǎng)絡(luò)強化學(xué)習(xí)算法。CMAC網(wǎng)絡(luò)具有結(jié)構(gòu)簡單、學(xué)習(xí)速度快的特性。對足球機器人截球的實現(xiàn)做仿真,驗證了該算法的有效性。根據(jù)CMAC網(wǎng)絡(luò)的不足,對CMAC網(wǎng)絡(luò)做出了改進,實現(xiàn)了神經(jīng)網(wǎng)絡(luò)輸出的連續(xù)逼近。使用基于改進后的連續(xù)CMAC網(wǎng)絡(luò)的強化學(xué)習(xí)再次對足球機器人截球進行了仿真。然后針對足球機器人的躲避動態(tài)障礙,提出了使用并行連續(xù)CMAC的強化學(xué)習(xí)算法,避免了高維輸入狀態(tài)空間導(dǎo)致的維數(shù)災(zāi)難。最后為了實現(xiàn)足球機器人以指定方向趨近目標點的PID控制,將Actor-Critic學(xué)習(xí)算法應(yīng)用在PID控制中,最終實現(xiàn)了足球機器人以指定方向趨近目標點的自適應(yīng)PID控制的仿真。
[Abstract]:As an important challenge of artificial intelligence, robot soccer is a standard platform for the research of artificial intelligence and multi-Agent system. Robot soccer intelligence can be studied from multiple Agnet collaboration, single robot behavior strategy decision and behavioral action optimization. This paper focuses on the autonomous learning direction of soccer robot behavior, introduces reinforcement learning algorithm, and simulates the reinforcement learning of various soccer robot behaviors, which verifies the feasibility of reinforcement learning in the optimization of soccer robot behavior. In this paper, the robot soccer system is introduced, and several intelligent research directions of robot soccer are described. This paper introduces the implementation of the traditional soccer robot behavior, explains the shortcomings of the method, and puts forward the idea of using reinforcement learning to solve the problem of the soccer robot behavior control. Then the reinforcement learning is elaborated in detail. Starting from the Markov decision-making process, the Q learning algorithm for discrete state space is introduced, and the application of continuous approximation method in reinforcement learning is introduced for continuous state space. The implementation of reinforcement learning algorithm based on multilayer feedforward neural network is introduced. Then the reinforcement learning algorithm based on CMAC network is introduced for soccer robot truncation. CMAC network has the characteristics of simple structure and fast learning speed. The simulation of soccer robot truncation is carried out, and the validity of the algorithm is verified. According to the deficiency of CMAC network, the CMAC network is improved to realize the continuous approximation of the output of neural network. The reinforcement learning based on the improved continuous CMAC network is used to simulate the soccer robot again. Then a reinforcement learning algorithm based on parallel continuous CMAC is proposed to avoid the dimensionality disaster caused by high-dimensional input state space in order to avoid the dynamic obstacle of soccer robot. Finally, in order to realize the PID control of the soccer robot approaching the target point in the specified direction, the Actor-Critic learning algorithm is applied to the PID control. Finally, the simulation of the adaptive PID control of the soccer robot approaching the target point in the specified direction is realized.
【學(xué)位授予單位】：北方工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP242

【相似文獻】

相關(guān)期刊論文前10條

1 賈屹峰;濱化杯第二屆全國機器人足球錦標賽[J];機器人技術(shù)與應(yīng)用;2000年06期

2 凌鳳琪,柳長安,鮑國超;機器人足球仿真比賽中碰撞后行為的研究[J];計算機應(yīng)用研究;2003年12期

3 洪炳熔;機器人足球的最終目標及其實現(xiàn)途徑[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2004年S1期

4 ;機器人足球表演[J];中國制造業(yè)信息化;2005年11期

5 王朝輝;周峰;;機器人足球射門動作研究[J];大眾科技;2006年01期

6 ;機器人足球世界杯[J];國防科技;2006年07期

7 ;仿真機器人足球程序設(shè)計大賽落幕[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2008年02期

8 ;我校學(xué)生在世界杯機器人足球大賽中勇奪一金兩銀[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2008年09期

9 陳婷婷;張彥鐸;;機器人足球仿真比賽平臺中網(wǎng)絡(luò)通信問題研究[J];武漢工程大學(xué)學(xué)報;2009年03期

10 張潤梅;龔劍;;基于機器人足球的大學(xué)生創(chuàng)新素質(zhì)培養(yǎng)的探索與實踐[J];計算機教育;2009年02期

相關(guān)會議論文前10條

1 張小川;王牛;肖朝輝;雷李;;基于總體的機器人足球訓(xùn)練方案的思考[A];馬斯特杯2003年中國機器人大賽及研討會論文集[C];2003年

2 馮挺;方帥;徐心和;;面向用戶的機器人足球策略編輯器設(shè)計[A];2004中國機器人足球比賽暨學(xué)術(shù)研討會論文集[C];2004年

3 火鳳梅;;徐匯區(qū)中小幼學(xué)生虛擬機器人足球編程科教活動方案[A];科學(xué)教育的實踐與探索[C];2012年

4 徐心和;曹洋;薛方正;;機器人足球——小型高科技對抗平臺[A];新世紀新機遇新挑戰(zhàn)——知識創(chuàng)新和高新技術(shù)產(chǎn)業(yè)發(fā)展（上冊）[C];2001年

5 張小川;紀綱;肖朝輝;成衛(wèi);;基于圖象處理的機器人足球感覺系統(tǒng)[A];現(xiàn)代通信理論與信號處理進展——2003年通信理論與信號處理年會論文集[C];2003年

6 王行甫;莊嚴;陳小平;;機器人足球與大學(xué)計算機教育的初步思考[A];全國第十五屆計算機科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會議論文集[C];2003年

7 符海東;梁應(yīng)毅;;機器人足球策略中的截球動作設(shè)計[A];2005中國機器人大賽論文集[C];2005年

8 劉斐;盧惠民;鄭志強;;一種穩(wěn)健的機器人足球場地標示線提取方法[A];2007年足球機器人大會論文集[C];2007年

9 黃鵬;楊鵬;黃軍雷;劉作軍;;幾種運動規(guī)劃策略在機器人足球中的應(yīng)用[A];馬斯特杯2003年中國機器人大賽及研討會論文集[C];2003年

10 卓茗;唐華斌;;機器人足球視覺系統(tǒng)精度提高算法[A];馬斯特杯2003年中國機器人大賽及研討會論文集[C];2003年

相關(guān)重要報紙文章前10條

1 崔峰;機器人足球的開拓者[N];人民日報海外版;2003年

2 洪炳昒;發(fā)展機器人足球推動信息化建設(shè)[N];光明日報;2007年

3 石松;中國機器人足球的開拓者[N];科技日報;2006年

4 ;我國機器人足球現(xiàn)狀[N];經(jīng)濟參考報;2000年

5 謝遠景閆佳;機器人足球：沖出亞洲走向世界[N];科技日報;2005年

6 本報記者　張亮;機器人足球世界杯能為我們帶來什么？[N];科技日報;2006年

7 東北大學(xué)人工智能與機器人研究所所長徐心和;機器人足球[N];科技日報;2001年

8 記者　李曉明張振;“華煤杯”第七屆全國機器人足球錦標賽暨’2006中國·平?jīng)鲠轻嘉幕糜喂?jié)開幕[N];平?jīng)鋈請?2006年

9 本版編輯國際機器人足球聯(lián)盟(FIRA)副主席 FIRA中國分會會長洪炳昒　甘肅省人大常委會副主任丁澤生　中國人工智能學(xué)會理事長鐘義信　平?jīng)鍪形睍�、市長馬學(xué)軍;在“華煤標”第七屆全國機器人足球錦標賽暨’2006中國·平?jīng)鲠轻嘉幕糜喂?jié)開幕式上的講話(摘要)[N];平?jīng)鋈請?2006年

10 趙s，

本文編號：2347236

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2347236.html

上一篇：基于自適應(yīng)邊界能量法的柔順力控制研究
下一篇：基于改進粒子群算法的風(fēng)光蓄互補發(fā)電系統(tǒng)容量優(yōu)化

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

機器人足球行為控制學(xué)習(xí)算法的研究