天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 航空航天論文 >

基于強化學習的無人機空中格斗算法研究

發(fā)布時間:2017-08-31 06:10

  本文關鍵詞:基于強化學習的無人機空中格斗算法研究


  更多相關文章: 無人戰(zhàn)斗機 強化學習 動機引導 空中格斗


【摘要】:隨著無人戰(zhàn)斗機在軍事領域上的應用越來越廣泛,世界各國都在下大力氣研制無人機,無人戰(zhàn)斗機的出現(xiàn)也將改變未來的空戰(zhàn)態(tài)勢,成為決定戰(zhàn)場的重要力量。在這其中,無人機的智能化水平將是無人機技術發(fā)展的關鍵,未來的無人戰(zhàn)斗機將不僅能夠通過傳感器感知狀態(tài)信息,區(qū)分敵我目標,還能夠根據(jù)不同的作戰(zhàn)任務,進行空戰(zhàn)決策?諔(zhàn)決策理論經(jīng)過近幾十年的發(fā)展,逐步形成了以專家系統(tǒng)、微分對策為主的傳統(tǒng)方法和以神經(jīng)網(wǎng)絡、遺傳算法、蟻群算法為代表的智能方法。本文主要研究了基于強化學習的無人機空中格斗算法,主要做了以下幾個方面的工作:一是對強化學習的基本理論做了詳細的介紹,通過強化學習算法的對比分析,指出了當前強化學習研究面臨的一些困難和問題,同時對強化學習的應用領域做了介紹。二是以強化學習的經(jīng)典算法以及現(xiàn)階段研究熱點為依據(jù),以強化學習系統(tǒng)中涉及的策略、值函數(shù)、回報函數(shù)等要素為核心,改進了算法性能。首先通過添加一個動機層,通過這一層,將先驗知識引入到強化學習中,形成狀態(tài)映射到動機、再從動機映射到動作的兩層映射關系,提高了收斂速度。隨后又采用模擬退火算法進一步提高了算法的性能。三是以空中格斗決策為重點,完成了RBF神經(jīng)網(wǎng)絡的動機引導強化學習算法的設計,通過對比不同決策意圖下的飛行軌跡,驗證了算法的有效性。
【關鍵詞】:無人戰(zhàn)斗機 強化學習 動機引導 空中格斗
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:V279
【目錄】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 緒論8-19
  • 1.1 課題研究背景8-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-17
  • 1.2.1 空戰(zhàn)決策理論研究現(xiàn)狀13-15
  • 1.2.2 強化學習研究現(xiàn)狀15-17
  • 1.3 本文的主要研究內(nèi)容17-19
  • 第2章 強化學習理論19-36
  • 2.1 強化學習及其理論基礎19-25
  • 2.1.1 馬爾科夫決策過程模型19-21
  • 2.1.2 強化學習的基本原理及模型21-23
  • 2.1.3 強化學習的組成要素23-25
  • 2.2 典型強化學習模型25-33
  • 2.2.1 強化學習算法的目的25-26
  • 2.2.2 瞬時差分算法26-29
  • 2.2.3 Q學習算法29-30
  • 2.2.4 Sarsa算法30
  • 2.2.5 自適應啟發(fā)評價算法30-32
  • 2.2.6 分層強化學習32-33
  • 2.3 強化學習的應用領域33-35
  • 2.3.1 優(yōu)化控制中應用33-34
  • 2.3.2 機器人領域的應用34
  • 2.3.3 調(diào)度控制領域的應用34-35
  • 2.3.4 人工智能問題求解中的應用35
  • 2.4 本章小結35-36
  • 第3章 基于動機引導的強化學習算法研究36-43
  • 3.1 動機引導強化學習36-38
  • 3.1.1 基本思想36-37
  • 3.1.2 算法描述37-38
  • 3.2 基于模擬退火的動機引導強化學習38-39
  • 3.2.1 基本思想38
  • 3.2.2 算法描述38-39
  • 3.3 實驗設計及結果分析39-42
  • 3.3.1 實驗環(huán)境39-41
  • 3.3.2 實驗參數(shù)設置41
  • 3.3.3 結果分析41-42
  • 3.4 本章小結42-43
  • 第4章 基于強化學習的無人機格斗算法研究43-56
  • 4.1 引言43-44
  • 4.2 無人機格斗環(huán)境描述44-50
  • 4.2.1 系統(tǒng)的狀態(tài)和輸入44-45
  • 4.2.2 動機與可選動作集合45-48
  • 4.2.3 目標狀態(tài)和回報函數(shù)的定義48-50
  • 4.3 基于強化學習的無人機格斗算法設計50-53
  • 4.3.1 網(wǎng)絡結構設計50-51
  • 4.3.2 神經(jīng)網(wǎng)絡訓練51-52
  • 4.3.3 生成訓練樣本52
  • 4.3.4 算法步驟52-53
  • 4.4 結果分析53-54
  • 4.5 本章小結54-56
  • 結論56-57
  • 參考文獻57-62
  • 致謝62

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 馬耀飛;龔光紅;彭曉源;;基于強化學習的航空兵認知行為模型[J];北京航空航天大學學報;2010年04期

2 吳洪巖;劉淑華;張崳;;基于RBFNN的強化學習在機器人導航中的應用[J];吉林大學學報(信息科學版);2009年02期

3 郭昊;周德云;張X;;無人作戰(zhàn)飛機空戰(zhàn)自主機動決策研究[J];電光與控制;2010年08期

4 滄桑;國外正在研制的無人戰(zhàn)斗機[J];國外科技動態(tài);2005年05期

5 仵博;鄭紅燕;馮延蓬;陳鑫;;一種基于模型的可分解貝葉斯在線強化學習[J];電子學報;2014年07期

6 周思羽;吳文海;張楠;張靖;;自主空戰(zhàn)機動決策方法綜述[J];航空計算技術;2012年01期

7 蔣國飛,吳滄浦;基于Q學習算法和BP神經(jīng)網(wǎng)絡的倒立擺控制[J];自動化學報;1998年05期

8 程玉虎;王雪松;易建強;孫偉;;基于自組織模糊RBF網(wǎng)絡的連續(xù)空間Q學習[J];信息與控制;2008年01期



本文編號:763895

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/hangkongsky/763895.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶fb1dc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com