基于分層強(qiáng)化學(xué)習(xí)的多agent路徑規(guī)劃與編隊(duì)方法研究
本文關(guān)鍵詞:基于分層強(qiáng)化學(xué)習(xí)的多agent路徑規(guī)劃與編隊(duì)方法研究
更多相關(guān)文章: 多agent系統(tǒng) 路徑規(guī)劃 編隊(duì)控制 分層強(qiáng)化學(xué)習(xí) 人工勢(shì)場(chǎng) 神經(jīng)網(wǎng)絡(luò)
【摘要】:多agent系統(tǒng)的研究是當(dāng)今人工智能和自動(dòng)化控制領(lǐng)域的最前沿方向。多agent系統(tǒng)在各行各業(yè)中都表現(xiàn)出了極大的應(yīng)用性,其自身所具有的分布性、魯棒性強(qiáng)以及良好的協(xié)作性和適應(yīng)性等優(yōu)點(diǎn)是單個(gè)agent系統(tǒng)所不具備的。在實(shí)際應(yīng)用中,多agent一般工作在未知?jiǎng)討B(tài)環(huán)境中,環(huán)境中各種動(dòng)、靜態(tài)障礙物的狀況是agent所不知道的,在處理這些突發(fā)情況的時(shí)候就要求agent具有較強(qiáng)感知環(huán)境和適應(yīng)環(huán)境的能力,強(qiáng)化學(xué)習(xí)的無環(huán)境模型學(xué)習(xí)能力使agent具有了自學(xué)習(xí)和在線學(xué)習(xí)的能力,得到了越來越多研究者們的重視。但是,強(qiáng)化學(xué)習(xí)最大的缺陷就是遇到復(fù)雜任務(wù)的時(shí)候會(huì)出現(xiàn)“維數(shù)災(zāi)難”的問題。為了解決強(qiáng)化學(xué)習(xí)的“維數(shù)災(zāi)難”問題提出了分層強(qiáng)化學(xué)習(xí)算法,它以半馬爾科夫決策為基礎(chǔ)通過“抽象機(jī)制”把整個(gè)學(xué)習(xí)任務(wù)劃分成不同層次的子任務(wù),對(duì)狀態(tài)空間降維,來解決“維數(shù)災(zāi)難”問題。其經(jīng)典的算法有HAM、MAXQ和Option。最后,本文運(yùn)用分層強(qiáng)化學(xué)習(xí)的思想來解決多agent系統(tǒng)中路徑規(guī)劃和編隊(duì)控制問題,其主要工作概括如下:(1)從路徑規(guī)劃算法收斂速度慢及效率低、適應(yīng)性差的角度出發(fā),提出了一種基于分層強(qiáng)化學(xué)習(xí)及人工勢(shì)場(chǎng)的多agent路徑規(guī)劃算法。首先,對(duì)環(huán)境中的人工勢(shì)場(chǎng)進(jìn)行離差標(biāo)準(zhǔn)化處理構(gòu)建環(huán)境的先驗(yàn)知識(shí),以此可以得到一個(gè)目標(biāo)點(diǎn)具有最大勢(shì)能,障礙物區(qū)域勢(shì)能值為零的單調(diào)遞增的曲面。最后,多agent以構(gòu)建的先驗(yàn)知識(shí)為基礎(chǔ),利用分層強(qiáng)化學(xué)習(xí)的思想,使算法具有任務(wù)分層和良好的在線學(xué)習(xí)能力及自動(dòng)劃分子任務(wù)的能力,從而更加適應(yīng)未知?jiǎng)討B(tài)環(huán)境中路徑規(guī)劃任務(wù)。算法依次在出租車問題和中視典三維仿真平臺(tái)中進(jìn)行了驗(yàn)證,結(jié)果顯示多agent對(duì)未知環(huán)境適應(yīng)性強(qiáng),算法的收斂速度快且穩(wěn)定。(2)針對(duì)現(xiàn)階段多agent編隊(duì)控制中常出現(xiàn)的環(huán)境適應(yīng)性差、agent無自學(xué)習(xí)能力和收斂速度慢等問題,本文提出了一種基于分層強(qiáng)化學(xué)習(xí)及CMAC神經(jīng)網(wǎng)絡(luò)的多agent動(dòng)態(tài)編隊(duì)方法。首先,在多agent動(dòng)態(tài)編隊(duì)中,引入“抽象機(jī)制”把整個(gè)任務(wù)分為根任務(wù)協(xié)作層,動(dòng)作子任務(wù)選擇層和基本動(dòng)作執(zhí)行層三個(gè)任務(wù)層次對(duì)狀態(tài)空間降維和學(xué)習(xí)任務(wù)分解。其次,利用CMAC神經(jīng)網(wǎng)絡(luò)可以作為狀態(tài)泛化方法和分層強(qiáng)化學(xué)習(xí)中的Q-學(xué)習(xí)方法相結(jié)合,通過狀態(tài)變量的分割降級(jí)來減少CMAC空間存儲(chǔ)量,再利用若干降級(jí)后CMAC分別逼近學(xué)習(xí)狀態(tài)的Q函數(shù)來實(shí)現(xiàn)連續(xù)狀態(tài)的泛化,加快算法的學(xué)習(xí)速率。最后,算法在中視典三維仿真平臺(tái)驗(yàn)證其可行性,在matlab中證明了算法收斂速度快且穩(wěn)定。
【關(guān)鍵詞】:多agent系統(tǒng) 路徑規(guī)劃 編隊(duì)控制 分層強(qiáng)化學(xué)習(xí) 人工勢(shì)場(chǎng) 神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:河南師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP18;TP273
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-20
- 1.1 研究背景及意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-18
- 1.2.1 多agent系統(tǒng)路徑規(guī)劃國(guó)內(nèi)外研究現(xiàn)狀11-15
- 1.2.2 多agent系統(tǒng)編隊(duì)國(guó)內(nèi)外研究現(xiàn)狀15-18
- 1.3 本文主要研究?jī)?nèi)容18
- 1.4 文章結(jié)構(gòu)安排18-20
- 第二章 分層強(qiáng)化學(xué)習(xí)理論基礎(chǔ)20-32
- 2.1 引言20-21
- 2.2 強(qiáng)化學(xué)習(xí)21-25
- 2.2.1 強(qiáng)化學(xué)習(xí)思想21-22
- 2.2.2 馬爾可夫決策論22
- 2.2.3 強(qiáng)化學(xué)習(xí)的主要算法22-25
- 2.3 分層強(qiáng)化學(xué)習(xí)理論25-30
- 2.3.1 半馬爾科夫決策過程25-26
- 2.3.2 分層與抽象26
- 2.3.3 典型分層強(qiáng)化學(xué)習(xí)方法26-30
- 2.4 本章總結(jié)30-32
- 第三章 基于人工勢(shì)場(chǎng)及分層強(qiáng)化學(xué)習(xí)的多agent路徑規(guī)劃方法32-44
- 3.1 引言32
- 3.2 改進(jìn)分層強(qiáng)化學(xué)習(xí)算法32-34
- 3.3 HRLA算法34-38
- 3.3.1 人工勢(shì)場(chǎng)離差標(biāo)準(zhǔn)化處理34-35
- 3.3.2 算法定義35-36
- 3.3.3 算法描述36-37
- 3.3.4 HRLA值函數(shù)更新算法37-38
- 3.4 實(shí)驗(yàn)仿真與分析38-42
- 3.5 三維仿真平臺(tái)仿真42-43
- 3.6 本章小結(jié)43-44
- 第四章 基于分層強(qiáng)化學(xué)習(xí)及CMAC神經(jīng)網(wǎng)絡(luò)的多agent編隊(duì)方法44-56
- 4.1 引言44
- 4.2 改進(jìn)分層強(qiáng)化學(xué)習(xí)方法44-46
- 4.3 基于CMAC神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)算法46-48
- 4.4 具有分層強(qiáng)化學(xué)習(xí)機(jī)制的多agent編隊(duì)系統(tǒng)控制結(jié)構(gòu)48-50
- 4.5 MFRL算法50-52
- 4.6 仿真實(shí)驗(yàn)結(jié)果及其分析52-54
- 4.6.1 實(shí)驗(yàn)結(jié)果52-53
- 4.6.2 仿真結(jié)果與分析53-54
- 4.7 本章小結(jié)54-56
- 第五章 全文總結(jié)與未來展望56-58
- 5.1 全文總結(jié)56-57
- 5.2 未來展望57-58
- 參考文獻(xiàn)58-64
- 致謝64-66
- 攻讀碩士學(xué)位期間的科研成果66-67
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 李秀英;;網(wǎng)絡(luò)環(huán)境下學(xué)生學(xué)習(xí)的特點(diǎn)[J];教師;2009年04期
2 夏定海,黃智英;教會(huì)學(xué)習(xí) 學(xué)會(huì)學(xué)習(xí) 終身學(xué)習(xí)[J];發(fā)明與革新;2000年06期
3 黃啟兵;汪芳;;論網(wǎng)絡(luò)時(shí)代學(xué)習(xí)與創(chuàng)新的統(tǒng)一[J];教學(xué)研究;2002年03期
4 陳相安;把檔案部門建成學(xué)習(xí)型組織[J];中國(guó)檔案;2003年09期
5 顧新,蔡兵,李久平;學(xué)習(xí)與學(xué)習(xí)型社會(huì)[J];軟科學(xué);2004年02期
6 鄭軍;試論編輯的學(xué)習(xí)特征[J];中國(guó)編輯;2005年06期
7 邱曉榮,孔一童;試論網(wǎng)絡(luò)環(huán)境中的合作學(xué)習(xí)[J];當(dāng)代教育論壇;2005年02期
8 冷平,王仁蓉,刁永鋒;網(wǎng)絡(luò)學(xué)習(xí)的成功要素探析[J];教育信息化;2005年03期
9 張建光;朱秀娥;張笑雙;;網(wǎng)絡(luò)學(xué)習(xí)社區(qū)的特征和構(gòu)建[J];中國(guó)教育技術(shù)裝備;2006年03期
10 徐曉涌;;創(chuàng)建學(xué)習(xí)型企業(yè)莫入誤區(qū)[J];中國(guó)郵政;2006年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 韓文;;讓合作學(xué)習(xí)在逆境中重生[A];中華教育理論與實(shí)踐科研論文成果選編(第2卷)[C];2010年
2 呂啟春;;淺談小學(xué)數(shù)學(xué)中的小組合作學(xué)習(xí)[A];2014年1月現(xiàn)代教育教學(xué)探索學(xué)術(shù)交流會(huì)論文集[C];2014年
3 杜俊娟;;用學(xué)習(xí)動(dòng)機(jī)培養(yǎng)策略課題的學(xué)習(xí)對(duì)體育教師進(jìn)行研究性學(xué)習(xí)培養(yǎng)的實(shí)驗(yàn)研究[A];第七屆全國(guó)體育科學(xué)大會(huì)論文摘要匯編(一)[C];2004年
4 瞿春波;;淺議合作學(xué)習(xí)之誤區(qū)[A];校園文學(xué)編輯部寫作教學(xué)年會(huì)論文集[C];2007年
5 時(shí)龍;;把握分析學(xué)情是改進(jìn)教學(xué)和促進(jìn)學(xué)習(xí)的基礎(chǔ)[A];2012·學(xué)術(shù)前沿論叢——科學(xué)發(fā)展:深化改革與改善民生(下)[C];2012年
6 韋彩紅;;如何組織學(xué)生共享學(xué)習(xí)成果[A];中華教育理論與實(shí)踐科研論文成果選編(第2卷)[C];2010年
7 格保耿;;培養(yǎng)學(xué)生學(xué)習(xí)物理的興趣[A];2014年5月現(xiàn)代教育教學(xué)探索學(xué)術(shù)交流會(huì)論文集[C];2014年
8 鈕榮榮;;關(guān)于小學(xué)數(shù)學(xué)教學(xué)中小組合作學(xué)習(xí)的幾點(diǎn)思考[A];2014年6月現(xiàn)代教育教學(xué)探索學(xué)術(shù)交流會(huì)論文集[C];2014年
9 陳妙;;讓數(shù)學(xué)課堂效率得到真正的提高——淺談新課改下學(xué)生學(xué)習(xí)興趣的培養(yǎng)[A];中華教育理論與實(shí)踐科研論文成果選編(第3卷)[C];2010年
10 黃春妙;;淺談?wù)Z文課堂合作學(xué)習(xí)的有效把握[A];中華教育理論與實(shí)踐科研論文成果選編(第3卷)[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 農(nóng)行浙江東陽支行 吳新國(guó) 周龍飛;銀行如何創(chuàng)建學(xué)習(xí)型組織[N];上海金融報(bào);2003年
2 西北師范大學(xué) 李瑾瑜;校長(zhǎng):如何引領(lǐng)和促進(jìn)教師學(xué)習(xí)[N];中國(guó)教育報(bào);2008年
3 永壽縣店頭中學(xué) 劉俊鋒;大力提倡合作學(xué)習(xí) 全面促進(jìn)有效教學(xué)[N];咸陽日?qǐng)?bào);2009年
4 本報(bào)評(píng)論員;要在真學(xué)習(xí)上下功夫[N];酒泉日?qǐng)?bào);2009年
5 本報(bào)記者 李天然;學(xué)習(xí)應(yīng)該是一種終身行為[N];大連日?qǐng)?bào);2010年
6 劉繼芳;淺議建設(shè)學(xué)習(xí)型黨組織中的“學(xué)習(xí)”內(nèi)涵[N];伊犁日?qǐng)?bào)(漢);2010年
7 哈爾濱市第五醫(yī)院 蒙碩;淺談醫(yī)院創(chuàng)建學(xué)習(xí)型黨組織[N];黑龍江日?qǐng)?bào);2010年
8 翟愛霞;淺談如何深入推進(jìn)學(xué)習(xí)型黨組織建設(shè)[N];太行日?qǐng)?bào);2011年
9 李振 上海交通大學(xué)國(guó)際與公共事務(wù)學(xué)院;制度變遷中的制度學(xué)習(xí)[N];中國(guó)社會(huì)科學(xué)報(bào);2012年
10 重慶市教育評(píng)估院院長(zhǎng)、中國(guó)高等教育學(xué)會(huì)學(xué)習(xí)科學(xué)研究分會(huì)常務(wù)副會(huì)長(zhǎng) 龔春燕;實(shí)施新學(xué)習(xí),建設(shè)學(xué)習(xí)型社會(huì)[N];中國(guó)教育報(bào);2013年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 徐峰;基于社會(huì)網(wǎng)絡(luò)的大學(xué)生學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)研究[D];江西財(cái)經(jīng)大學(xué);2014年
2 付亦寧;本科生深層學(xué)習(xí)過程及其教學(xué)策略研究[D];蘇州大學(xué);2014年
3 張鈺e,
本文編號(hào):703271
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/703271.html