基于強(qiáng)化學(xué)習(xí)的AUV避障研究
本文關(guān)鍵詞:基于強(qiáng)化學(xué)習(xí)的AUV避障研究
更多相關(guān)文章: 強(qiáng)化學(xué)習(xí) Q學(xué)習(xí) 避障 AUV 局部路徑規(guī)劃 神經(jīng)網(wǎng)絡(luò)
【摘要】:21世紀(jì)是海洋的世紀(jì),海洋中蘊(yùn)含著豐富的資源和無窮的奧秘亟待人們前去探索。作為探索海洋的重要工具,自主水下機(jī)器人(Autonomous Underwater Vehicle,AUV)越來越受到海洋開發(fā)和研究人員的重視。AUV是具有智能行為的高級(jí)水下機(jī)器人,它具有活動(dòng)范圍廣、機(jī)動(dòng)靈活、隱蔽性好等特點(diǎn),能夠作業(yè)于復(fù)雜的海洋環(huán)境。在具備諸多優(yōu)勢(shì)的同時(shí),AUV的應(yīng)用也面臨著一些挑戰(zhàn)。由于作業(yè)范圍較廣且常常承擔(dān)水下探索作業(yè),因此AUV往往需要作業(yè)于未知的環(huán)境中,復(fù)雜且難以預(yù)測(cè)的水下環(huán)境,對(duì)AUV的控制提出了極高的要求。其中,在AUV的局部路徑規(guī)劃中,如何使AUV順利避開障礙物,并順利到達(dá)目標(biāo),是AUV控制系統(tǒng)研究中所面臨的重要任務(wù)之一。在目前研究較多的諸多的避障方法中,人工勢(shì)場(chǎng)、人工智能、強(qiáng)化學(xué)習(xí)等方法是應(yīng)用最為廣泛的幾種。其中,強(qiáng)化學(xué)習(xí)的方法不需要先驗(yàn)知識(shí),而且具有很強(qiáng)的自學(xué)習(xí)能力,所以特別適合應(yīng)用到在未知環(huán)境下的避障,在AUV的避障中具有巨大的應(yīng)用潛力。強(qiáng)化學(xué)習(xí)歸屬于機(jī)器學(xué)習(xí),是機(jī)器學(xué)習(xí)中非常重要的一個(gè)分支。強(qiáng)化學(xué)習(xí)的過程是對(duì)環(huán)境進(jìn)行反復(fù)的試探,類似于動(dòng)物在對(duì)未知事物學(xué)習(xí)過程中經(jīng)常采用的試錯(cuò),通過學(xué)習(xí)來獲得一種在該環(huán)境下最優(yōu)的動(dòng)作策略,從而獲得最大的回報(bào)。與其他的學(xué)習(xí)策略相比,強(qiáng)化學(xué)習(xí)最大的優(yōu)勢(shì)就是不需要完備的先驗(yàn)知識(shí)甚至完全不需要先驗(yàn)知識(shí),但依然能夠保證較好的魯棒性和自適應(yīng)性。本文對(duì)基于強(qiáng)化學(xué)習(xí)的AUV二維平面避障方法進(jìn)行了研究,首先研究了強(qiáng)化學(xué)習(xí)的系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)方法,接下來對(duì)強(qiáng)化學(xué)習(xí)中輸入模塊、輸出模塊及策略模塊的具體實(shí)現(xiàn)方法進(jìn)行了研究。文中研究了Q-學(xué)習(xí)的基本原理、算法和特點(diǎn),針對(duì)Q-學(xué)習(xí)收斂速度慢的缺點(diǎn),提出了改進(jìn)辦法,提高了學(xué)習(xí)效率。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中,存在著維數(shù)災(zāi)難的問題,而解決維數(shù)災(zāi)難的一個(gè)方法就是將傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法進(jìn)行泛化。本文在對(duì)Q-學(xué)習(xí)算法進(jìn)行研究和改進(jìn)的基礎(chǔ)上,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí)算法中,利用神經(jīng)網(wǎng)絡(luò)方法強(qiáng)大的非線性處理能力,來解決維數(shù)災(zāi)難問題,提出了基于CMAC網(wǎng)絡(luò)的Q-學(xué)習(xí)算法,并將其應(yīng)用于AUV避障問題的研究中。最后,本文以AUV在二維平面中的避障為背景進(jìn)行了仿真實(shí)驗(yàn),在實(shí)驗(yàn)中分別利用常規(guī)Q-學(xué)習(xí)算法與本文所提出的改進(jìn)算法分別對(duì)AUV在二維平面中面對(duì)不同障礙時(shí)的避障路徑進(jìn)行了規(guī)劃,實(shí)驗(yàn)結(jié)果驗(yàn)證了文中所提出改進(jìn)算法的有效性。
【關(guān)鍵詞】:強(qiáng)化學(xué)習(xí) Q學(xué)習(xí) 避障 AUV 局部路徑規(guī)劃 神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】:沈陽建筑大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP242
【目錄】:
- 摘要4-5
- Abstract5-11
- 第一章 緒論11-19
- 1.1 研究背景11-13
- 1.2 國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢(shì)13-14
- 1.3 AUV避障方法概述14-15
- 1.3.1 人工勢(shì)場(chǎng)法14
- 1.3.2 人工智能法14-15
- 1.3.3 強(qiáng)化學(xué)習(xí)法15
- 1.4 強(qiáng)化學(xué)習(xí)法研究現(xiàn)狀15-16
- 1.5 論文主要研究內(nèi)容16-19
- 第二章 強(qiáng)化學(xué)習(xí)算法研究19-31
- 2.1 引言19-20
- 2.2 強(qiáng)化學(xué)習(xí)模型20-22
- 2.2.1 強(qiáng)化學(xué)習(xí)模型20-21
- 2.2.2 強(qiáng)化學(xué)習(xí)基本要素21-22
- 2.3 馬爾科夫決策過程22-25
- 2.3.1 馬爾科夫決策過程22-23
- 2.3.2 策略和值函數(shù)23-25
- 2.4 強(qiáng)化學(xué)習(xí)主要問題25
- 2.4.1 在線學(xué)習(xí)和離線學(xué)習(xí)25
- 2.4.2 延遲的回報(bào)25
- 2.4.3 探索與利用25
- 2.5 強(qiáng)化學(xué)習(xí)主要算法25-30
- 2.5.1 蒙特卡羅方法26
- 2.5.2 時(shí)間差分TD法26-28
- 2.5.3 Q學(xué)習(xí)28-29
- 2.5.4 SARSA學(xué)習(xí)29
- 2.5.5 Dyna學(xué)習(xí)框架29-30
- 2.5.6 Actor-Critic學(xué)習(xí)30
- 2.6 小結(jié)30-31
- 第三章Q學(xué)習(xí)算法改進(jìn)研究31-37
- 3.1 引言31
- 3.2 Q學(xué)習(xí)算法及其收斂性研究31-32
- 3.3 Q學(xué)習(xí)算法主要問題32-34
- 3.3.1 收斂速度問題32-33
- 3.3.2 信度分配問題33
- 3.3.3 探索與利用平衡問題33-34
- 3.4 Q(λ)學(xué)習(xí)34-35
- 3.5 小結(jié)35-37
- 第四章 基于CMAC網(wǎng)絡(luò)的Q學(xué)習(xí)算法研究37-47
- 4.1 引言37
- 4.2 BP神經(jīng)網(wǎng)絡(luò)37-42
- 4.2.1 BP網(wǎng)絡(luò)的學(xué)習(xí)算法37-41
- 4.2.2 BP網(wǎng)絡(luò)的設(shè)計(jì)41-42
- 4.3 CMAC神經(jīng)網(wǎng)絡(luò)42-43
- 4.4 基于神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)框架43-44
- 4.5 基于CMAC的Q學(xué)習(xí)算法44
- 4.6 小結(jié)44-47
- 第五章 基于改進(jìn)Q學(xué)習(xí)的AUV避障研究47-55
- 5.1 引言47
- 5.2 仿真實(shí)驗(yàn)設(shè)計(jì)47-48
- 5.2.1 環(huán)境狀態(tài)表示47
- 5.2.2 動(dòng)作空間表示47
- 5.2.3 獎(jiǎng)賞函數(shù)設(shè)計(jì)47-48
- 5.2.4 動(dòng)作選擇策略設(shè)計(jì)48
- 5.3 仿真實(shí)驗(yàn)流程48-49
- 5.4 仿真結(jié)果與分析49-53
- 5.5 小結(jié)53-55
- 第六章 結(jié)論55-57
- 6.1 結(jié)論55
- 6.2 展望55-57
- 參考文獻(xiàn)57-59
- 作者簡介59
- 作者在攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59-61
- 致謝61-62
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 耶曉東;;簡易避障機(jī)器人的設(shè)計(jì)[J];儀器儀表用戶;2009年01期
2 ;盲人安全避障儀[J];技術(shù)與市場(chǎng);2009年06期
3 曹瑞青;張莉;;;圖書自動(dòng)小車避障功能的設(shè)計(jì)[J];裝備制造技術(shù);2009年07期
4 黃淞;蔣雪峰;張貴冰;楊文杰;;智能語音識(shí)別避障機(jī)器人的研究與設(shè)計(jì)[J];科技風(fēng);2009年11期
5 程虹霞;駱云志;朱松柏;張春華;;多傳感器信息融合技術(shù)在無人平臺(tái)避障中的應(yīng)用[J];兵工自動(dòng)化;2010年06期
6 pvcbot;;避障小車[J];電子制作;2011年07期
7 梁山;劉娟;鮮曉東;;一種考慮機(jī)器人尺寸約束的動(dòng)態(tài)窗避障方法[J];控制工程;2011年06期
8 劉天軍;毛建秋;支波浩;武謙;朱達(dá)杰;段俊杰;;基于“慧魚”創(chuàng)意組合模型的避障機(jī)器人的設(shè)計(jì)與制作[J];常州工學(xué)院學(xué)報(bào);2012年02期
9 田國會(huì);王家超;段朋;;病房巡視機(jī)器人復(fù)雜環(huán)境下的避障技術(shù)研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期
10 馬宏偉;王川偉;;煤礦救援探測(cè)機(jī)器人轉(zhuǎn)向及避障機(jī)理研究[J];制造業(yè)自動(dòng)化;2014年04期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前8條
1 王世軍;韓立偉;楊宏斌;王力;;基于雷達(dá)的無人車路徑規(guī)劃與避障研究[A];2013第一屆中國指揮控制大會(huì)論文集[C];2013年
2 丁銳;喻俊志;楊清海;譚民;;基于紅外傳感器的兩棲機(jī)器人智能避障控制[A];2009年中國智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年
3 徐紅麗;封錫盛;;基于事件反饋監(jiān)控的AUV模糊避障方法研究[A];2007'儀表,,自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集(二)[C];2007年
4 吳倚龍;韋洋;郝衛(wèi)東;;移動(dòng)機(jī)器人導(dǎo)航和避障系統(tǒng)硬件的設(shè)計(jì)[A];2004全國光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、2005全國光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、廣西光學(xué)學(xué)會(huì)成立20周年年會(huì)論文集[C];2005年
5 王軍;鐘志軍;黃心漢;;兩輪小車避障控制的仿真研究[A];1996中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年
6 呂春峰;朱建平;;Dijkstra算法在移動(dòng)機(jī)器人路徑規(guī)劃和避障中的應(yīng)用[A];全國煉鋼連鑄過程自動(dòng)化技術(shù)交流會(huì)論文集[C];2006年
7 張淼;汪懋華;林建涵;姚嵐;;移動(dòng)機(jī)器人超聲波測(cè)距與避障系統(tǒng)的試驗(yàn)研究[A];農(nóng)業(yè)工程科技創(chuàng)新與建設(shè)現(xiàn)代農(nóng)業(yè)——2005年中國農(nóng)業(yè)工程學(xué)會(huì)學(xué)術(shù)年會(huì)論文集第一分冊(cè)[C];2005年
8 劉征宇;夏海;畢翔;張利;;嵌入式技術(shù)在多功能小車設(shè)計(jì)中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前2條
1 記者 胡加齊;墨西哥發(fā)明盲人電子避障裝置[N];新華每日電訊;2000年
2 本報(bào)記者 柳艷芳;讓學(xué)生感受創(chuàng)造的魅力[N];天津教育報(bào);2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 王家亮;基于小型四軸飛行器OS/JVM的室內(nèi)避障/導(dǎo)航研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
2 朱立華;無人飛行器自主檢測(cè)與避障技術(shù)研究[D];東南大學(xué);2016年
3 姚玉峰;8自由度輪式移動(dòng)操作機(jī)避障能力及其運(yùn)動(dòng)規(guī)劃方法研究[D];哈爾濱工業(yè)大學(xué);2009年
4 姚立健;茄子收獲機(jī)器人視覺系統(tǒng)和機(jī)械臂避障規(guī)劃研究[D];南京農(nóng)業(yè)大學(xué);2008年
5 戴光明;避障路徑規(guī)劃的算法研究[D];華中科技大學(xué);2004年
6 范紅;智能機(jī)器人路徑規(guī)劃及避障的研究[D];浙江大學(xué);2003年
7 李壽濤;基于行為的智能體避障控制以及動(dòng)態(tài)協(xié)作方法研究[D];吉林大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 雷遠(yuǎn)春;未知環(huán)境下多智能體協(xié)作避障方法的研究[D];寧夏大學(xué);2015年
2 劉宗來;離子型稀土礦掘進(jìn)選礦一體機(jī)掘進(jìn)路徑設(shè)計(jì)及避障研究[D];江西理工大學(xué);2015年
3 張煜;基于多傳感器數(shù)據(jù)融合的無人車避障導(dǎo)航研究[D];西安工業(yè)大學(xué);2015年
4 殷林飛;多飛行器編隊(duì)三維避障算法研究[D];南昌航空大學(xué);2015年
5 陸薇;基于超聲波傳感器的模糊避障算法仿真[D];河北科技大學(xué);2014年
6 張橋;多傳感器信息融合技術(shù)在智能車輛避障中的應(yīng)用[D];重慶交通大學(xué);2015年
7 周鈺雨;未知環(huán)境條件下機(jī)器人的避障研究[D];沈陽工業(yè)大學(xué);2016年
8 楊維;基于單目視覺的旋翼無人機(jī)自主避障研究[D];湖南工業(yè)大學(xué);2015年
9 呂丹丹;適用于小型智能車的行駛路況評(píng)價(jià)及自主避障控制研究[D];北京交通大學(xué);2016年
10 韓信;基于雙目視覺的輪式機(jī)器人動(dòng)態(tài)避障研究[D];浙江大學(xué);2016年
本文編號(hào):743248
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/743248.html