基于強(qiáng)化學(xué)習(xí)的AUV避障研究

發(fā)布時(shí)間：2017-08-26 23:32

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)的AUV避障研究

【摘要】：21世紀(jì)是海洋的世紀(jì),海洋中蘊(yùn)含著豐富的資源和無窮的奧秘亟待人們前去探索。作為探索海洋的重要工具,自主水下機(jī)器人(Autonomous Underwater Vehicle,AUV)越來越受到海洋開發(fā)和研究人員的重視。AUV是具有智能行為的高級(jí)水下機(jī)器人,它具有活動(dòng)范圍廣、機(jī)動(dòng)靈活、隱蔽性好等特點(diǎn),能夠作業(yè)于復(fù)雜的海洋環(huán)境。在具備諸多優(yōu)勢(shì)的同時(shí),AUV的應(yīng)用也面臨著一些挑戰(zhàn)。由于作業(yè)范圍較廣且常常承擔(dān)水下探索作業(yè),因此AUV往往需要作業(yè)于未知的環(huán)境中,復(fù)雜且難以預(yù)測(cè)的水下環(huán)境,對(duì)AUV的控制提出了極高的要求。其中,在AUV的局部路徑規(guī)劃中,如何使AUV順利避開障礙物,并順利到達(dá)目標(biāo),是AUV控制系統(tǒng)研究中所面臨的重要任務(wù)之一。在目前研究較多的諸多的避障方法中,人工勢(shì)場(chǎng)、人工智能、強(qiáng)化學(xué)習(xí)等方法是應(yīng)用最為廣泛的幾種。其中,強(qiáng)化學(xué)習(xí)的方法不需要先驗(yàn)知識(shí),而且具有很強(qiáng)的自學(xué)習(xí)能力,所以特別適合應(yīng)用到在未知環(huán)境下的避障,在AUV的避障中具有巨大的應(yīng)用潛力。強(qiáng)化學(xué)習(xí)歸屬于機(jī)器學(xué)習(xí),是機(jī)器學(xué)習(xí)中非常重要的一個(gè)分支。強(qiáng)化學(xué)習(xí)的過程是對(duì)環(huán)境進(jìn)行反復(fù)的試探,類似于動(dòng)物在對(duì)未知事物學(xué)習(xí)過程中經(jīng)常采用的試錯(cuò),通過學(xué)習(xí)來獲得一種在該環(huán)境下最優(yōu)的動(dòng)作策略,從而獲得最大的回報(bào)。與其他的學(xué)習(xí)策略相比,強(qiáng)化學(xué)習(xí)最大的優(yōu)勢(shì)就是不需要完備的先驗(yàn)知識(shí)甚至完全不需要先驗(yàn)知識(shí),但依然能夠保證較好的魯棒性和自適應(yīng)性。本文對(duì)基于強(qiáng)化學(xué)習(xí)的AUV二維平面避障方法進(jìn)行了研究,首先研究了強(qiáng)化學(xué)習(xí)的系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)方法,接下來對(duì)強(qiáng)化學(xué)習(xí)中輸入模塊、輸出模塊及策略模塊的具體實(shí)現(xiàn)方法進(jìn)行了研究。文中研究了Q-學(xué)習(xí)的基本原理、算法和特點(diǎn),針對(duì)Q-學(xué)習(xí)收斂速度慢的缺點(diǎn),提出了改進(jìn)辦法,提高了學(xué)習(xí)效率。在傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法中,存在著維數(shù)災(zāi)難的問題,而解決維數(shù)災(zāi)難的一個(gè)方法就是將傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法進(jìn)行泛化。本文在對(duì)Q-學(xué)習(xí)算法進(jìn)行研究和改進(jìn)的基礎(chǔ)上,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于強(qiáng)化學(xué)習(xí)算法中,利用神經(jīng)網(wǎng)絡(luò)方法強(qiáng)大的非線性處理能力,來解決維數(shù)災(zāi)難問題,提出了基于CMAC網(wǎng)絡(luò)的Q-學(xué)習(xí)算法,并將其應(yīng)用于AUV避障問題的研究中。最后,本文以AUV在二維平面中的避障為背景進(jìn)行了仿真實(shí)驗(yàn),在實(shí)驗(yàn)中分別利用常規(guī)Q-學(xué)習(xí)算法與本文所提出的改進(jìn)算法分別對(duì)AUV在二維平面中面對(duì)不同障礙時(shí)的避障路徑進(jìn)行了規(guī)劃,實(shí)驗(yàn)結(jié)果驗(yàn)證了文中所提出改進(jìn)算法的有效性。
【關(guān)鍵詞】：強(qiáng)化學(xué)習(xí) Q學(xué)習(xí) 避障 AUV 局部路徑規(guī)劃 神經(jīng)網(wǎng)絡(luò)
【學(xué)位授予單位】：沈陽建筑大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP242
【目錄】：

摘要4-5
Abstract5-11
第一章緒論11-19
1.1 研究背景11-13
1.2 國內(nèi)外研究現(xiàn)狀和發(fā)展趨勢(shì)13-14
1.3 AUV避障方法概述14-15
1.3.1 人工勢(shì)場(chǎng)法14
1.3.2 人工智能法14-15
1.3.3 強(qiáng)化學(xué)習(xí)法15
1.4 強(qiáng)化學(xué)習(xí)法研究現(xiàn)狀15-16
1.5 論文主要研究內(nèi)容16-19
第二章強(qiáng)化學(xué)習(xí)算法研究19-31
2.1 引言19-20
2.2 強(qiáng)化學(xué)習(xí)模型20-22
2.2.1 強(qiáng)化學(xué)習(xí)模型20-21
2.2.2 強(qiáng)化學(xué)習(xí)基本要素21-22
2.3 馬爾科夫決策過程22-25
2.3.1 馬爾科夫決策過程22-23
2.3.2 策略和值函數(shù)23-25
2.4 強(qiáng)化學(xué)習(xí)主要問題25
2.4.1 在線學(xué)習(xí)和離線學(xué)習(xí)25
2.4.2 延遲的回報(bào)25
2.4.3 探索與利用25
2.5 強(qiáng)化學(xué)習(xí)主要算法25-30
2.5.1 蒙特卡羅方法26
2.5.2 時(shí)間差分TD法26-28
2.5.3 Q學(xué)習(xí)28-29
2.5.4 SARSA學(xué)習(xí)29
2.5.5 Dyna學(xué)習(xí)框架29-30
2.5.6 Actor-Critic學(xué)習(xí)30
2.6 小結(jié)30-31
第三章Q學(xué)習(xí)算法改進(jìn)研究31-37
3.1 引言31
3.2 Q學(xué)習(xí)算法及其收斂性研究31-32
3.3 Q學(xué)習(xí)算法主要問題32-34
3.3.1 收斂速度問題32-33
3.3.2 信度分配問題33
3.3.3 探索與利用平衡問題33-34
3.4 Q(λ)學(xué)習(xí)34-35
3.5 小結(jié)35-37
第四章基于CMAC網(wǎng)絡(luò)的Q學(xué)習(xí)算法研究37-47
4.1 引言37
4.2 BP神經(jīng)網(wǎng)絡(luò)37-42
4.2.1 BP網(wǎng)絡(luò)的學(xué)習(xí)算法37-41
4.2.2 BP網(wǎng)絡(luò)的設(shè)計(jì)41-42
4.3 CMAC神經(jīng)網(wǎng)絡(luò)42-43
4.4 基于神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)框架43-44
4.5 基于CMAC的Q學(xué)習(xí)算法44
4.6 小結(jié)44-47
第五章基于改進(jìn)Q學(xué)習(xí)的AUV避障研究47-55
5.1 引言47
5.2 仿真實(shí)驗(yàn)設(shè)計(jì)47-48
5.2.1 環(huán)境狀態(tài)表示47
5.2.2 動(dòng)作空間表示47
5.2.3 獎(jiǎng)賞函數(shù)設(shè)計(jì)47-48
5.2.4 動(dòng)作選擇策略設(shè)計(jì)48
5.3 仿真實(shí)驗(yàn)流程48-49
5.4 仿真結(jié)果與分析49-53
5.5 小結(jié)53-55
第六章結(jié)論55-57
6.1 結(jié)論55
6.2 展望55-57
參考文獻(xiàn)57-59
作者簡介59
作者在攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文59-61
致謝61-62

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 耶曉東;;簡易避障機(jī)器人的設(shè)計(jì)[J];儀器儀表用戶;2009年01期

2 ;盲人安全避障儀[J];技術(shù)與市場(chǎng);2009年06期

3 曹瑞青;張莉;;;圖書自動(dòng)小車避障功能的設(shè)計(jì)[J];裝備制造技術(shù);2009年07期

4 黃淞;蔣雪峰;張貴冰;楊文杰;;智能語音識(shí)別避障機(jī)器人的研究與設(shè)計(jì)[J];科技風(fēng);2009年11期

5 程虹霞;駱云志;朱松柏;張春華;;多傳感器信息融合技術(shù)在無人平臺(tái)避障中的應(yīng)用[J];兵工自動(dòng)化;2010年06期

6 pvcbot;;避障小車[J];電子制作;2011年07期

7 梁山;劉娟;鮮曉東;;一種考慮機(jī)器人尺寸約束的動(dòng)態(tài)窗避障方法[J];控制工程;2011年06期

8 劉天軍;毛建秋;支波浩;武謙;朱達(dá)杰;段俊杰;;基于“慧魚”創(chuàng)意組合模型的避障機(jī)器人的設(shè)計(jì)與制作[J];常州工學(xué)院學(xué)報(bào);2012年02期

9 田國會(huì);王家超;段朋;;病房巡視機(jī)器人復(fù)雜環(huán)境下的避障技術(shù)研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年S1期

10 馬宏偉;王川偉;;煤礦救援探測(cè)機(jī)器人轉(zhuǎn)向及避障機(jī)理研究[J];制造業(yè)自動(dòng)化;2014年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫前8條

1 王世軍;韓立偉;楊宏斌;王力;;基于雷達(dá)的無人車路徑規(guī)劃與避障研究[A];2013第一屆中國指揮控制大會(huì)論文集[C];2013年

2 丁銳;喻俊志;楊清海;譚民;;基于紅外傳感器的兩棲機(jī)器人智能避障控制[A];2009年中國智能自動(dòng)化會(huì)議論文集（第七分冊(cè)）[南京理工大學(xué)學(xué)報(bào)（增刊）][C];2009年

3 徐紅麗;封錫盛;;基于事件反饋監(jiān)控的AUV模糊避障方法研究[A];2007'儀表，，自動(dòng)化及先進(jìn)集成技術(shù)大會(huì)論文集（二）[C];2007年

4 吳倚龍;韋洋;郝衛(wèi)東;;移動(dòng)機(jī)器人導(dǎo)航和避障系統(tǒng)硬件的設(shè)計(jì)[A];2004全國光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、2005全國光學(xué)與光電子學(xué)學(xué)術(shù)研討會(huì)、廣西光學(xué)學(xué)會(huì)成立20周年年會(huì)論文集[C];2005年

5 王軍;鐘志軍;黃心漢;;兩輪小車避障控制的仿真研究[A];1996中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年

6 呂春峰;朱建平;;Dijkstra算法在移動(dòng)機(jī)器人路徑規(guī)劃和避障中的應(yīng)用[A];全國煉鋼連鑄過程自動(dòng)化技術(shù)交流會(huì)論文集[C];2006年

7 張淼;汪懋華;林建涵;姚嵐;;移動(dòng)機(jī)器人超聲波測(cè)距與避障系統(tǒng)的試驗(yàn)研究[A];農(nóng)業(yè)工程科技創(chuàng)新與建設(shè)現(xiàn)代農(nóng)業(yè)——2005年中國農(nóng)業(yè)工程學(xué)會(huì)學(xué)術(shù)年會(huì)論文集第一分冊(cè)[C];2005年

8 劉征宇;夏海;畢翔;張利;;嵌入式技術(shù)在多功能小車設(shè)計(jì)中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用（CACIS）學(xué)術(shù)會(huì)議論文集（下冊(cè)）[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫前2條

1 記者胡加齊;墨西哥發(fā)明盲人電子避障裝置[N];新華每日電訊;2000年

2 本報(bào)記者柳艷芳;讓學(xué)生感受創(chuàng)造的魅力[N];天津教育報(bào);2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫前7條

1 王家亮;基于小型四軸飛行器OS/JVM的室內(nèi)避障/導(dǎo)航研究與實(shí)現(xiàn)[D];東北大學(xué);2014年

2 朱立華;無人飛行器自主檢測(cè)與避障技術(shù)研究[D];東南大學(xué);2016年

3 姚玉峰;8自由度輪式移動(dòng)操作機(jī)避障能力及其運(yùn)動(dòng)規(guī)劃方法研究[D];哈爾濱工業(yè)大學(xué);2009年

4 姚立健;茄子收獲機(jī)器人視覺系統(tǒng)和機(jī)械臂避障規(guī)劃研究[D];南京農(nóng)業(yè)大學(xué);2008年

5 戴光明;避障路徑規(guī)劃的算法研究[D];華中科技大學(xué);2004年

6 范紅;智能機(jī)器人路徑規(guī)劃及避障的研究[D];浙江大學(xué);2003年

7 李壽濤;基于行為的智能體避障控制以及動(dòng)態(tài)協(xié)作方法研究[D];吉林大學(xué);2007年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 雷遠(yuǎn)春;未知環(huán)境下多智能體協(xié)作避障方法的研究[D];寧夏大學(xué);2015年

2 劉宗來;離子型稀土礦掘進(jìn)選礦一體機(jī)掘進(jìn)路徑設(shè)計(jì)及避障研究[D];江西理工大學(xué);2015年

3 張煜;基于多傳感器數(shù)據(jù)融合的無人車避障導(dǎo)航研究[D];西安工業(yè)大學(xué);2015年

4 殷林飛;多飛行器編隊(duì)三維避障算法研究[D];南昌航空大學(xué);2015年

5 陸薇;基于超聲波傳感器的模糊避障算法仿真[D];河北科技大學(xué);2014年

6 張橋;多傳感器信息融合技術(shù)在智能車輛避障中的應(yīng)用[D];重慶交通大學(xué);2015年

7 周鈺雨;未知環(huán)境條件下機(jī)器人的避障研究[D];沈陽工業(yè)大學(xué);2016年

8 楊維;基于單目視覺的旋翼無人機(jī)自主避障研究[D];湖南工業(yè)大學(xué);2015年

9 呂丹丹;適用于小型智能車的行駛路況評(píng)價(jià)及自主避障控制研究[D];北京交通大學(xué);2016年

10 韓信;基于雙目視覺的輪式機(jī)器人動(dòng)態(tài)避障研究[D];浙江大學(xué);2016年

本文編號(hào)：743248

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/743248.html

上一篇：定位尺度和像元空間關(guān)系對(duì)GF-1亞像元定位精度影響分析
下一篇：基于多傳感器信息融合的目標(biāo)檢測(cè)及應(yīng)用技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的AUV避障研究