強化學(xué)習(xí)在移動機器人自主導(dǎo)航中的應(yīng)用研究
發(fā)布時間:2021-04-12 01:00
近年以來,機器人學(xué)越來越多地出現(xiàn)在各個領(lǐng)域之中,成為學(xué)界和業(yè)界的關(guān)注對象。機器人技術(shù)是現(xiàn)代科學(xué)理論與實踐綜合交叉的成果,是融合各個學(xué)科和技術(shù)的一門交叉學(xué)科。其中自主移動機器人是機器人學(xué)的一個重要分支。在工農(nóng)業(yè)生產(chǎn)和社會服務(wù)中,自主移動機器人都參與其中。移動機器人作為綜合各個門類的學(xué)科,包括了傳感器技術(shù),驅(qū)動技術(shù),紅外技術(shù),機械技術(shù)等等,但在移動機器人相關(guān)技術(shù)的研究中,導(dǎo)航技術(shù)是其研究核心,是為機器人學(xué)所創(chuàng),也是機器人學(xué)術(shù)界和工業(yè)界研究的熱點。機器人導(dǎo)航是所有自主導(dǎo)航機器人的技術(shù)基礎(chǔ),也是重中之重。所有需要完成一定任務(wù)的機器人都是需要首先完成導(dǎo)航任務(wù)的,例如:室內(nèi)掃地機器人,需要首選完成室內(nèi)建圖、然后路徑規(guī)劃、最后導(dǎo)航,最后完成掃地的任務(wù);又如安防機器人,通常也是將各項功能都置于導(dǎo)航任務(wù)之上,如在導(dǎo)航過程中檢測行人,按照指定路線行走等。本論文主要借助強化學(xué)習(xí)和深度學(xué)習(xí)技術(shù)中的兩種算法,加以改進(jìn)后應(yīng)用到機器人導(dǎo)航中,并最終在自制的機器人3D仿真環(huán)境中進(jìn)行驗證。本論文主要工作敘述如下:(1)說明了仿真環(huán)境的搭建過程,以及對仿真環(huán)境的優(yōu)化,并測試了其正確性。(2)保留原DQN在圖像處理上的優(yōu)越...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
三層感知機
電子科技大學(xué)碩士學(xué)位論文1、卷積結(jié)構(gòu)卷積是通過兩個函數(shù)f,g生成第三個函數(shù)的一種數(shù)學(xué)算子,表征著與經(jīng)過翻轉(zhuǎn)和平移的重疊部分的面積。數(shù)學(xué)定義如下:h(x)=f(x)g(x)=f(t)g(xt),dt在卷積神經(jīng)網(wǎng)絡(luò)中是用了離散卷積,在輸入的對應(yīng)位置進(jìn)行加權(quán)運算。這個過程中使用到的卷積算子就是卷積核,卷積核確定了對輸入中進(jìn)行加權(quán)的范圍和權(quán)值。卷積過程如下:圖2-2卷積過程上圖演示了3*3卷積進(jìn)行步長為3的卷積并得到特征圖的過程。2、感受野與權(quán)值共享卷積過程是一個特征提取的過程,也是參數(shù)簡化并同時使得網(wǎng)絡(luò)具有位移、尺度、縮放等形變穩(wěn)定性的過程。這主要得益于局部感受野和權(quán)值共享。3、局部感受野:由于圖像中像素,存在局部的空間聯(lián)系,所以,神經(jīng)元不需要對全部的圖像做運算,只是接受局部區(qū)域的特征即可,在更高層,將不同的局部神經(jīng)元進(jìn)一步綜合,以得到全局的信息,這樣可以減少連接數(shù)目。4、權(quán)值共享:不同神經(jīng)元之間的參數(shù)共享可以減少需要求解的參數(shù),使用多種卷積核去卷積圖像會得到多種特征映射。權(quán)值共享就是對圖像用同樣的卷積核進(jìn)行操作,使得第一個隱藏層的所有神經(jīng)元都能檢測到圖像不同位置處的同類特征,這就是神經(jīng)網(wǎng)絡(luò)具有較好的平移不變性的基矗2.1.3自編碼網(wǎng)絡(luò)自編碼網(wǎng)絡(luò)(AutoEncoder)是無監(jiān)督神經(jīng)網(wǎng)絡(luò)的一種,由1986年Rumelhart提出。自編碼網(wǎng)絡(luò)主要用于處理無標(biāo)注數(shù)據(jù),其由三層或大于三層的全連接層結(jié)構(gòu)組成,在形式上呈現(xiàn)對稱的結(jié)構(gòu)。下圖即為一個三層的自編碼網(wǎng)絡(luò)。其中Layer1為輸入層,Layer3為輸出層。輸出層神經(jīng)元數(shù)量完全和輸入層相同,隱藏層數(shù)量少于輸入輸出,當(dāng)隱藏層不只有一層時,隱藏層呈現(xiàn)神經(jīng)元數(shù)量逐層遞減又對稱增加的規(guī)律。10
三層自編碼網(wǎng)絡(luò)
【參考文獻(xiàn)】:
期刊論文
[1]模仿學(xué)習(xí)方法綜述及其在機器人領(lǐng)域的應(yīng)用[J]. 李帥龍,張會文,周維佳. 計算機工程與應(yīng)用. 2019(04)
[2]基于ORB特征和LK光流的視覺里程計算法[J]. 齊乃新,楊小岡,李小峰,張勝修,曹立佳. 儀器儀表學(xué)報. 2018(12)
[3]BDS卡爾曼濾波網(wǎng)格偽距差分定位精度分析[J]. 余夢洋,秘金鐘,方書山,谷守周,劉一,張洪文,宋傳峰,王俊. 導(dǎo)航定位學(xué)報. 2018(04)
[4]改進(jìn)卡爾曼濾波的對流層散射多徑噪聲抑制方法[J]. 吳文溢,熊益波,王雷元,李艷潔,陳西宏. 探測與控制學(xué)報. 2018(05)
[5]自主移動機器人路徑規(guī)劃方法研究綜述[J]. 皇甫淑云,唐守鋒,童紫原,宋彬,童敏明. 軟件導(dǎo)刊. 2018(10)
[6]基于多傳感器融合的多旋翼無人機近地面定位算法[J]. 王洲,楊明欣,王新媛. 成都信息工程大學(xué)學(xué)報. 2018(03)
[7]全方位移動機器人研究綜述[J]. 賈茜,汪木蘭,劉樹青,朱鋼. 制造業(yè)自動化. 2015(07)
[8]基于K-means算法的溫室移動機器人導(dǎo)航路徑識別[J]. 高國琴,李明. 農(nóng)業(yè)工程學(xué)報. 2014(07)
[9]基于慣性導(dǎo)航與立體視覺的風(fēng)管清掃機器人同時定位與地圖創(chuàng)建方法[J]. 王聰,孫煒,卜德旭,周志偉. 機械工程學(xué)報. 2013(23)
[10]室內(nèi)慣性/視覺組合導(dǎo)航地面圖像分割算法[J]. 汪劍鳴,王曦,王勝蓓,李士心,冷宇. 中國慣性技術(shù)學(xué)報. 2011(05)
碩士論文
[1]基于深度環(huán)境理解和行為模仿的強化學(xué)習(xí)智能體設(shè)計[D]. 喻杉.浙江大學(xué) 2019
[2]基于軌跡匹配的模仿學(xué)習(xí)在類人機器人運動行為中的研究[D]. 門玉森.北京工業(yè)大學(xué) 2016
[3]基于地面特征識別的室內(nèi)機器人視覺導(dǎo)航[D]. 杜娟.武漢理工大學(xué) 2006
本文編號:3132294
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
三層感知機
電子科技大學(xué)碩士學(xué)位論文1、卷積結(jié)構(gòu)卷積是通過兩個函數(shù)f,g生成第三個函數(shù)的一種數(shù)學(xué)算子,表征著與經(jīng)過翻轉(zhuǎn)和平移的重疊部分的面積。數(shù)學(xué)定義如下:h(x)=f(x)g(x)=f(t)g(xt),dt在卷積神經(jīng)網(wǎng)絡(luò)中是用了離散卷積,在輸入的對應(yīng)位置進(jìn)行加權(quán)運算。這個過程中使用到的卷積算子就是卷積核,卷積核確定了對輸入中進(jìn)行加權(quán)的范圍和權(quán)值。卷積過程如下:圖2-2卷積過程上圖演示了3*3卷積進(jìn)行步長為3的卷積并得到特征圖的過程。2、感受野與權(quán)值共享卷積過程是一個特征提取的過程,也是參數(shù)簡化并同時使得網(wǎng)絡(luò)具有位移、尺度、縮放等形變穩(wěn)定性的過程。這主要得益于局部感受野和權(quán)值共享。3、局部感受野:由于圖像中像素,存在局部的空間聯(lián)系,所以,神經(jīng)元不需要對全部的圖像做運算,只是接受局部區(qū)域的特征即可,在更高層,將不同的局部神經(jīng)元進(jìn)一步綜合,以得到全局的信息,這樣可以減少連接數(shù)目。4、權(quán)值共享:不同神經(jīng)元之間的參數(shù)共享可以減少需要求解的參數(shù),使用多種卷積核去卷積圖像會得到多種特征映射。權(quán)值共享就是對圖像用同樣的卷積核進(jìn)行操作,使得第一個隱藏層的所有神經(jīng)元都能檢測到圖像不同位置處的同類特征,這就是神經(jīng)網(wǎng)絡(luò)具有較好的平移不變性的基矗2.1.3自編碼網(wǎng)絡(luò)自編碼網(wǎng)絡(luò)(AutoEncoder)是無監(jiān)督神經(jīng)網(wǎng)絡(luò)的一種,由1986年Rumelhart提出。自編碼網(wǎng)絡(luò)主要用于處理無標(biāo)注數(shù)據(jù),其由三層或大于三層的全連接層結(jié)構(gòu)組成,在形式上呈現(xiàn)對稱的結(jié)構(gòu)。下圖即為一個三層的自編碼網(wǎng)絡(luò)。其中Layer1為輸入層,Layer3為輸出層。輸出層神經(jīng)元數(shù)量完全和輸入層相同,隱藏層數(shù)量少于輸入輸出,當(dāng)隱藏層不只有一層時,隱藏層呈現(xiàn)神經(jīng)元數(shù)量逐層遞減又對稱增加的規(guī)律。10
三層自編碼網(wǎng)絡(luò)
【參考文獻(xiàn)】:
期刊論文
[1]模仿學(xué)習(xí)方法綜述及其在機器人領(lǐng)域的應(yīng)用[J]. 李帥龍,張會文,周維佳. 計算機工程與應(yīng)用. 2019(04)
[2]基于ORB特征和LK光流的視覺里程計算法[J]. 齊乃新,楊小岡,李小峰,張勝修,曹立佳. 儀器儀表學(xué)報. 2018(12)
[3]BDS卡爾曼濾波網(wǎng)格偽距差分定位精度分析[J]. 余夢洋,秘金鐘,方書山,谷守周,劉一,張洪文,宋傳峰,王俊. 導(dǎo)航定位學(xué)報. 2018(04)
[4]改進(jìn)卡爾曼濾波的對流層散射多徑噪聲抑制方法[J]. 吳文溢,熊益波,王雷元,李艷潔,陳西宏. 探測與控制學(xué)報. 2018(05)
[5]自主移動機器人路徑規(guī)劃方法研究綜述[J]. 皇甫淑云,唐守鋒,童紫原,宋彬,童敏明. 軟件導(dǎo)刊. 2018(10)
[6]基于多傳感器融合的多旋翼無人機近地面定位算法[J]. 王洲,楊明欣,王新媛. 成都信息工程大學(xué)學(xué)報. 2018(03)
[7]全方位移動機器人研究綜述[J]. 賈茜,汪木蘭,劉樹青,朱鋼. 制造業(yè)自動化. 2015(07)
[8]基于K-means算法的溫室移動機器人導(dǎo)航路徑識別[J]. 高國琴,李明. 農(nóng)業(yè)工程學(xué)報. 2014(07)
[9]基于慣性導(dǎo)航與立體視覺的風(fēng)管清掃機器人同時定位與地圖創(chuàng)建方法[J]. 王聰,孫煒,卜德旭,周志偉. 機械工程學(xué)報. 2013(23)
[10]室內(nèi)慣性/視覺組合導(dǎo)航地面圖像分割算法[J]. 汪劍鳴,王曦,王勝蓓,李士心,冷宇. 中國慣性技術(shù)學(xué)報. 2011(05)
碩士論文
[1]基于深度環(huán)境理解和行為模仿的強化學(xué)習(xí)智能體設(shè)計[D]. 喻杉.浙江大學(xué) 2019
[2]基于軌跡匹配的模仿學(xué)習(xí)在類人機器人運動行為中的研究[D]. 門玉森.北京工業(yè)大學(xué) 2016
[3]基于地面特征識別的室內(nèi)機器人視覺導(dǎo)航[D]. 杜娟.武漢理工大學(xué) 2006
本文編號:3132294
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3132294.html
最近更新
教材專著