基于深度學習的動態(tài)場景語義SLAM
發(fā)布時間:2021-09-07 00:35
提出一種利用深度學習提高動態(tài)環(huán)境下視覺語義即時定位與地圖構建(SLAM)的方法.首先用實例分割網絡對關鍵幀進行實例分割,建立先驗語義信息;然后計算特征點光流場對物體進一步區(qū)分,識別出場景真正運動物體并將屬于動態(tài)物體的特征點去除;最后進行語義關聯,建立無動態(tài)物體干擾的語義地圖.將本文方法在室內環(huán)境公開數據集中測試,結果表明該方法可有效消除動態(tài)物體對建圖的影響,提高建圖精度.
【文章來源】:華中科技大學學報(自然科學版). 2020,48(01)北大核心EICSCD
【文章頁數】:6 頁
【部分圖文】:
算法流程Mask-RCNN[9]是在Faster-RCNN基礎上擴展了
第1期房立金,等:基于深度學習的動態(tài)場景語義SLAM·125·圖3序列估計值與真實值之間的誤差曲線4.2三維點云地圖語義匹配實驗在點云實驗過程中,通過Mask-RCNN深度學習網絡的語義信息結合光流場可去除動態(tài)特征點,進而計算出動態(tài)環(huán)境下相機軌跡.通過相機軌跡與深度圖可計算出相機運動過程中的三維點云地圖,如圖4所示.若不考慮動態(tài)場景中人物變化,則產生圖4(a)效果,這不利于機器人導航任務.圖4(e)為深度圖像經過區(qū)域生長之后物體邊緣示意圖.相比于神經網絡的直接輸出邊緣信息(圖4(c)),圖4(e)所采用的圖4三維點云地圖方法更加貼合深度圖像.從圖4(f)可以看出:彩色圖像的語義信息與深度圖像邊緣互相融合投影到三維點云空間中,不再存在邊緣不對齊的現象.經過動態(tài)物體刪除之后的語義地圖如圖4(b)所示,場景中移動的人被去除,右側座椅因在序列前段并未移動,保留了部分信息.相比于圖4(a),圖4(b)更具有可讀性,可用于機器人的室內導航等任務.在實時性方面,本實驗采用INTERi7CPU,內存8GiB,NVIDIA2080TIGPU,顯存16GiB進行實驗.光流計算是建立在特征提取的基礎上進行的,因為僅跟蹤特征點光流信息,克服了直接法中的對所有像素進行計算的缺點,所以第一線程速度可達30幀/s.受限于GPU計算能力,深度學習網絡Mask-RCNN在本實驗計算機上速度為5~6幀/s,所以受第二線程影響,總計算速度為5幀/s左右,基本達到實時要求.5結語通過實例分割網絡Mask-RCNN對視覺SLAM中的關鍵幀,賦予圖像語義信息,再由光流計算背景運動閾值,并分辨出實例中運動物體.相比于僅
本文編號:3388500
【文章來源】:華中科技大學學報(自然科學版). 2020,48(01)北大核心EICSCD
【文章頁數】:6 頁
【部分圖文】:
算法流程Mask-RCNN[9]是在Faster-RCNN基礎上擴展了
第1期房立金,等:基于深度學習的動態(tài)場景語義SLAM·125·圖3序列估計值與真實值之間的誤差曲線4.2三維點云地圖語義匹配實驗在點云實驗過程中,通過Mask-RCNN深度學習網絡的語義信息結合光流場可去除動態(tài)特征點,進而計算出動態(tài)環(huán)境下相機軌跡.通過相機軌跡與深度圖可計算出相機運動過程中的三維點云地圖,如圖4所示.若不考慮動態(tài)場景中人物變化,則產生圖4(a)效果,這不利于機器人導航任務.圖4(e)為深度圖像經過區(qū)域生長之后物體邊緣示意圖.相比于神經網絡的直接輸出邊緣信息(圖4(c)),圖4(e)所采用的圖4三維點云地圖方法更加貼合深度圖像.從圖4(f)可以看出:彩色圖像的語義信息與深度圖像邊緣互相融合投影到三維點云空間中,不再存在邊緣不對齊的現象.經過動態(tài)物體刪除之后的語義地圖如圖4(b)所示,場景中移動的人被去除,右側座椅因在序列前段并未移動,保留了部分信息.相比于圖4(a),圖4(b)更具有可讀性,可用于機器人的室內導航等任務.在實時性方面,本實驗采用INTERi7CPU,內存8GiB,NVIDIA2080TIGPU,顯存16GiB進行實驗.光流計算是建立在特征提取的基礎上進行的,因為僅跟蹤特征點光流信息,克服了直接法中的對所有像素進行計算的缺點,所以第一線程速度可達30幀/s.受限于GPU計算能力,深度學習網絡Mask-RCNN在本實驗計算機上速度為5~6幀/s,所以受第二線程影響,總計算速度為5幀/s左右,基本達到實時要求.5結語通過實例分割網絡Mask-RCNN對視覺SLAM中的關鍵幀,賦予圖像語義信息,再由光流計算背景運動閾值,并分辨出實例中運動物體.相比于僅
本文編號:3388500
本文鏈接:http://sikaile.net/kejilunwen/dizhicehuilunwen/3388500.html