基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人自動(dòng)抓取規(guī)劃研究
發(fā)布時(shí)間:2021-09-02 20:39
隨著大數(shù)據(jù)時(shí)代的到來(lái)以及硬件計(jì)算力的提升,近幾年以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)等領(lǐng)域取得了巨大突破。由于卷積神經(jīng)網(wǎng)絡(luò)可以面向不同任務(wù)通過(guò)訓(xùn)練從數(shù)據(jù)中學(xué)習(xí)得到效果超過(guò)人工設(shè)計(jì)特征的能力,目前在機(jī)器人的目標(biāo)識(shí)別,目標(biāo)檢測(cè)等領(lǐng)域已有廣泛應(yīng)用。本文針對(duì)智能機(jī)器人在倉(cāng)儲(chǔ)物流,家庭服務(wù)等行業(yè)需要能夠在復(fù)雜的非結(jié)構(gòu)化環(huán)境中對(duì)物體進(jìn)行抓取的這一需求,對(duì)卷積神經(jīng)網(wǎng)絡(luò)在機(jī)器人抓取規(guī)劃中的應(yīng)用進(jìn)行了詳細(xì)研究,提出了兩種能在非結(jié)構(gòu)化環(huán)境對(duì)物體進(jìn)行抓取規(guī)劃的抓取檢測(cè)網(wǎng)絡(luò),建立了完整的機(jī)器人自動(dòng)抓取規(guī)劃系統(tǒng),并通過(guò)實(shí)驗(yàn)驗(yàn)證了本文提出的自動(dòng)抓取規(guī)劃方法的實(shí)際可行性。本文首先建立了完整的機(jī)器人自動(dòng)抓取規(guī)劃系統(tǒng)框架,并對(duì)自動(dòng)抓取規(guī)劃系統(tǒng)中的深度相機(jī)模型,機(jī)器人抓取模型以及基于卷積神經(jīng)網(wǎng)絡(luò)的抓取規(guī)劃模型進(jìn)行了建模,確定了抓取的表達(dá)方法,為后續(xù)算法研究提供了理論基礎(chǔ);诮⒑玫淖ト∫(guī)劃系統(tǒng)框架及模型,本文首先提出了先采樣候選抓取再分類的抓取檢測(cè)網(wǎng)絡(luò)GDN。該網(wǎng)絡(luò)創(chuàng)新性地同時(shí)以輸入圖片和抓取角度為輸入,使得不同抓取角度的預(yù)測(cè)互相獨(dú)立,更符合抓取檢測(cè)的實(shí)際情況,并通過(guò)遷移學(xué)習(xí)利用了Image Net預(yù)訓(xùn)練的高...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:100 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖 1-2AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)示意圖[2]在 2013 年,Zeiler 等人提出了 ZFNet[4],并獲得了 ILSVRC 2013 的冠軍,其Top-5 錯(cuò)誤率為 11.7%,該網(wǎng)絡(luò)主要是對(duì) AlexNet 進(jìn)行了一些超參數(shù)上的優(yōu)化提升了性能,比如第一層卷積層從 AlexNet 步長(zhǎng)為 4 的 × 卷積核變?yōu)椴介L(zhǎng)為 2 的 × 卷積核,每個(gè)卷積層的卷積核數(shù)目從 384、384、256 變?yōu)?512、1024、512。VGG 網(wǎng)絡(luò)[5]是牛津大學(xué) VisualGeometryGroup 提出的圖像識(shí)別 CNN 結(jié)構(gòu),主要貢獻(xiàn)是表明增加網(wǎng)絡(luò)的深度能夠在一定程度上改善網(wǎng)絡(luò)的性能,VGG-16(13 個(gè)卷積層及 3 個(gè)全連接層)在 ILSVRC2014 上的 Top-5 錯(cuò)誤率為 7.3%,獲得了第二名。它將 AlexNet 中使用的寬度較大的 11 和 5 的卷積核替換成為了寬度為 3 的卷積核,原因是兩個(gè)堆疊起來(lái)的 × 卷積層和一個(gè) × 的卷積層具有相同的感受野,三個(gè)堆疊起來(lái)的 × 卷積層和一個(gè) × 的卷積層具有相同的感受野,既通過(guò)多層小卷積核的卷積層替代單層大卷積核的卷積層,這樣可以增加非線性變換的次數(shù)提高網(wǎng)絡(luò)的表達(dá)能力,且多個(gè)小卷積核的參數(shù)比一個(gè)大卷積核參數(shù)少。GoogLeNet[6]是 Google 在 2014 年提出的一種 22 層的 CNN 結(jié)構(gòu),并獲得了ILSVRC 2014 的冠軍,Top-5 錯(cuò)誤率為 6.7%。GoogLeNet 的主要?jiǎng)?chuàng)新是采用了
PixelGDN-InceptionResnet-2深度特征提取32@conv 9×916@conv 5×58@conv 3×3融合特征提取2@ inception-resnet block8@deconv 3×316@deconv 5×532@deconv 9×936.D 寬度回歸3 訓(xùn)練數(shù)據(jù)集.1 康奈爾抓取數(shù)據(jù)集康奈爾抓取數(shù)據(jù)集[34]是近幾年抓取姿態(tài)檢測(cè)研究中常用的數(shù)據(jù)集,其中包0 種不同物體從不同角度拍攝的一共 885 張圖片,每張圖片對(duì)應(yīng)著一個(gè)點(diǎn)云和人工標(biāo)注的抓取框。整個(gè)數(shù)據(jù)集中一共包含有 5110 個(gè)正例抓取框和 2909例抓取框,每個(gè)抓取框用方框的四個(gè)角點(diǎn)表示,且前兩個(gè)角點(diǎn)的連線表示二手張開的方向。對(duì)于點(diǎn)云文件,本文將其轉(zhuǎn)化為深度圖并將壞點(diǎn)置為 0。圖示為康奈爾抓取數(shù)據(jù)集中的一些示例圖片。
【參考文獻(xiàn)】:
博士論文
[1]面向機(jī)器人操作的目標(biāo)檢測(cè)與抓取規(guī)劃研究[D]. 郭迪.清華大學(xué) 2016
碩士論文
[1]基于多模態(tài)深度學(xué)習(xí)算法的機(jī)器人自主抓取技術(shù)研究[D]. 陳盟.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3379696
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:100 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖 1-2AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)示意圖[2]在 2013 年,Zeiler 等人提出了 ZFNet[4],并獲得了 ILSVRC 2013 的冠軍,其Top-5 錯(cuò)誤率為 11.7%,該網(wǎng)絡(luò)主要是對(duì) AlexNet 進(jìn)行了一些超參數(shù)上的優(yōu)化提升了性能,比如第一層卷積層從 AlexNet 步長(zhǎng)為 4 的 × 卷積核變?yōu)椴介L(zhǎng)為 2 的 × 卷積核,每個(gè)卷積層的卷積核數(shù)目從 384、384、256 變?yōu)?512、1024、512。VGG 網(wǎng)絡(luò)[5]是牛津大學(xué) VisualGeometryGroup 提出的圖像識(shí)別 CNN 結(jié)構(gòu),主要貢獻(xiàn)是表明增加網(wǎng)絡(luò)的深度能夠在一定程度上改善網(wǎng)絡(luò)的性能,VGG-16(13 個(gè)卷積層及 3 個(gè)全連接層)在 ILSVRC2014 上的 Top-5 錯(cuò)誤率為 7.3%,獲得了第二名。它將 AlexNet 中使用的寬度較大的 11 和 5 的卷積核替換成為了寬度為 3 的卷積核,原因是兩個(gè)堆疊起來(lái)的 × 卷積層和一個(gè) × 的卷積層具有相同的感受野,三個(gè)堆疊起來(lái)的 × 卷積層和一個(gè) × 的卷積層具有相同的感受野,既通過(guò)多層小卷積核的卷積層替代單層大卷積核的卷積層,這樣可以增加非線性變換的次數(shù)提高網(wǎng)絡(luò)的表達(dá)能力,且多個(gè)小卷積核的參數(shù)比一個(gè)大卷積核參數(shù)少。GoogLeNet[6]是 Google 在 2014 年提出的一種 22 層的 CNN 結(jié)構(gòu),并獲得了ILSVRC 2014 的冠軍,Top-5 錯(cuò)誤率為 6.7%。GoogLeNet 的主要?jiǎng)?chuàng)新是采用了
PixelGDN-InceptionResnet-2深度特征提取32@conv 9×916@conv 5×58@conv 3×3融合特征提取2@ inception-resnet block8@deconv 3×316@deconv 5×532@deconv 9×936.D 寬度回歸3 訓(xùn)練數(shù)據(jù)集.1 康奈爾抓取數(shù)據(jù)集康奈爾抓取數(shù)據(jù)集[34]是近幾年抓取姿態(tài)檢測(cè)研究中常用的數(shù)據(jù)集,其中包0 種不同物體從不同角度拍攝的一共 885 張圖片,每張圖片對(duì)應(yīng)著一個(gè)點(diǎn)云和人工標(biāo)注的抓取框。整個(gè)數(shù)據(jù)集中一共包含有 5110 個(gè)正例抓取框和 2909例抓取框,每個(gè)抓取框用方框的四個(gè)角點(diǎn)表示,且前兩個(gè)角點(diǎn)的連線表示二手張開的方向。對(duì)于點(diǎn)云文件,本文將其轉(zhuǎn)化為深度圖并將壞點(diǎn)置為 0。圖示為康奈爾抓取數(shù)據(jù)集中的一些示例圖片。
【參考文獻(xiàn)】:
博士論文
[1]面向機(jī)器人操作的目標(biāo)檢測(cè)與抓取規(guī)劃研究[D]. 郭迪.清華大學(xué) 2016
碩士論文
[1]基于多模態(tài)深度學(xué)習(xí)算法的機(jī)器人自主抓取技術(shù)研究[D]. 陳盟.哈爾濱工業(yè)大學(xué) 2017
本文編號(hào):3379696
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3379696.html
最近更新
教材專著