基于計(jì)算機(jī)視覺(jué)的物體抓取識(shí)別算法的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-24 02:19
計(jì)算機(jī)視覺(jué)技術(shù)是人工智能的主要研究方向之一,隨著圖像或者視頻的數(shù)據(jù)規(guī)?焖僭鲩L(zhǎng),以及計(jì)算能力的提升,計(jì)算機(jī)視覺(jué)技術(shù)在近幾年獲得了前所未有的發(fā)展,被廣泛應(yīng)用于多種場(chǎng)景,如無(wú)人駕駛,人流監(jiān)控等。為了挖掘人工智能技術(shù)的應(yīng)用潛力,筆者將其成功的應(yīng)用了到無(wú)人零售場(chǎng)景。本文設(shè)計(jì)了一種物體抓取識(shí)別算法,該算法基于深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù),能夠在目標(biāo)被抓取的狀態(tài)下,識(shí)別目標(biāo)物體的個(gè)數(shù)和種類,可用于識(shí)別零售場(chǎng)景中顧客抓取的商品。它包含三個(gè)算法模塊:立體匹配、物體識(shí)別和行為識(shí)別,其主要內(nèi)容如下:為了讓目標(biāo)物體多角度的暴露在視野范圍內(nèi)以獲得多角度的信息源,并避免單攝像機(jī)被遮擋以至算法完全失效,本文采用了多攝像機(jī)的架設(shè)方案,設(shè)計(jì)和實(shí)現(xiàn)了一種快速立體匹配算法,該算法利用雙目相機(jī)的對(duì)極約束條件以及動(dòng)態(tài)規(guī)劃,能夠在線性時(shí)間內(nèi)完成匹配,在多個(gè)相機(jī)之間定位同一個(gè)物體。物體識(shí)別算法是本文的核心,零售場(chǎng)景需要識(shí)別出目標(biāo)的種類及相應(yīng)的個(gè)數(shù),盡管目標(biāo)檢測(cè)算法可以實(shí)現(xiàn)這一目的,但是需要大量的標(biāo)注成本和計(jì)算成本。本文使用弱監(jiān)督學(xué)習(xí)的模型訓(xùn)練方案,設(shè)計(jì)了一種深度卷積神經(jīng)網(wǎng)絡(luò)和一個(gè)計(jì)數(shù)損失函數(shù),不需要標(biāo)注目標(biāo)物體的位置信息,就可以識(shí)別...
【文章來(lái)源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“維京號(hào)”火星登陸器(左)和相機(jī)(右)
圖 2 VATIC 標(biāo)注工具的前端界面3.1 VATIC 標(biāo)注工具的插值算法原理“視頻”利用了人眼的視覺(jué)暫留(Persistence of Vision)原理,以較高的幀率(通常每秒高于 24 幀)播放連續(xù)的靜態(tài)圖像。標(biāo)注視頻數(shù)據(jù)的關(guān)鍵在于能夠在時(shí)序數(shù)據(jù)中,減少對(duì)冗余信息的重復(fù)標(biāo)注。比如當(dāng)標(biāo)注人員需要標(biāo)注一段視頻中的行人,那么這個(gè)行人在第t幀圖像中的位置和第t + 1幀中的位置應(yīng)當(dāng)是非常接近的,視頻標(biāo)注工具應(yīng)當(dāng)有能力讓標(biāo)注人員在高冗余的連續(xù)幾幀圖像中,僅標(biāo)注其中一張圖像,即可獲得所有的準(zhǔn)確標(biāo)注結(jié)果。再比如,一輛勻速直線運(yùn)動(dòng)的汽車,它在視頻中的位置可以通過(guò)運(yùn)動(dòng)方程估計(jì),視頻標(biāo)注軟件應(yīng)當(dāng)能對(duì)已知起始位置和終點(diǎn)位置的運(yùn)動(dòng)物體,提供物體運(yùn)動(dòng)過(guò)程中的準(zhǔn)確位置。VATIC 提供一套插值算法,能夠在稀疏的標(biāo)注之間進(jìn)行適當(dāng)?shù)牟逯担簿褪钦f(shuō)對(duì)某個(gè)物體,僅需標(biāo)注起始位置和終點(diǎn)位置,即可獲得中間過(guò)程的位置估計(jì),而且算法是離線操作的,所以算法的執(zhí)行不會(huì)影響標(biāo)注工具的使用體驗(yàn)。
大學(xué)碩士學(xué)位論文 第 4 章立體視配區(qū)域的積分直方圖(Integral Histogram)[62][63],能夠在線性時(shí)間待匹配的目標(biāo),相比[63],有更低的時(shí)間復(fù)雜度和空間復(fù)雜度優(yōu)勢(shì),首先在 4.1 節(jié)介紹對(duì)極約束原理,接著在 4.2 節(jié)解釋本文所實(shí)現(xiàn)法,最后在 4.3 節(jié)總結(jié)本模塊的算法流程和實(shí)驗(yàn)過(guò)程。極約束 4-2 所示,P、Q 是真實(shí)世界的兩點(diǎn),他們都投影在πR平面上的p是單目相機(jī)(Monocular Camera),則無(wú)法通過(guò)相機(jī)所看到的p ≡ q點(diǎn)相對(duì)相機(jī)的距離。然而,在雙目相機(jī)的條件下,點(diǎn)p ≡ q所看到點(diǎn) P 或 Q 一定映射在右相機(jī)的綠線(點(diǎn)p和q所在的直線)上,這p ≡ q所對(duì)應(yīng)的極線(Epipolar Line)。
本文編號(hào):3096867
【文章來(lái)源】:上海師范大學(xué)上海市
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“維京號(hào)”火星登陸器(左)和相機(jī)(右)
圖 2 VATIC 標(biāo)注工具的前端界面3.1 VATIC 標(biāo)注工具的插值算法原理“視頻”利用了人眼的視覺(jué)暫留(Persistence of Vision)原理,以較高的幀率(通常每秒高于 24 幀)播放連續(xù)的靜態(tài)圖像。標(biāo)注視頻數(shù)據(jù)的關(guān)鍵在于能夠在時(shí)序數(shù)據(jù)中,減少對(duì)冗余信息的重復(fù)標(biāo)注。比如當(dāng)標(biāo)注人員需要標(biāo)注一段視頻中的行人,那么這個(gè)行人在第t幀圖像中的位置和第t + 1幀中的位置應(yīng)當(dāng)是非常接近的,視頻標(biāo)注工具應(yīng)當(dāng)有能力讓標(biāo)注人員在高冗余的連續(xù)幾幀圖像中,僅標(biāo)注其中一張圖像,即可獲得所有的準(zhǔn)確標(biāo)注結(jié)果。再比如,一輛勻速直線運(yùn)動(dòng)的汽車,它在視頻中的位置可以通過(guò)運(yùn)動(dòng)方程估計(jì),視頻標(biāo)注軟件應(yīng)當(dāng)能對(duì)已知起始位置和終點(diǎn)位置的運(yùn)動(dòng)物體,提供物體運(yùn)動(dòng)過(guò)程中的準(zhǔn)確位置。VATIC 提供一套插值算法,能夠在稀疏的標(biāo)注之間進(jìn)行適當(dāng)?shù)牟逯担簿褪钦f(shuō)對(duì)某個(gè)物體,僅需標(biāo)注起始位置和終點(diǎn)位置,即可獲得中間過(guò)程的位置估計(jì),而且算法是離線操作的,所以算法的執(zhí)行不會(huì)影響標(biāo)注工具的使用體驗(yàn)。
大學(xué)碩士學(xué)位論文 第 4 章立體視配區(qū)域的積分直方圖(Integral Histogram)[62][63],能夠在線性時(shí)間待匹配的目標(biāo),相比[63],有更低的時(shí)間復(fù)雜度和空間復(fù)雜度優(yōu)勢(shì),首先在 4.1 節(jié)介紹對(duì)極約束原理,接著在 4.2 節(jié)解釋本文所實(shí)現(xiàn)法,最后在 4.3 節(jié)總結(jié)本模塊的算法流程和實(shí)驗(yàn)過(guò)程。極約束 4-2 所示,P、Q 是真實(shí)世界的兩點(diǎn),他們都投影在πR平面上的p是單目相機(jī)(Monocular Camera),則無(wú)法通過(guò)相機(jī)所看到的p ≡ q點(diǎn)相對(duì)相機(jī)的距離。然而,在雙目相機(jī)的條件下,點(diǎn)p ≡ q所看到點(diǎn) P 或 Q 一定映射在右相機(jī)的綠線(點(diǎn)p和q所在的直線)上,這p ≡ q所對(duì)應(yīng)的極線(Epipolar Line)。
本文編號(hào):3096867
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3096867.html
最近更新
教材專著