基于計算機視覺的物體抓取識別算法的研究與實現(xiàn)
發(fā)布時間:2021-03-24 02:19
計算機視覺技術是人工智能的主要研究方向之一,隨著圖像或者視頻的數(shù)據(jù)規(guī)?焖僭鲩L,以及計算能力的提升,計算機視覺技術在近幾年獲得了前所未有的發(fā)展,被廣泛應用于多種場景,如無人駕駛,人流監(jiān)控等。為了挖掘人工智能技術的應用潛力,筆者將其成功的應用了到無人零售場景。本文設計了一種物體抓取識別算法,該算法基于深度學習和計算機視覺技術,能夠在目標被抓取的狀態(tài)下,識別目標物體的個數(shù)和種類,可用于識別零售場景中顧客抓取的商品。它包含三個算法模塊:立體匹配、物體識別和行為識別,其主要內容如下:為了讓目標物體多角度的暴露在視野范圍內以獲得多角度的信息源,并避免單攝像機被遮擋以至算法完全失效,本文采用了多攝像機的架設方案,設計和實現(xiàn)了一種快速立體匹配算法,該算法利用雙目相機的對極約束條件以及動態(tài)規(guī)劃,能夠在線性時間內完成匹配,在多個相機之間定位同一個物體。物體識別算法是本文的核心,零售場景需要識別出目標的種類及相應的個數(shù),盡管目標檢測算法可以實現(xiàn)這一目的,但是需要大量的標注成本和計算成本。本文使用弱監(jiān)督學習的模型訓練方案,設計了一種深度卷積神經網絡和一個計數(shù)損失函數(shù),不需要標注目標物體的位置信息,就可以識別...
【文章來源】:上海師范大學上海市
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
“維京號”火星登陸器(左)和相機(右)
圖 2 VATIC 標注工具的前端界面3.1 VATIC 標注工具的插值算法原理“視頻”利用了人眼的視覺暫留(Persistence of Vision)原理,以較高的幀率(通常每秒高于 24 幀)播放連續(xù)的靜態(tài)圖像。標注視頻數(shù)據(jù)的關鍵在于能夠在時序數(shù)據(jù)中,減少對冗余信息的重復標注。比如當標注人員需要標注一段視頻中的行人,那么這個行人在第t幀圖像中的位置和第t + 1幀中的位置應當是非常接近的,視頻標注工具應當有能力讓標注人員在高冗余的連續(xù)幾幀圖像中,僅標注其中一張圖像,即可獲得所有的準確標注結果。再比如,一輛勻速直線運動的汽車,它在視頻中的位置可以通過運動方程估計,視頻標注軟件應當能對已知起始位置和終點位置的運動物體,提供物體運動過程中的準確位置。VATIC 提供一套插值算法,能夠在稀疏的標注之間進行適當?shù)牟逯,也就是說對某個物體,僅需標注起始位置和終點位置,即可獲得中間過程的位置估計,而且算法是離線操作的,所以算法的執(zhí)行不會影響標注工具的使用體驗。
大學碩士學位論文 第 4 章立體視配區(qū)域的積分直方圖(Integral Histogram)[62][63],能夠在線性時間待匹配的目標,相比[63],有更低的時間復雜度和空間復雜度優(yōu)勢,首先在 4.1 節(jié)介紹對極約束原理,接著在 4.2 節(jié)解釋本文所實現(xiàn)法,最后在 4.3 節(jié)總結本模塊的算法流程和實驗過程。極約束 4-2 所示,P、Q 是真實世界的兩點,他們都投影在πR平面上的p是單目相機(Monocular Camera),則無法通過相機所看到的p ≡ q點相對相機的距離。然而,在雙目相機的條件下,點p ≡ q所看到點 P 或 Q 一定映射在右相機的綠線(點p和q所在的直線)上,這p ≡ q所對應的極線(Epipolar Line)。
本文編號:3096867
【文章來源】:上海師范大學上海市
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
“維京號”火星登陸器(左)和相機(右)
圖 2 VATIC 標注工具的前端界面3.1 VATIC 標注工具的插值算法原理“視頻”利用了人眼的視覺暫留(Persistence of Vision)原理,以較高的幀率(通常每秒高于 24 幀)播放連續(xù)的靜態(tài)圖像。標注視頻數(shù)據(jù)的關鍵在于能夠在時序數(shù)據(jù)中,減少對冗余信息的重復標注。比如當標注人員需要標注一段視頻中的行人,那么這個行人在第t幀圖像中的位置和第t + 1幀中的位置應當是非常接近的,視頻標注工具應當有能力讓標注人員在高冗余的連續(xù)幾幀圖像中,僅標注其中一張圖像,即可獲得所有的準確標注結果。再比如,一輛勻速直線運動的汽車,它在視頻中的位置可以通過運動方程估計,視頻標注軟件應當能對已知起始位置和終點位置的運動物體,提供物體運動過程中的準確位置。VATIC 提供一套插值算法,能夠在稀疏的標注之間進行適當?shù)牟逯,也就是說對某個物體,僅需標注起始位置和終點位置,即可獲得中間過程的位置估計,而且算法是離線操作的,所以算法的執(zhí)行不會影響標注工具的使用體驗。
大學碩士學位論文 第 4 章立體視配區(qū)域的積分直方圖(Integral Histogram)[62][63],能夠在線性時間待匹配的目標,相比[63],有更低的時間復雜度和空間復雜度優(yōu)勢,首先在 4.1 節(jié)介紹對極約束原理,接著在 4.2 節(jié)解釋本文所實現(xiàn)法,最后在 4.3 節(jié)總結本模塊的算法流程和實驗過程。極約束 4-2 所示,P、Q 是真實世界的兩點,他們都投影在πR平面上的p是單目相機(Monocular Camera),則無法通過相機所看到的p ≡ q點相對相機的距離。然而,在雙目相機的條件下,點p ≡ q所看到點 P 或 Q 一定映射在右相機的綠線(點p和q所在的直線)上,這p ≡ q所對應的極線(Epipolar Line)。
本文編號:3096867
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3096867.html
最近更新
教材專著