基于深度學(xué)習(xí)的實(shí)時(shí)實(shí)例分割技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2021-11-10 13:46
實(shí)例分割是計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)綜合性的任務(wù),是對(duì)圖像場(chǎng)景的深層理解,集分類、定位和分割三大任務(wù)為一體,能夠?qū)D像中的實(shí)例在像素級(jí)層面進(jìn)行識(shí)別;谏疃葘W(xué)習(xí)的實(shí)例分割技術(shù)在精度上獲得了長(zhǎng)足的發(fā)展,這項(xiàng)技術(shù)也開(kāi)始從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用,在自動(dòng)駕駛系統(tǒng)、移動(dòng)終端攝像模塊以及在線視頻播放平臺(tái)等場(chǎng)景中得到了廣泛應(yīng)用。然而,目前基于深度卷積神經(jīng)網(wǎng)絡(luò)的實(shí)例分割模型架構(gòu)復(fù)雜,網(wǎng)絡(luò)層次較深,運(yùn)行速度較慢,即使在高性能算力條件下,也僅能在每秒內(nèi)預(yù)測(cè)約15張圖片。對(duì)于多數(shù)應(yīng)用場(chǎng)景來(lái)說(shuō),其處理的信號(hào)是視頻信號(hào),每秒傳輸?shù)膱D像超過(guò)30張,因此之前的模型在速度上遠(yuǎn)遠(yuǎn)無(wú)法滿足要求。針對(duì)這個(gè)問(wèn)題,本文從實(shí)例分割方法和模型架構(gòu)方面著手,研究探索高效實(shí)時(shí)的實(shí)例分割技術(shù)。進(jìn)入深度學(xué)習(xí)時(shí)代后,實(shí)例分割技術(shù)主要有兩個(gè)發(fā)展方向,第一種是基于目標(biāo)檢測(cè)的方法,先檢測(cè)后分割;第二種先進(jìn)行語(yǔ)義分割,然后對(duì)分割結(jié)果進(jìn)行后處理以區(qū)分不同實(shí)例。第二種方法后處理方法復(fù)雜,難以利用硬件進(jìn)行加速,因此本文選擇第一種思路,以目標(biāo)檢測(cè)技術(shù)為基礎(chǔ),構(gòu)建高效的實(shí)例分割算法。本文提出一種新的實(shí)例分割方法,稱之為高效實(shí)例分割網(wǎng)絡(luò)(EISNet,Efficient...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:80 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像卷積操作
第二章實(shí)例分割的相關(guān)理論和技術(shù)11圖2-2卷積神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)補(bǔ)零操作函數(shù)。補(bǔ)零操作為了解決多層卷積計(jì)算存在的兩個(gè)問(wèn)題,一是圖像越來(lái)越小,二是圖像邊界信息丟失,即有些圖像角落和邊界的信息發(fā)揮作用較少。補(bǔ)零操作通過(guò)在圖像四周補(bǔ)零的方式使得在卷積步長(zhǎng)為1時(shí),卷積后的圖像不會(huì)變小,并且使得卷積層可以處理圖像邊緣的信息。卷積函數(shù)。通過(guò)滑動(dòng)窗口的形式將卷積核在整幅圖像上滑動(dòng),并進(jìn)行卷積計(jì)算。卷積核尺寸一般為奇數(shù)(1*1,3*3,5*5),每次滑動(dòng)跨越的像素長(zhǎng)度我們稱為步長(zhǎng)(stride),步長(zhǎng)可以控制卷積核的感受野大小,當(dāng)步長(zhǎng)為2時(shí)其相當(dāng)于2倍的池化操作,會(huì)使圖像尺寸縮小兩倍。激活函數(shù)。卷積操作是線性操作,如果網(wǎng)絡(luò)只有卷積操作,那整個(gè)網(wǎng)絡(luò)可以看作線性函數(shù)疊加,網(wǎng)絡(luò)的學(xué)習(xí)能力受到極大限制,其表達(dá)能力會(huì)變得非常低,從而導(dǎo)致網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到想到的結(jié)果。激活函數(shù)的作用就是為網(wǎng)絡(luò)提供非線性。常見(jiàn)的激活函數(shù)有Sigmoid、ReLU以及Tanh等。1)Sigmoid激活函數(shù),是神經(jīng)網(wǎng)絡(luò)領(lǐng)域常用的激活函數(shù)。其公式如(2-1):()=11+(2-1)從Sigmoid函數(shù)曲線圖2-3中可以發(fā)現(xiàn),其輸出值的大小介于0-1,這一特性使得其非常適合用于計(jì)算概率。另外從其函數(shù)圖像可以很自然的聯(lián)想到神經(jīng)元的刺激放電過(guò)程,在中間斜率比較大的區(qū)域類似于神經(jīng)元的敏感區(qū),而斜率很平緩的兩側(cè)區(qū)域相當(dāng)于神經(jīng)元的抑制區(qū)。但Sigmoid函數(shù)存在飽和區(qū),權(quán)重更新效率低,容易出現(xiàn)梯度消失問(wèn)題,且其中的指數(shù)運(yùn)算比較慢。
電子科技大學(xué)碩士學(xué)位論文12圖2-3Sigmoid函數(shù)曲線2)Tanh函數(shù),雙曲正切函數(shù),其函數(shù)公式如(2-2)。Tanh()=sinh()cosh()=+(2-2)Tanh函數(shù)的函數(shù)曲線如圖2-4所示,可以看到它跟上文的Sigmoid函數(shù)幾乎一樣,區(qū)別在于函數(shù)值域,Tanh函數(shù)的輸出值位于區(qū)間(-1,1)內(nèi),函數(shù)以(0,0)點(diǎn)中心對(duì)稱。由于其函數(shù)曲線和Sigmoid函數(shù)類似,存在非常大的函數(shù)飽和區(qū)間,因此其也具備Sigmoid函數(shù)的一些缺點(diǎn),不利于梯度反向傳播的權(quán)重更新。圖2-4Tanh函數(shù)曲線3)ReLU(RectifiedLinearUnit)函數(shù),整流線性單元,它的函數(shù)公式如(2-3):()=max(0,)(2-3)ReLU函數(shù)是目前在深度網(wǎng)絡(luò)中用的比較多的一個(gè)激活函數(shù),相比于Sigmoid和Tanh函數(shù),它在輸入為正數(shù)的時(shí)候,梯度始終為1,沒(méi)有梯度消失的問(wèn)題,計(jì)算速度快。ReLU只進(jìn)行最大值的線性操作,前向和后向操作都快。它的缺點(diǎn)是當(dāng)輸入時(shí)負(fù)數(shù)的時(shí)候,ReLU是完全不被激活的,該神經(jīng)元就會(huì)死掉。另外ReLU函數(shù)的輸出要么是0,要么是正數(shù),也就是說(shuō),ReLU函數(shù)不是以0為中心的函數(shù)。其函數(shù)曲線如圖2-5所示:
本文編號(hào):3487372
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:80 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像卷積操作
第二章實(shí)例分割的相關(guān)理論和技術(shù)11圖2-2卷積神經(jīng)網(wǎng)絡(luò)的基本架構(gòu)補(bǔ)零操作函數(shù)。補(bǔ)零操作為了解決多層卷積計(jì)算存在的兩個(gè)問(wèn)題,一是圖像越來(lái)越小,二是圖像邊界信息丟失,即有些圖像角落和邊界的信息發(fā)揮作用較少。補(bǔ)零操作通過(guò)在圖像四周補(bǔ)零的方式使得在卷積步長(zhǎng)為1時(shí),卷積后的圖像不會(huì)變小,并且使得卷積層可以處理圖像邊緣的信息。卷積函數(shù)。通過(guò)滑動(dòng)窗口的形式將卷積核在整幅圖像上滑動(dòng),并進(jìn)行卷積計(jì)算。卷積核尺寸一般為奇數(shù)(1*1,3*3,5*5),每次滑動(dòng)跨越的像素長(zhǎng)度我們稱為步長(zhǎng)(stride),步長(zhǎng)可以控制卷積核的感受野大小,當(dāng)步長(zhǎng)為2時(shí)其相當(dāng)于2倍的池化操作,會(huì)使圖像尺寸縮小兩倍。激活函數(shù)。卷積操作是線性操作,如果網(wǎng)絡(luò)只有卷積操作,那整個(gè)網(wǎng)絡(luò)可以看作線性函數(shù)疊加,網(wǎng)絡(luò)的學(xué)習(xí)能力受到極大限制,其表達(dá)能力會(huì)變得非常低,從而導(dǎo)致網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到想到的結(jié)果。激活函數(shù)的作用就是為網(wǎng)絡(luò)提供非線性。常見(jiàn)的激活函數(shù)有Sigmoid、ReLU以及Tanh等。1)Sigmoid激活函數(shù),是神經(jīng)網(wǎng)絡(luò)領(lǐng)域常用的激活函數(shù)。其公式如(2-1):()=11+(2-1)從Sigmoid函數(shù)曲線圖2-3中可以發(fā)現(xiàn),其輸出值的大小介于0-1,這一特性使得其非常適合用于計(jì)算概率。另外從其函數(shù)圖像可以很自然的聯(lián)想到神經(jīng)元的刺激放電過(guò)程,在中間斜率比較大的區(qū)域類似于神經(jīng)元的敏感區(qū),而斜率很平緩的兩側(cè)區(qū)域相當(dāng)于神經(jīng)元的抑制區(qū)。但Sigmoid函數(shù)存在飽和區(qū),權(quán)重更新效率低,容易出現(xiàn)梯度消失問(wèn)題,且其中的指數(shù)運(yùn)算比較慢。
電子科技大學(xué)碩士學(xué)位論文12圖2-3Sigmoid函數(shù)曲線2)Tanh函數(shù),雙曲正切函數(shù),其函數(shù)公式如(2-2)。Tanh()=sinh()cosh()=+(2-2)Tanh函數(shù)的函數(shù)曲線如圖2-4所示,可以看到它跟上文的Sigmoid函數(shù)幾乎一樣,區(qū)別在于函數(shù)值域,Tanh函數(shù)的輸出值位于區(qū)間(-1,1)內(nèi),函數(shù)以(0,0)點(diǎn)中心對(duì)稱。由于其函數(shù)曲線和Sigmoid函數(shù)類似,存在非常大的函數(shù)飽和區(qū)間,因此其也具備Sigmoid函數(shù)的一些缺點(diǎn),不利于梯度反向傳播的權(quán)重更新。圖2-4Tanh函數(shù)曲線3)ReLU(RectifiedLinearUnit)函數(shù),整流線性單元,它的函數(shù)公式如(2-3):()=max(0,)(2-3)ReLU函數(shù)是目前在深度網(wǎng)絡(luò)中用的比較多的一個(gè)激活函數(shù),相比于Sigmoid和Tanh函數(shù),它在輸入為正數(shù)的時(shí)候,梯度始終為1,沒(méi)有梯度消失的問(wèn)題,計(jì)算速度快。ReLU只進(jìn)行最大值的線性操作,前向和后向操作都快。它的缺點(diǎn)是當(dāng)輸入時(shí)負(fù)數(shù)的時(shí)候,ReLU是完全不被激活的,該神經(jīng)元就會(huì)死掉。另外ReLU函數(shù)的輸出要么是0,要么是正數(shù),也就是說(shuō),ReLU函數(shù)不是以0為中心的函數(shù)。其函數(shù)曲線如圖2-5所示:
本文編號(hào):3487372
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3487372.html
最近更新
教材專著