基于全卷積神經(jīng)網(wǎng)絡(luò)模型的語義分割算法
發(fā)布時(shí)間:2021-04-10 03:14
語義分割是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的研究重點(diǎn),傳統(tǒng)基于圖像塊的深度卷積神經(jīng)網(wǎng)絡(luò)模型假設(shè)圖像塊內(nèi)所有像素共享同一標(biāo)號(hào)導(dǎo)致其對(duì)圖像光譜及紋理結(jié)構(gòu)特征變換敏感、語義分割結(jié)果中目標(biāo)邊緣像素分割精度不高。針對(duì)以上問題,提出一種基于殘差模塊的全卷積神經(jīng)網(wǎng)絡(luò)模型及多尺度空洞卷積模型。首先,基于殘差模塊的全卷積神經(jīng)網(wǎng)絡(luò)模型以殘差模塊為基礎(chǔ)構(gòu)建能夠?qū)崿F(xiàn)“端到端”訓(xùn)練的全卷積網(wǎng)絡(luò),并采用跳躍連接提高低層細(xì)節(jié)特征的傳遞效率,進(jìn)而提高圖像語義分割精度。其次,多尺度空洞卷積模型在基于殘差模塊的全卷積神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,利用空洞卷積學(xué)習(xí)原始圖像不同尺度特征,并組合這些特征以達(dá)到同時(shí)學(xué)習(xí)目標(biāo)細(xì)節(jié)特征和全局特征的目的。最后,為了驗(yàn)證提出算法的有效性,將提出的算法應(yīng)用于ISPRS Vaihingen數(shù)據(jù)集中對(duì)圖像塊的模型進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果表明,采用的全卷積神經(jīng)網(wǎng)絡(luò)模型和多尺度空洞卷積模型能夠較好地學(xué)習(xí)圖像目標(biāo)的邊緣細(xì)節(jié)特征,與傳統(tǒng)的基于圖像塊的神經(jīng)網(wǎng)絡(luò)和改進(jìn)的Seg Net網(wǎng)絡(luò)模型相比,其語義分割精度可達(dá)84.56%和86.59%。該論文有圖55幅,表5個(gè),參考文獻(xiàn)50篇。
【文章來源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積原理
?暗酵枷裰腥?磕勘?特征進(jìn)而無法保障網(wǎng)絡(luò)輸出精度,降低輸入圖像尺寸會(huì)導(dǎo)致網(wǎng)絡(luò)模型無法“看”到占據(jù)較大區(qū)域目標(biāo)的完整形態(tài),使其無法學(xué)習(xí)到目標(biāo)的全局特征。為了提高網(wǎng)絡(luò)對(duì)不同尺寸目標(biāo)的學(xué)習(xí)能力、減少網(wǎng)絡(luò)對(duì)顯存的需求,卷積神經(jīng)網(wǎng)絡(luò)多采用池化層減小圖像尺寸、保障卷積核能夠“看”到目標(biāo)的全局特征進(jìn)而學(xué)習(xí)全局特征。池化層實(shí)際上是將感受野內(nèi)部的全部像素用一個(gè)或多個(gè)像素表達(dá)進(jìn)而達(dá)到減小圖像尺寸的操作。常用的池化方式有最大池化和平均池化。最大池化就是將感受野內(nèi)所有像素的最大值作為輸出值,其中池化層原理如圖2.2所示,該池化層尺寸為2×2像素,將感受野中最大的值作為輸出值保留其余值并丟掉不用的,4×4像素圖像經(jīng)2×2像素池化層后輸出尺寸為2×2像素。平均池化原理與最大池化原理類似,只不過用平均值代替最大值。目前大量實(shí)驗(yàn)表明最大池化效果較好,因此大部分網(wǎng)絡(luò)中采用最大池化作為池化層。圖2.2池化層原理Figure2.2Principleofpoollayer(3)激活函數(shù)卷積操作雖然復(fù)雜,但本質(zhì)是一種線性變換,無法處理具有非線性分布特征的數(shù)據(jù)。然而,實(shí)際應(yīng)用中的大部分?jǐn)?shù)據(jù)不滿足線性分布特征,為了能夠?qū)⒕矸e神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)際數(shù)據(jù),需采用非線性激活函數(shù)將其線性特征轉(zhuǎn)化為非線性特征以提高網(wǎng)絡(luò)模型的擬合能力。ReLU(RectifiedLinearUnits)函數(shù)是當(dāng)前應(yīng)用最為廣泛的函數(shù)之一。該函數(shù)直接輸出大于0的輸入數(shù)據(jù),但當(dāng)輸入數(shù)據(jù)小于0時(shí),函數(shù)輸出為0。其計(jì)算公式如下:y=max(0,x)(2.1)ReLU函數(shù)如圖2.3所示,其中橫坐標(biāo)為,縱坐標(biāo)為,ReLU函數(shù)的形式與Sigmoid和Tanh函數(shù)有明顯區(qū)別,它相當(dāng)于一個(gè)過濾器,將小于0的輸入數(shù)據(jù)過濾掉而不影響大
收斂速度較Sigmoid和Tanh函數(shù)均有明顯提升。然而,ReLU函數(shù)同樣存在非0均值的問題。此外,應(yīng)用ReLU激活函數(shù)時(shí),有些神經(jīng)元可能永遠(yuǎn)也不會(huì)被激活,該問題成為DeadReLU問題。產(chǎn)生DeadReLU問題可能的原因主要有以下兩點(diǎn):糟糕的初始化和較高的學(xué)習(xí)率。當(dāng)參數(shù)初始化不理想時(shí)可能會(huì)導(dǎo)致部分神經(jīng)元無法參與到反向傳播過程因而無法實(shí)現(xiàn)參數(shù)更新。當(dāng)學(xué)習(xí)率較高時(shí)會(huì)導(dǎo)致訓(xùn)練過程參數(shù)更新太過明顯而使網(wǎng)絡(luò)陷入DeadReLU問題。目前解決DeadReLU問題的主要方法是采用Xavier初始化方法,同時(shí)避免采用過大的學(xué)習(xí)率以及學(xué)習(xí)率自更新等方法。圖2.3ReLU函數(shù)Figure2.3ReLUfunction(4)批標(biāo)準(zhǔn)化層卷積神經(jīng)網(wǎng)絡(luò)通常假設(shè)每個(gè)批次內(nèi)的數(shù)據(jù)均服從獨(dú)立同分布。但隨著網(wǎng)絡(luò)層數(shù)的加深,輸入數(shù)據(jù)經(jīng)過不同卷積層的輸出結(jié)果不再滿足獨(dú)立同分布,且網(wǎng)絡(luò)訓(xùn)練過程中,每層參數(shù)不斷變換,導(dǎo)致每個(gè)隱含層的輸出結(jié)果不甚穩(wěn)定。批標(biāo)準(zhǔn)化層就是為了解決不同隱含層輸出結(jié)果不滿足獨(dú)立同分布而提出的。批標(biāo)準(zhǔn)化實(shí)際上就是將該輪迭代數(shù)據(jù)轉(zhuǎn)換成均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布,然后將滿足獨(dú)立同分布的數(shù)據(jù)輸入到下一個(gè)卷積層,對(duì)每層輸出結(jié)果均做批標(biāo)準(zhǔn)化,保證數(shù)據(jù)分布的穩(wěn)定性,進(jìn)而提高網(wǎng)絡(luò)學(xué)習(xí)效率。批標(biāo)準(zhǔn)化的本質(zhì)是規(guī)范化數(shù)據(jù),以保障數(shù)據(jù)特征的穩(wěn)定性。批標(biāo)準(zhǔn)化采用如下公式計(jì)算:varxExxx(2.2)其中,x表示該批次內(nèi)的像素值,E(x)表示該批次內(nèi)所有像素的均值,var(x)表示該批次內(nèi)所有像素的方差。雖然將數(shù)據(jù)變成均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布能夠?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)提供穩(wěn)定的數(shù)據(jù)特征,解決傳統(tǒng)網(wǎng)絡(luò)訓(xùn)練過程中存在的“數(shù)據(jù)漂移”現(xiàn)象,但服從標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)會(huì)導(dǎo)致網(wǎng)絡(luò)表達(dá)能力下降。為了解決該問題,經(jīng)典的批標(biāo)準(zhǔn)化算法會(huì)在每個(gè)神經(jīng)元加上表示尺度縮放和平移的兩?
本文編號(hào):3128845
【文章來源】:遼寧工程技術(shù)大學(xué)遼寧省
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積原理
?暗酵枷裰腥?磕勘?特征進(jìn)而無法保障網(wǎng)絡(luò)輸出精度,降低輸入圖像尺寸會(huì)導(dǎo)致網(wǎng)絡(luò)模型無法“看”到占據(jù)較大區(qū)域目標(biāo)的完整形態(tài),使其無法學(xué)習(xí)到目標(biāo)的全局特征。為了提高網(wǎng)絡(luò)對(duì)不同尺寸目標(biāo)的學(xué)習(xí)能力、減少網(wǎng)絡(luò)對(duì)顯存的需求,卷積神經(jīng)網(wǎng)絡(luò)多采用池化層減小圖像尺寸、保障卷積核能夠“看”到目標(biāo)的全局特征進(jìn)而學(xué)習(xí)全局特征。池化層實(shí)際上是將感受野內(nèi)部的全部像素用一個(gè)或多個(gè)像素表達(dá)進(jìn)而達(dá)到減小圖像尺寸的操作。常用的池化方式有最大池化和平均池化。最大池化就是將感受野內(nèi)所有像素的最大值作為輸出值,其中池化層原理如圖2.2所示,該池化層尺寸為2×2像素,將感受野中最大的值作為輸出值保留其余值并丟掉不用的,4×4像素圖像經(jīng)2×2像素池化層后輸出尺寸為2×2像素。平均池化原理與最大池化原理類似,只不過用平均值代替最大值。目前大量實(shí)驗(yàn)表明最大池化效果較好,因此大部分網(wǎng)絡(luò)中采用最大池化作為池化層。圖2.2池化層原理Figure2.2Principleofpoollayer(3)激活函數(shù)卷積操作雖然復(fù)雜,但本質(zhì)是一種線性變換,無法處理具有非線性分布特征的數(shù)據(jù)。然而,實(shí)際應(yīng)用中的大部分?jǐn)?shù)據(jù)不滿足線性分布特征,為了能夠?qū)⒕矸e神經(jīng)網(wǎng)絡(luò)應(yīng)用于實(shí)際數(shù)據(jù),需采用非線性激活函數(shù)將其線性特征轉(zhuǎn)化為非線性特征以提高網(wǎng)絡(luò)模型的擬合能力。ReLU(RectifiedLinearUnits)函數(shù)是當(dāng)前應(yīng)用最為廣泛的函數(shù)之一。該函數(shù)直接輸出大于0的輸入數(shù)據(jù),但當(dāng)輸入數(shù)據(jù)小于0時(shí),函數(shù)輸出為0。其計(jì)算公式如下:y=max(0,x)(2.1)ReLU函數(shù)如圖2.3所示,其中橫坐標(biāo)為,縱坐標(biāo)為,ReLU函數(shù)的形式與Sigmoid和Tanh函數(shù)有明顯區(qū)別,它相當(dāng)于一個(gè)過濾器,將小于0的輸入數(shù)據(jù)過濾掉而不影響大
收斂速度較Sigmoid和Tanh函數(shù)均有明顯提升。然而,ReLU函數(shù)同樣存在非0均值的問題。此外,應(yīng)用ReLU激活函數(shù)時(shí),有些神經(jīng)元可能永遠(yuǎn)也不會(huì)被激活,該問題成為DeadReLU問題。產(chǎn)生DeadReLU問題可能的原因主要有以下兩點(diǎn):糟糕的初始化和較高的學(xué)習(xí)率。當(dāng)參數(shù)初始化不理想時(shí)可能會(huì)導(dǎo)致部分神經(jīng)元無法參與到反向傳播過程因而無法實(shí)現(xiàn)參數(shù)更新。當(dāng)學(xué)習(xí)率較高時(shí)會(huì)導(dǎo)致訓(xùn)練過程參數(shù)更新太過明顯而使網(wǎng)絡(luò)陷入DeadReLU問題。目前解決DeadReLU問題的主要方法是采用Xavier初始化方法,同時(shí)避免采用過大的學(xué)習(xí)率以及學(xué)習(xí)率自更新等方法。圖2.3ReLU函數(shù)Figure2.3ReLUfunction(4)批標(biāo)準(zhǔn)化層卷積神經(jīng)網(wǎng)絡(luò)通常假設(shè)每個(gè)批次內(nèi)的數(shù)據(jù)均服從獨(dú)立同分布。但隨著網(wǎng)絡(luò)層數(shù)的加深,輸入數(shù)據(jù)經(jīng)過不同卷積層的輸出結(jié)果不再滿足獨(dú)立同分布,且網(wǎng)絡(luò)訓(xùn)練過程中,每層參數(shù)不斷變換,導(dǎo)致每個(gè)隱含層的輸出結(jié)果不甚穩(wěn)定。批標(biāo)準(zhǔn)化層就是為了解決不同隱含層輸出結(jié)果不滿足獨(dú)立同分布而提出的。批標(biāo)準(zhǔn)化實(shí)際上就是將該輪迭代數(shù)據(jù)轉(zhuǎn)換成均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布,然后將滿足獨(dú)立同分布的數(shù)據(jù)輸入到下一個(gè)卷積層,對(duì)每層輸出結(jié)果均做批標(biāo)準(zhǔn)化,保證數(shù)據(jù)分布的穩(wěn)定性,進(jìn)而提高網(wǎng)絡(luò)學(xué)習(xí)效率。批標(biāo)準(zhǔn)化的本質(zhì)是規(guī)范化數(shù)據(jù),以保障數(shù)據(jù)特征的穩(wěn)定性。批標(biāo)準(zhǔn)化采用如下公式計(jì)算:varxExxx(2.2)其中,x表示該批次內(nèi)的像素值,E(x)表示該批次內(nèi)所有像素的均值,var(x)表示該批次內(nèi)所有像素的方差。雖然將數(shù)據(jù)變成均值為0方差為1的標(biāo)準(zhǔn)正態(tài)分布能夠?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)提供穩(wěn)定的數(shù)據(jù)特征,解決傳統(tǒng)網(wǎng)絡(luò)訓(xùn)練過程中存在的“數(shù)據(jù)漂移”現(xiàn)象,但服從標(biāo)準(zhǔn)正態(tài)分布的數(shù)據(jù)會(huì)導(dǎo)致網(wǎng)絡(luò)表達(dá)能力下降。為了解決該問題,經(jīng)典的批標(biāo)準(zhǔn)化算法會(huì)在每個(gè)神經(jīng)元加上表示尺度縮放和平移的兩?
本文編號(hào):3128845
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3128845.html
最近更新
教材專著