面向小樣本圖像分類(lèi)的深度學(xué)習(xí)方法研究
發(fā)布時(shí)間:2021-02-10 11:24
少量訓(xùn)練樣本的圖像分類(lèi)是當(dāng)前人工智能領(lǐng)域和計(jì)算機(jī)視覺(jué)的一個(gè)難題。在現(xiàn)有的研究中,深度學(xué)習(xí)模型在視覺(jué)任務(wù)方面(如圖像分類(lèi))已經(jīng)取得了最為先進(jìn)的性能。但是在少量訓(xùn)練樣本下模型的泛化性能卻不盡人意。目前,許多研究工作通過(guò)領(lǐng)域自適應(yīng)和數(shù)據(jù)增強(qiáng)的方法以彌補(bǔ)樣本數(shù)據(jù)量不足的缺陷,并通過(guò)正則化技術(shù),集成學(xué)習(xí)以及改變類(lèi)間距離的方法緩解了模型易過(guò)擬合,泛化性能差的情況。但這些方法仍無(wú)法達(dá)到少量訓(xùn)練樣本圖像分類(lèi)對(duì)模型建模能力的要求。本文基于深層卷積神經(jīng)網(wǎng)絡(luò),針對(duì)上述問(wèn)題完成了以下三個(gè)工作:1.提出面向少量訓(xùn)練樣本圖像分類(lèi)的交叉熵?fù)p失函數(shù)的方法,F(xiàn)有的交叉熵?fù)p失函數(shù)只關(guān)注了樣本分到正確類(lèi)的概率,而沒(méi)有關(guān)注樣本分類(lèi)到錯(cuò)誤類(lèi)的概率。針對(duì)多分類(lèi)交叉熵?fù)p失函數(shù)中的問(wèn)題,在少量訓(xùn)練樣本條件下改進(jìn)交叉熵?fù)p失函數(shù),使之在關(guān)注樣本分類(lèi)到正確類(lèi)樣本概率的同時(shí),也關(guān)注樣本分類(lèi)到錯(cuò)誤類(lèi)的概率,從而進(jìn)一步提高模型的泛化能力,改善模型的穩(wěn)定性。本工作在Stanford Cars-196數(shù)據(jù)集,UIUC-Sports數(shù)據(jù)集,LabelMe數(shù)據(jù)集以及CIFAR-10數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)表明,所提出的方法與現(xiàn)有的方法相比提高了模型的分...
【文章來(lái)源】:蘭州理工大學(xué)甘肅省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
各種分類(lèi)應(yīng)用場(chǎng)景示例圖
碩士學(xué)位論文7第2章相關(guān)基礎(chǔ)理論本文主要介紹本文所涉及的相關(guān)基礎(chǔ)知識(shí)。包括,卷積神經(jīng)網(wǎng)絡(luò)的基本架構(gòu),卷積神經(jīng)網(wǎng)絡(luò)中VGG16基本結(jié)構(gòu),以及本文所涉及的關(guān)系網(wǎng)絡(luò)和原型網(wǎng)絡(luò)的原理的介紹。2.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已經(jīng)被提出超過(guò)二十年,與其它神經(jīng)網(wǎng)絡(luò)模型,如多層感知器(MLP)相比,卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是將多個(gè)陣列作為輸入,然后通過(guò)模擬人眼感知圖像,在局部區(qū)域內(nèi)使用卷積算子對(duì)輸入進(jìn)行處理。因此,卷積神經(jīng)網(wǎng)絡(luò)在解決圖像分類(lèi),識(shí)別和理解計(jì)算機(jī)視覺(jué)等問(wèn)題上具有優(yōu)異的性能。在1998年,LeCun[74]提出了現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,一共七層,如圖2.1所示。其中C表示卷積層,S表示下采樣層,F(xiàn)表示全連接層。圖2.1LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖在LeNet被提出來(lái)之后,很多研究者為了解決更為復(fù)雜的問(wèn)題,提出了更復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),例如Alexnet(8層),GoogLeNet(22層),VGG-16(16層)以及Resnet(152層)。表2.1總結(jié)了近年最為先進(jìn)的幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)。從表2.1可以看出,近年來(lái)所提CNNs中參數(shù)數(shù)量較多,訓(xùn)練和推理時(shí)間較長(zhǎng)。另外,高維輸入,網(wǎng)絡(luò)參數(shù)多,復(fù)雜CNNs的配置對(duì)處理單元效率、內(nèi)存帶寬、通信等硬件方面也提出了新的要求。下面我們主要介紹卷積神經(jīng)網(wǎng)絡(luò)里幾個(gè)重要的組成模塊。輸入層在卷積神經(jīng)網(wǎng)絡(luò)中,輸入層通常為多個(gè)數(shù)組,并且輸入大小通常是固定的。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)具有平移不變性的特點(diǎn),因此其輸入并不需要大小規(guī)整和集中。
碩士學(xué)位論文9圖2.2常用激活函數(shù)示意圖池化層通常在卷積層之后是下采樣層,其作用是降低特征圖的分辨率,參數(shù)和計(jì)算量。如公式2.3。()jjZ=downX,(2.3)其中down(-)表示下采樣運(yùn)算。最大池化和平均池化是卷積神經(jīng)網(wǎng)絡(luò)中最典型的下采樣運(yùn)算,最大池化指的是取出某一局部特征塊中最大的特征值作為這個(gè)塊的最終特征值,其它特征值去掉。平均池化指的是求取某一局部特征塊的所有特征值的平均值作為該塊的最終特征值。除了上述方法,為緩解神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,許多研究者在上述方法的基礎(chǔ)上提出了Lp池化[80],隨機(jī)池[81]和混合池[82]等方法。與卷積核不同,下采樣對(duì)神經(jīng)網(wǎng)絡(luò)主要有兩個(gè)作用。第一是通過(guò)對(duì)輸入特征進(jìn)行下采樣,可以減小輸入特征的大小,減小運(yùn)算量。第二,通過(guò)下采樣,可以使輸出特征對(duì)單個(gè)神經(jīng)元單元的畸變和誤差具有更強(qiáng)的魯棒性[83]。全連接層輸入特征在經(jīng)過(guò)上述層之后,將得到高維的非線性特征。通過(guò)全連接層,神經(jīng)元將這些高維特征轉(zhuǎn)換為一維特征。其中全連接的每一層的神經(jīng)元都與上一層神經(jīng)元相連接,全連接層以這種更為復(fù)雜的方式提取到更多復(fù)雜的信息。對(duì)于圖像分類(lèi)來(lái)說(shuō),在全連接層之后接入分類(lèi)器,例如softmax,得到最后圖像分類(lèi)的結(jié)果。2.2VGG16卷積神經(jīng)網(wǎng)絡(luò)VGGNet[86]神經(jīng)網(wǎng)絡(luò)是2017年GoogleDeepMind研究員和牛津大學(xué)視覺(jué)幾何組共同提出。該網(wǎng)絡(luò)的貢獻(xiàn)在于證明了網(wǎng)絡(luò)盡管使用很小的卷積核,但通過(guò)增加網(wǎng)絡(luò)深度可以有效的提升網(wǎng)絡(luò)模型的效果。相比于其它網(wǎng)絡(luò),VGGNet對(duì)其它數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安. 自動(dòng)化學(xué)報(bào). 2016(09)
本文編號(hào):3027280
【文章來(lái)源】:蘭州理工大學(xué)甘肅省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
各種分類(lèi)應(yīng)用場(chǎng)景示例圖
碩士學(xué)位論文7第2章相關(guān)基礎(chǔ)理論本文主要介紹本文所涉及的相關(guān)基礎(chǔ)知識(shí)。包括,卷積神經(jīng)網(wǎng)絡(luò)的基本架構(gòu),卷積神經(jīng)網(wǎng)絡(luò)中VGG16基本結(jié)構(gòu),以及本文所涉及的關(guān)系網(wǎng)絡(luò)和原型網(wǎng)絡(luò)的原理的介紹。2.1卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)已經(jīng)被提出超過(guò)二十年,與其它神經(jīng)網(wǎng)絡(luò)模型,如多層感知器(MLP)相比,卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是將多個(gè)陣列作為輸入,然后通過(guò)模擬人眼感知圖像,在局部區(qū)域內(nèi)使用卷積算子對(duì)輸入進(jìn)行處理。因此,卷積神經(jīng)網(wǎng)絡(luò)在解決圖像分類(lèi),識(shí)別和理解計(jì)算機(jī)視覺(jué)等問(wèn)題上具有優(yōu)異的性能。在1998年,LeCun[74]提出了現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,一共七層,如圖2.1所示。其中C表示卷積層,S表示下采樣層,F(xiàn)表示全連接層。圖2.1LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖在LeNet被提出來(lái)之后,很多研究者為了解決更為復(fù)雜的問(wèn)題,提出了更復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),例如Alexnet(8層),GoogLeNet(22層),VGG-16(16層)以及Resnet(152層)。表2.1總結(jié)了近年最為先進(jìn)的幾個(gè)卷積神經(jīng)網(wǎng)絡(luò)。從表2.1可以看出,近年來(lái)所提CNNs中參數(shù)數(shù)量較多,訓(xùn)練和推理時(shí)間較長(zhǎng)。另外,高維輸入,網(wǎng)絡(luò)參數(shù)多,復(fù)雜CNNs的配置對(duì)處理單元效率、內(nèi)存帶寬、通信等硬件方面也提出了新的要求。下面我們主要介紹卷積神經(jīng)網(wǎng)絡(luò)里幾個(gè)重要的組成模塊。輸入層在卷積神經(jīng)網(wǎng)絡(luò)中,輸入層通常為多個(gè)數(shù)組,并且輸入大小通常是固定的。因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)具有平移不變性的特點(diǎn),因此其輸入并不需要大小規(guī)整和集中。
碩士學(xué)位論文9圖2.2常用激活函數(shù)示意圖池化層通常在卷積層之后是下采樣層,其作用是降低特征圖的分辨率,參數(shù)和計(jì)算量。如公式2.3。()jjZ=downX,(2.3)其中down(-)表示下采樣運(yùn)算。最大池化和平均池化是卷積神經(jīng)網(wǎng)絡(luò)中最典型的下采樣運(yùn)算,最大池化指的是取出某一局部特征塊中最大的特征值作為這個(gè)塊的最終特征值,其它特征值去掉。平均池化指的是求取某一局部特征塊的所有特征值的平均值作為該塊的最終特征值。除了上述方法,為緩解神經(jīng)網(wǎng)絡(luò)的過(guò)擬合問(wèn)題,許多研究者在上述方法的基礎(chǔ)上提出了Lp池化[80],隨機(jī)池[81]和混合池[82]等方法。與卷積核不同,下采樣對(duì)神經(jīng)網(wǎng)絡(luò)主要有兩個(gè)作用。第一是通過(guò)對(duì)輸入特征進(jìn)行下采樣,可以減小輸入特征的大小,減小運(yùn)算量。第二,通過(guò)下采樣,可以使輸出特征對(duì)單個(gè)神經(jīng)元單元的畸變和誤差具有更強(qiáng)的魯棒性[83]。全連接層輸入特征在經(jīng)過(guò)上述層之后,將得到高維的非線性特征。通過(guò)全連接層,神經(jīng)元將這些高維特征轉(zhuǎn)換為一維特征。其中全連接的每一層的神經(jīng)元都與上一層神經(jīng)元相連接,全連接層以這種更為復(fù)雜的方式提取到更多復(fù)雜的信息。對(duì)于圖像分類(lèi)來(lái)說(shuō),在全連接層之后接入分類(lèi)器,例如softmax,得到最后圖像分類(lèi)的結(jié)果。2.2VGG16卷積神經(jīng)網(wǎng)絡(luò)VGGNet[86]神經(jīng)網(wǎng)絡(luò)是2017年GoogleDeepMind研究員和牛津大學(xué)視覺(jué)幾何組共同提出。該網(wǎng)絡(luò)的貢獻(xiàn)在于證明了網(wǎng)絡(luò)盡管使用很小的卷積核,但通過(guò)增加網(wǎng)絡(luò)深度可以有效的提升網(wǎng)絡(luò)模型的效果。相比于其它網(wǎng)絡(luò),VGGNet對(duì)其它數(shù)
【參考文獻(xiàn)】:
期刊論文
[1]圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安. 自動(dòng)化學(xué)報(bào). 2016(09)
本文編號(hào):3027280
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3027280.html
最近更新
教材專(zhuān)著