感受野學(xué)習(xí)模型、方法與應(yīng)用研究
發(fā)布時間:2021-11-21 00:34
圖像檢測與識別任務(wù)的性能很大程度上取決于特征的表達(dá)能力,好的特征應(yīng)該能丟棄無關(guān)信息,并將圖像中與任務(wù)相關(guān)的要素充分的抽象出來。傳統(tǒng)的描述子受到表達(dá)能力的限制,成為圖像檢測與識別任務(wù)中的瓶頸。而近年來迅速發(fā)展的特征學(xué)習(xí)模型能夠從數(shù)據(jù)中學(xué)習(xí)圖像的特征,將圖像檢測與識別算法的能力推向了一個新的高度。在特征學(xué)習(xí)算法中,通過對特征的池化(pooling)操作,可以生成一個更有效、包含了重要信息的新特征,同時拋棄一些無關(guān)細(xì)節(jié)。池化能夠使特征產(chǎn)生一些較為復(fù)雜的特性,因此有研究者也將特征學(xué)習(xí)模型中的池化,與哺乳動物復(fù)雜視覺細(xì)胞相對應(yīng)。在神經(jīng)科學(xué)中,這些復(fù)雜視覺細(xì)胞對于輸入信號的響應(yīng)具有局部性、帶通性和選擇性,上述性質(zhì)也被稱作復(fù)雜視覺細(xì)胞的感受野。本文的主要工作,圍繞面向圖像檢測和識別任務(wù)的特征學(xué)習(xí)展開,旨在通過對池化模型的改進,進一步地提高特征的表達(dá)能力。一些研究者將池化模型上的學(xué)習(xí)方法稱為感受野學(xué)習(xí)。本文對特征詞袋(Bag-of-features,BoF)模型和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)模型上的池化展開研究,主要工作和貢獻(xiàn)包含以下四個方面:1...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:125 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1面向圖像識別的Bag-of-features模型框架圖??
?為獲得更加豐富的特征空間上的分布信息,許多子區(qū)域的分割方式如規(guī)則網(wǎng)??格結(jié)構(gòu)、空間金字塔[38]、超完備(如圖1-3)等方案被相繼提出,使BoF特征??包含更為豐富的局部信息。??■?■■■??■?■?■?■?ib'??■?■■■?■■■■■■_■■國??■?■■■雇_??鼉?SSS5ISSE5S??■?:::5::S:SS??OT?IH?m?WKt?■■■■■■■■■■??umum?歷■■醒?ssassssss:??(a)?(b)?(c)??圖1-3池化區(qū)域。(a)規(guī)則網(wǎng)格;(b)空間金字塔;(c)超完備??除了減少特征的數(shù)量之外,池化還能夠為特征表達(dá)帶來一些非常有用的特性,??比如平移不變性。這意味著即使將圖像進行一個小的平移,所產(chǎn)生的特征表達(dá)也??不發(fā)生變化。??1.2.2卷積神經(jīng)網(wǎng)絡(luò)??卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型。其最早的設(shè)想源于??20世紀(jì)60年代,Hubei和Wiesel在研究貓視覺皮層細(xì)胞[27]時,發(fā)現(xiàn)產(chǎn)生局部敏感??性和方向選擇性的神經(jīng)元組成了一個特別的網(wǎng)絡(luò)結(jié)構(gòu),提出了感受野(receptive??field)的概念。據(jù)此,K.Fukushima在1980年提出的神經(jīng)認(rèn)知機(neocognitron)??被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的原型【28]。1989年Y.LeCun將BP?(Back-Propagation)算??法同卷積神經(jīng)網(wǎng)絡(luò)結(jié)合進行圖像識別,該模型被認(rèn)為是第一個現(xiàn)代意義的卷積神??經(jīng)網(wǎng)絡(luò)[29]。??一般來說,CNN包括兩種基本結(jié)構(gòu),一個是卷積層,每個神經(jīng)元與上一層的??局部感受野相連接
LeNet-5是LeCun等人于1989年提出的一個用于手寫字體識別的卷積神經(jīng)網(wǎng)??絡(luò)[29],是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展過程中一個具有里程碑意義的經(jīng)典模型。LeNet-5網(wǎng)絡(luò)??由7層組成,每一層都包含了可訓(xùn)練的參數(shù),具體模型結(jié)構(gòu)如圖1-4所示。與當(dāng)前??主流的卷積神經(jīng)網(wǎng)絡(luò)較為不同的一點是,池化層S2特征圖與卷積層C3特征圖之??間的連接采用了部分連接的方式。對此,LeCim等人提出了兩點原因:首先,不??完全的連接能夠控制參數(shù)的數(shù)量;其次,打破網(wǎng)絡(luò)的對稱性,有利于特征圖能夠??學(xué)習(xí)到多樣化的特征。??C3:?f.?maps?16@10x10??IK1pi,T?C1:?feature?maps?S4:?f.?maps?16@5x5??Full?conhection?|?Gaussian??Convolutions?Subsampling?Convolutions?Subsampling?Full?connection??圖1-4?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)[29]??AlexNet是由Hinton的學(xué)生Alex?Krizhevsky于2012年提出的一種卷積神經(jīng)網(wǎng)??絡(luò)模型該模型T〇P5的錯誤率為15.3%,與之前最好的算法相比,錯誤率下降??了近一半,在當(dāng)年的ImageNet圖像識別競賽中獲得了冠軍。由于該算法的出色性??能,引起了學(xué)術(shù)界和工業(yè)界對于深度學(xué)習(xí)算法的強烈關(guān)注,成為深度學(xué)習(xí)發(fā)展的??一個轉(zhuǎn)折點。AlexNet由5個卷積層、3個池化層和2個全連接層組成。模型采用??了?224x224的三通道圖像作為輸入
本文編號:3508400
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:125 頁
【學(xué)位級別】:博士
【部分圖文】:
圖1-1面向圖像識別的Bag-of-features模型框架圖??
?為獲得更加豐富的特征空間上的分布信息,許多子區(qū)域的分割方式如規(guī)則網(wǎng)??格結(jié)構(gòu)、空間金字塔[38]、超完備(如圖1-3)等方案被相繼提出,使BoF特征??包含更為豐富的局部信息。??■?■■■??■?■?■?■?ib'??■?■■■?■■■■■■_■■國??■?■■■雇_??鼉?SSS5ISSE5S??■?:::5::S:SS??OT?IH?m?WKt?■■■■■■■■■■??umum?歷■■醒?ssassssss:??(a)?(b)?(c)??圖1-3池化區(qū)域。(a)規(guī)則網(wǎng)格;(b)空間金字塔;(c)超完備??除了減少特征的數(shù)量之外,池化還能夠為特征表達(dá)帶來一些非常有用的特性,??比如平移不變性。這意味著即使將圖像進行一個小的平移,所產(chǎn)生的特征表達(dá)也??不發(fā)生變化。??1.2.2卷積神經(jīng)網(wǎng)絡(luò)??卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型。其最早的設(shè)想源于??20世紀(jì)60年代,Hubei和Wiesel在研究貓視覺皮層細(xì)胞[27]時,發(fā)現(xiàn)產(chǎn)生局部敏感??性和方向選擇性的神經(jīng)元組成了一個特別的網(wǎng)絡(luò)結(jié)構(gòu),提出了感受野(receptive??field)的概念。據(jù)此,K.Fukushima在1980年提出的神經(jīng)認(rèn)知機(neocognitron)??被認(rèn)為是卷積神經(jīng)網(wǎng)絡(luò)的原型【28]。1989年Y.LeCun將BP?(Back-Propagation)算??法同卷積神經(jīng)網(wǎng)絡(luò)結(jié)合進行圖像識別,該模型被認(rèn)為是第一個現(xiàn)代意義的卷積神??經(jīng)網(wǎng)絡(luò)[29]。??一般來說,CNN包括兩種基本結(jié)構(gòu),一個是卷積層,每個神經(jīng)元與上一層的??局部感受野相連接
LeNet-5是LeCun等人于1989年提出的一個用于手寫字體識別的卷積神經(jīng)網(wǎng)??絡(luò)[29],是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展過程中一個具有里程碑意義的經(jīng)典模型。LeNet-5網(wǎng)絡(luò)??由7層組成,每一層都包含了可訓(xùn)練的參數(shù),具體模型結(jié)構(gòu)如圖1-4所示。與當(dāng)前??主流的卷積神經(jīng)網(wǎng)絡(luò)較為不同的一點是,池化層S2特征圖與卷積層C3特征圖之??間的連接采用了部分連接的方式。對此,LeCim等人提出了兩點原因:首先,不??完全的連接能夠控制參數(shù)的數(shù)量;其次,打破網(wǎng)絡(luò)的對稱性,有利于特征圖能夠??學(xué)習(xí)到多樣化的特征。??C3:?f.?maps?16@10x10??IK1pi,T?C1:?feature?maps?S4:?f.?maps?16@5x5??Full?conhection?|?Gaussian??Convolutions?Subsampling?Convolutions?Subsampling?Full?connection??圖1-4?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)[29]??AlexNet是由Hinton的學(xué)生Alex?Krizhevsky于2012年提出的一種卷積神經(jīng)網(wǎng)??絡(luò)模型該模型T〇P5的錯誤率為15.3%,與之前最好的算法相比,錯誤率下降??了近一半,在當(dāng)年的ImageNet圖像識別競賽中獲得了冠軍。由于該算法的出色性??能,引起了學(xué)術(shù)界和工業(yè)界對于深度學(xué)習(xí)算法的強烈關(guān)注,成為深度學(xué)習(xí)發(fā)展的??一個轉(zhuǎn)折點。AlexNet由5個卷積層、3個池化層和2個全連接層組成。模型采用??了?224x224的三通道圖像作為輸入
本文編號:3508400
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3508400.html
最近更新
教材專著