基于卷積神經(jīng)網(wǎng)絡(luò)的視覺識別研究
發(fā)布時間:2019-11-06 20:30
【摘要】:近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)憑借其強大的特征學習能力在視覺識別領(lǐng)域取得重要進展,并受到學術(shù)界和工業(yè)界的廣泛關(guān)注。首先,本文對CNN的結(jié)構(gòu)進行如下兩方面的創(chuàng)新研究:1)針對CNN全連接層對圖像平移、旋轉(zhuǎn)、縮放等變換比較敏感的問題,提出了一種混合模型——卷積詞袋網(wǎng)絡(luò)(Bo CW-Net)。它將Bo W模型嵌入CNN結(jié)構(gòu)中并代替全連接層,通過端到端的方式學習特征、字典和分類器。為實現(xiàn)Bo CW-Net整個網(wǎng)絡(luò)的有監(jiān)督學習,提出基于方向相似度的Bo CW編碼。同時,為充分利用中層特征和高層特征的鑒別性,將中層輔助分類器與高層分類器集成,形成主-輔集成分類器。實驗結(jié)果表明:相比全連接層,Bo CW表示對各種變換具有更強的不變性;主-輔集成分類器能有效融合中層、高層特征,提高Bo CW-Net的識別性能;Bo CW-Net在CIFAR-10、CIFAR-100和MNIST數(shù)據(jù)庫上均取得了改進的識別性能,最終分別獲得4.88%、22.48%和0.21%的測試錯誤率。2)鏈式結(jié)構(gòu)的CNN雖然能利用表征全局的高層特征解決一般的粗糙分類問題,但沒有利用表征局部細節(jié)的中層特征解決精細分類問題。因此本文提出另外一種改進模型——卷積詞袋-融合網(wǎng)絡(luò)(Bo CW-Fusion Net)。它將中層、高層特征的Bo CW表示進行級聯(lián)后再連接分類器,同樣是通過端到端的有監(jiān)督方式學習特征、字典和分類器。實驗結(jié)果表明:Bo CW-Fusion Net相比鏈式CNN獲得微小的改進性能,在CIFAR-10和CIFAR-100數(shù)據(jù)庫上分別獲得5.36%和24.82%的測試錯誤率。然后,利用改進的CNN模型(Bo CW-Net和Bo CW-Fusion Net)來解決實際應用問題,包括車型行人識別以及男女性別識別。車型行人數(shù)據(jù)包含6類車型(客車、轎車、面包車、貨車、三輪車以及摩托車)和1類行人的圖像,分類準確率分別為98.06%(Bo CW-Net)和97.94%(Bo CW-Fusion Net)。男女性別數(shù)據(jù)包含男女兩類的人臉或頭像照片,分類準確率分別為96.20%(Bo CW-Net)和94.90%(Bo CW-Fusion Net)。實際應用表明,改進的CNN模型均獲得較好的識別性能。Bo CW-Net和Bo CW-Fusion Net的分類性能比較表明:無論公共數(shù)據(jù)庫還是實際應用數(shù)據(jù),中層、高層Bo CW表示的主-輔分類器集成方式相比級聯(lián)方式能有效地融合中層和高層特征。最后,使用Bo CW-Net參與Kaggle大數(shù)據(jù)分析平臺上的CIFAR-10物體識別競賽和FER2013人臉表情識別競賽,分別獲得95.10%和70.10%的分類準確率,在排行榜上均為第二名。
【圖文】:
還包含一個或者多個隱含層。輸入層接收的輸入數(shù)據(jù),經(jīng)過個隱含層逐層傳播后,達到輸出層輸入結(jié)果,如圖2.2 所示。神經(jīng)網(wǎng)絡(luò)采用反向傳播(back propagation,,BP)算法進行訓練。BP 算法的基本思想是:數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)傳播后得到輸出結(jié)果,如果實際輸出與期望輸出存在誤差,則將輸出誤差以某種形式通過隱含層向輸出層逐層反向傳播,并將誤差分配到各層的神經(jīng)元,從而得到所有神經(jīng)元的誤差信號,并以此誤差信號修正各個神經(jīng)元的權(quán)值。輸入數(shù)據(jù)的正向傳播與輸出誤差的反向傳播是神經(jīng)網(wǎng)絡(luò)的一大特點,這個過程一直進行到網(wǎng)絡(luò)輸出的誤差較少到可接受的程度,或者達到預先設(shè)定的學習次數(shù)為止。輸入 隱含層 隱含層 輸出圖 2.2 人工神經(jīng)網(wǎng)絡(luò)2.2 卷積神經(jīng)網(wǎng)絡(luò)的基本思想CNN 是人工神經(jīng)網(wǎng)絡(luò)的變種,其來源于 Hubel 和 Wiesel 對于貓初級視皮層的研究。初級視皮層包括簡單細胞(simple cell)和復雜細胞(complex cell)。簡單細胞主要感知其局部感受野(local receptive fields)內(nèi)的特定邊緣刺激,而復雜細胞以簡單細胞的響應作為輸入,以更大的局部感受野響應邊緣刺激。
特征(如圖 2.3 所示),有效模擬人腦初級視皮層中簡單細胞的功能。一NN 會利用多組卷積核(10×10)提取多種特征,則將產(chǎn)生 N×102個權(quán)值卷積核的組數(shù)(也就是特征圖的個數(shù))。
【學位授予單位】:華南農(nóng)業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.41;TP183
本文編號:2556884
【圖文】:
還包含一個或者多個隱含層。輸入層接收的輸入數(shù)據(jù),經(jīng)過個隱含層逐層傳播后,達到輸出層輸入結(jié)果,如圖2.2 所示。神經(jīng)網(wǎng)絡(luò)采用反向傳播(back propagation,,BP)算法進行訓練。BP 算法的基本思想是:數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)傳播后得到輸出結(jié)果,如果實際輸出與期望輸出存在誤差,則將輸出誤差以某種形式通過隱含層向輸出層逐層反向傳播,并將誤差分配到各層的神經(jīng)元,從而得到所有神經(jīng)元的誤差信號,并以此誤差信號修正各個神經(jīng)元的權(quán)值。輸入數(shù)據(jù)的正向傳播與輸出誤差的反向傳播是神經(jīng)網(wǎng)絡(luò)的一大特點,這個過程一直進行到網(wǎng)絡(luò)輸出的誤差較少到可接受的程度,或者達到預先設(shè)定的學習次數(shù)為止。輸入 隱含層 隱含層 輸出圖 2.2 人工神經(jīng)網(wǎng)絡(luò)2.2 卷積神經(jīng)網(wǎng)絡(luò)的基本思想CNN 是人工神經(jīng)網(wǎng)絡(luò)的變種,其來源于 Hubel 和 Wiesel 對于貓初級視皮層的研究。初級視皮層包括簡單細胞(simple cell)和復雜細胞(complex cell)。簡單細胞主要感知其局部感受野(local receptive fields)內(nèi)的特定邊緣刺激,而復雜細胞以簡單細胞的響應作為輸入,以更大的局部感受野響應邊緣刺激。
特征(如圖 2.3 所示),有效模擬人腦初級視皮層中簡單細胞的功能。一NN 會利用多組卷積核(10×10)提取多種特征,則將產(chǎn)生 N×102個權(quán)值卷積核的組數(shù)(也就是特征圖的個數(shù))。
【學位授予單位】:華南農(nóng)業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.41;TP183
【參考文獻】
相關(guān)期刊論文 前1條
1 段寶彬;韓立新;;改進的深度卷積網(wǎng)絡(luò)及在碎紙片拼接中的應用[J];計算機工程與應用;2014年09期
本文編號:2556884
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2556884.html
最近更新
教材專著