面向遙感圖像分類與檢索的深度學習特征表達研究
發(fā)布時間:2020-08-03 15:39
【摘要】:近年來,隨著我國相繼成功發(fā)射了高分一號“GH-1”、高分二號“GH-2”、高分三號“GH-3”、高分四號“GH-4”以及高景一號“SuperView-1”等高分辨率遙感衛(wèi)星,遙感圖像數(shù)據(jù)呈現(xiàn)井噴式增長,這預(yù)示著我們正式進入遙感大數(shù)據(jù)時代。這些數(shù)據(jù)已經(jīng)廣泛應(yīng)用于土地利用、資源調(diào)查、環(huán)境調(diào)查、生態(tài)恢復、災(zāi)害防治、城市建設(shè)、國家安全等諸多領(lǐng)域。隨之而來的問題是,面對海量的遙感大數(shù)據(jù)進行存儲、管理、檢索與分類,如何從高分辨率遙感圖像中更加有效地提取特征,實現(xiàn)對高分辨率圖像的特征表示,成為了當前高分辨率遙感影像應(yīng)用面臨的新挑戰(zhàn)。面向?qū)ο蟮膱D像分析已經(jīng)成為高分辨率遙感圖像處理的主要手段,并且特征提取正在經(jīng)歷從傳統(tǒng)的以光譜特征為主發(fā)展為圖-譜相結(jié)合的人工設(shè)計特征提取,到近年來基于數(shù)據(jù)驅(qū)動的特征學習發(fā)展新時代。尤其是,在2012年,Krizhevsky等人提出了深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),是圖像識別領(lǐng)域的里程碑式工作,并已在圖像識別、目標檢測等應(yīng)用中都取得了巨大成功。基于此,本文以深度CNN為基礎(chǔ),對遙感圖像分類與檢索中的特征表達展開了深入研究:(1)在深度特征(如預(yù)訓練CNN模型的全連接層特征)的基礎(chǔ)之上,如何學習更具判別力的圖像表示,是獲得高精度遙感圖像分類的關(guān)鍵因素。(2)CNN卷積層特征包含豐富的圖像信息,如何從卷積層特征中提取有效的描述,是一個值得深入分析的問題。(3)CNN在一些小規(guī)模數(shù)據(jù)集上的精度趨于飽和,因此,基于大型數(shù)據(jù)集上的研究,如深度模型的遷移學習及其表示、深度特征的低維映射,是進一步提高分類或檢索性能的關(guān)鍵。(4)已有的工作中,提出了許多基于哈希映射的方法來解決海量數(shù)據(jù)的檢索問題,但多數(shù)方法采用的是人工設(shè)計特征,并且基于深度哈希表示的遙感圖像檢索研究也相對較少,有必要對其進行深入研究。論文的主要工作與創(chuàng)新如下:(1)全連接層特征提取與判別性卷積核學習:提出了一種提高卷積神經(jīng)網(wǎng)絡(luò)(CNN)全連接層特征可區(qū)分性的監(jiān)督卷積核學習方法—DCK(Discriminate Convolutional Kernel)。首先,將CNN提取的4096維全連接層特征重排列為64×64像素的二維圖像,以重疊的滑動窗口提取一系列圖像塊;再以類內(nèi)最小、類間最大學習準則,學習圖像塊的判別性卷積核;最后將學習的卷積核應(yīng)用于每一個圖像塊的特征變換。兩個遙感圖像數(shù)據(jù)集上的實驗表明,在不增加特征維數(shù)的情況下,基于DCK的深度特征變換有利于提高CNN全連接層特征的分類性能。(2)深度局部描述子提取與特征編碼:研究了CNN卷積層特征的局部描述子提取,并提出了描述子級與中層特征級的兩種聚合策略,用于融合兩種不同的CNN模型。首先,采用CaffeNet與VGG-VD16兩種不同深度的CNN,并移除模型中的全連接層。其次,CNN模型的輸入采用了圖像金字塔,以提取圖像在不同尺度下的卷積層特征。然后,將卷積特征圖的通道數(shù)量作為特征維度,并將多幅卷積特征圖在同一個空間位置的特征組合成單個描述子,分別采用Hellinger核和主成分分析對描述子作進一步變換。最后,采用聚合策略獲得圖像的全局表達。在兩個遙感圖像數(shù)據(jù)集上的分類實驗表明,基于圖像金字塔的深度描述子結(jié)合提出的聚合策略,可以獲得比全連接層特征更高的分類精度。(3)跨數(shù)據(jù)集遷移學習表示與深度特征降維:數(shù)據(jù)是深度學習的核心問題之一,好的學習數(shù)據(jù)有時甚至比設(shè)計一個全新的CNN網(wǎng)絡(luò)更加有效。因此,利用最近公開的五組大規(guī)模遙感圖像數(shù)據(jù)集,分析數(shù)據(jù)集之間的交叉遷移CNN特征表示。首先,采用了CaffeNet與VGG-VD16兩種不同深度的CNN模型,并利用遙感圖像數(shù)據(jù)集對其進行微調(diào)學習,對微調(diào)后的模型,對比分析了兩層全連接層特征的圖像表達能力。其次,采用了隨機投影的方式,對全連接層特征進行降維。實驗同時評價了遙感圖像分類與檢索兩種任務(wù),跨數(shù)據(jù)集的遷移學習可有效分析不同數(shù)據(jù)集的泛化表達能力,為其他研究人員在學習數(shù)據(jù)集的選擇提供一定的參考。隨機投影降維的優(yōu)點是不包含學習過程,可避免對大規(guī)模遙感圖像數(shù)據(jù)集進行降維子空間的學習。(4)全連接層的深度哈希編碼:基于特征編碼或深度CNN提取的特征,維度往往比較高,會顯著地增加圖像之間距離度量的計算復雜度。尤其在大規(guī)模圖像檢索任務(wù)中,大大降低了圖像檢索的計算效率,并且,所需要的存儲硬盤消耗也會比較大。研究了深度特征到二進制碼映射的哈希全連接神經(jīng)網(wǎng)絡(luò)設(shè)計問題,提出了一種包含三層全連接層的哈希神經(jīng)網(wǎng)絡(luò)(FCHNN)用于圖像特征的低維映射。FCHNN通過標簽對的監(jiān)督學習方式,可將中層特征(如Fisher向量編碼)、預(yù)訓練或微調(diào)CNN模型提取的深度特征映射至二進制碼。與基于端到端(像素特征到二進制碼)的哈希CNN相比,FCHNN具有學習效率高的優(yōu)勢。在存儲空間上,當將4096維深度特征編碼至64比特存儲時,僅需8個字節(jié)。在五組遙感圖像數(shù)據(jù)集的檢索實驗表明,FCHNN可以獲得理想的編碼效果和檢索性能。
【學位授予單位】:上海交通大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP751;TP18
【圖文】:
圖 1-1 本文的研究技術(shù)路線圖Fig. 1-1 The technology roadmap of this dissertation通過幾年的努力,取得的主要工作與研究創(chuàng)新如下:(1)全連接特征提取與判別性卷積核學習為了提高深度特征的表達能力,提出了基于類別可區(qū)分性準則的判別性卷積核(Discriminative Convolution Kernel,DCK)學習方法,并將學習到的卷積核應(yīng)用于深度特征的線性變換。為了驗證判別性卷積核學習的通用性,采用了 CaffeNet 和VGG-VD16 兩種預(yù)訓練 CNN 模型提取全連接層的 4096 維激活向量。首先,對激活向量進行重排列,獲得二維形式的圖像矩陣。其次,采用滑動窗口策略,從二維圖像矩陣中提取不同空間位置上的局部圖像塊。每個局部圖像塊的卷積核學習是獨立的,學習過程采用了監(jiān)督方式下的基于類內(nèi)距離最小、類間距離最大的最優(yōu)化準則,卷積核的求解過程可采用特征值分解的方式獲得。在兩個遙感場景圖像數(shù)據(jù)集的分類實驗上,驗證了DCK 核學習可以有效地提高預(yù)訓練深度特征的分類性能,尤其是在訓練樣本數(shù)較少的
第 35 頁圖 2-1 CNN 模型。(a)AlexNet, (b) CaffeNet, (c) VGG-VD16Fig. 2-1 CNN models. (a) AlexNet, (b) CaffeNet, (c) VGG-VD16CaffeNet[72]是 2012 年提出的模型,共包含 5 個卷積層和 3 個全連接層。Caf6000 萬個參數(shù)和 65 萬個神經(jīng)元, 包括 5 個卷積層和 3 個全連接層,且在兩個
從圖 2-2 中可以看到,在進行 DCK 學習之前,首先將 ImageNet 數(shù)據(jù)集訓練的 CNN 模型看作特征提取器,比如提取全連接層中的 4096 維激活向量。關(guān)于預(yù)訓練CNN 模型的最后一層分類層,該層是 ImageNet 數(shù)據(jù)集中的 1000 個類別輸出,這是該數(shù)據(jù)集特有的,而對遙感數(shù)據(jù)集的特征提取過程是不可用的。因此,從預(yù)訓練 CNN 模型的全連接層中提取 4096 維激活向量并進行 L2歸一化。其次,由于從深度 CNN 模型提取的 4096 維激活向量并不是矩陣表達的形式,而利用 Volterra 理論中學習的卷積核是圖像矩陣的形式。因此,需要采用重排列的方式,將激活向量重新排列成圖像矩陣的形式,使用固定步長的滑動窗口策略,從圖像矩陣中提取小尺寸的局部圖像塊,然后在每個提取的局部圖像塊上單獨進行 DCK 學習,從而獲得卷積濾波器核。第三,在 DCK核的學習過程中,采用類內(nèi)最小、類間最大的最優(yōu)化準則,通過對目標函數(shù)進行特征值求解的方式,得到一系列的具有判別力的 DCK 核,圖 2-2 右邊紅色箭頭所指的內(nèi)容即為根據(jù)可區(qū)分性準則學習到的一系列局部圖像塊的 DCK 核。最后,將卷積核應(yīng)用于深度特征的線性卷積變換。
本文編號:2779837
【學位授予單位】:上海交通大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP751;TP18
【圖文】:
圖 1-1 本文的研究技術(shù)路線圖Fig. 1-1 The technology roadmap of this dissertation通過幾年的努力,取得的主要工作與研究創(chuàng)新如下:(1)全連接特征提取與判別性卷積核學習為了提高深度特征的表達能力,提出了基于類別可區(qū)分性準則的判別性卷積核(Discriminative Convolution Kernel,DCK)學習方法,并將學習到的卷積核應(yīng)用于深度特征的線性變換。為了驗證判別性卷積核學習的通用性,采用了 CaffeNet 和VGG-VD16 兩種預(yù)訓練 CNN 模型提取全連接層的 4096 維激活向量。首先,對激活向量進行重排列,獲得二維形式的圖像矩陣。其次,采用滑動窗口策略,從二維圖像矩陣中提取不同空間位置上的局部圖像塊。每個局部圖像塊的卷積核學習是獨立的,學習過程采用了監(jiān)督方式下的基于類內(nèi)距離最小、類間距離最大的最優(yōu)化準則,卷積核的求解過程可采用特征值分解的方式獲得。在兩個遙感場景圖像數(shù)據(jù)集的分類實驗上,驗證了DCK 核學習可以有效地提高預(yù)訓練深度特征的分類性能,尤其是在訓練樣本數(shù)較少的
第 35 頁圖 2-1 CNN 模型。(a)AlexNet, (b) CaffeNet, (c) VGG-VD16Fig. 2-1 CNN models. (a) AlexNet, (b) CaffeNet, (c) VGG-VD16CaffeNet[72]是 2012 年提出的模型,共包含 5 個卷積層和 3 個全連接層。Caf6000 萬個參數(shù)和 65 萬個神經(jīng)元, 包括 5 個卷積層和 3 個全連接層,且在兩個
從圖 2-2 中可以看到,在進行 DCK 學習之前,首先將 ImageNet 數(shù)據(jù)集訓練的 CNN 模型看作特征提取器,比如提取全連接層中的 4096 維激活向量。關(guān)于預(yù)訓練CNN 模型的最后一層分類層,該層是 ImageNet 數(shù)據(jù)集中的 1000 個類別輸出,這是該數(shù)據(jù)集特有的,而對遙感數(shù)據(jù)集的特征提取過程是不可用的。因此,從預(yù)訓練 CNN 模型的全連接層中提取 4096 維激活向量并進行 L2歸一化。其次,由于從深度 CNN 模型提取的 4096 維激活向量并不是矩陣表達的形式,而利用 Volterra 理論中學習的卷積核是圖像矩陣的形式。因此,需要采用重排列的方式,將激活向量重新排列成圖像矩陣的形式,使用固定步長的滑動窗口策略,從圖像矩陣中提取小尺寸的局部圖像塊,然后在每個提取的局部圖像塊上單獨進行 DCK 學習,從而獲得卷積濾波器核。第三,在 DCK核的學習過程中,采用類內(nèi)最小、類間最大的最優(yōu)化準則,通過對目標函數(shù)進行特征值求解的方式,得到一系列的具有判別力的 DCK 核,圖 2-2 右邊紅色箭頭所指的內(nèi)容即為根據(jù)可區(qū)分性準則學習到的一系列局部圖像塊的 DCK 核。最后,將卷積核應(yīng)用于深度特征的線性卷積變換。
【參考文獻】
相關(guān)期刊論文 前4條
1 李武軍;周志華;;大數(shù)據(jù)哈希學習:現(xiàn)狀與趨勢[J];科學通報;2015年Z1期
2 王增茂;杜博;張良培;張樂飛;;基于紋理特征和形態(tài)學特征融合的高光譜影像分類法[J];光子學報;2014年08期
3 莊福振;羅平;何清;史忠植;;遷移學習研究進展[J];軟件學報;2015年01期
4 朱先強;黃金才;邵振峰;程光權(quán);;一種定義感興趣局部顯著特征的新方法及其在遙感影像檢索中的應(yīng)用[J];武漢大學學報(信息科學版);2013年06期
相關(guān)博士學位論文 前3條
1 孟丹;基于深度學習的圖像分類方法研究[D];華東師范大學;2017年
2 廖紅虹;視覺詞袋模型架構(gòu)下的圖像分類算法研究[D];華中科技大學;2014年
3 龍明盛;遷移學習問題與方法研究[D];清華大學;2014年
相關(guān)碩士學位論文 前5條
1 王盛;基于標簽對的深度哈希學習[D];南京大學;2017年
2 李蕾;基于哈希的圖像檢索研究[D];北京交通大學;2017年
3 魯瀟瀟;圖像分類中高階特征編碼方法的研究[D];大連理工大學;2016年
4 謝李鵬;基于局部不變特征融合的圖像檢索技術(shù)研究[D];電子科技大學;2016年
5 仇媛媛;基于視覺顯著性的物體檢測方法研究[D];上海交通大學;2013年
本文編號:2779837
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2779837.html
最近更新
教材專著