基于深度網(wǎng)絡(luò)的遙感圖像描述方法研究
發(fā)布時(shí)間:2021-03-28 15:36
圖像描述,即產(chǎn)生給定圖像的自然語(yǔ)義描述,是使得機(jī)器能夠理解圖像內(nèi)容的關(guān)鍵任務(wù)。遙感圖像描述是此領(lǐng)域的一部分。大部分主流的圖像描述模型通常由編碼器和解碼器組成。在編碼器部分,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征。在解碼器部分,通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體,如長(zhǎng)短期記憶網(wǎng)絡(luò),輸出給定圖像的描述性文本。然而,當(dāng)前的遙感圖像描述模型存在過(guò)擬合問(wèn)題,并且沒(méi)有充分利用圖像中的語(yǔ)義信息。為此,本論文基于編碼解碼架構(gòu)搭建模型,采用了微調(diào)網(wǎng)絡(luò)架構(gòu)的Transformer作為新的解碼器。并且針對(duì)于遙感圖像描述模型,設(shè)計(jì)了基于變分自編碼器的兩步優(yōu)化算法,創(chuàng)新點(diǎn)如下:針對(duì)遙感圖像數(shù)據(jù)集規(guī)模偏小,容易過(guò)擬合的問(wèn)題,本論文提出采用微調(diào)網(wǎng)絡(luò)架構(gòu)的Transformer作為新的解碼器,創(chuàng)新點(diǎn)如下:在原始Transformer的基礎(chǔ)上添加了額外的dropout層和殘差連接并對(duì)提取的特征進(jìn)行了自適應(yīng)融合,將編碼器編碼的低層空間特征和高層語(yǔ)義特征同時(shí)傳輸至解碼器進(jìn)行解碼,并將強(qiáng)化學(xué)習(xí)引入至遙感圖像描述模型,進(jìn)一步提升遙感圖像描述模型的性能。另外,針對(duì)因遙感圖像和自然圖像之間的差異而導(dǎo)致的ImageNet上預(yù)訓(xùn)練的編碼器對(duì)遙感圖像特...
【文章來(lái)源】:中國(guó)礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
經(jīng)典圖像描述模型網(wǎng)絡(luò)結(jié)構(gòu)
1緒論9Transformer擁有更加強(qiáng)大的序列特征提取能力和更高效的訓(xùn)練效率。2018年,Zhu[37]等人最先嘗試把Transformer模型作為自然圖像描述模型的解碼器,取得了很好的實(shí)驗(yàn)結(jié)果,但是在遙感圖像內(nèi)容描述上的研究工作還很少。3.在圖像描述任務(wù)中,訓(xùn)練的目標(biāo)通常是最小化一個(gè)交叉熵?fù)p失函數(shù),而模型測(cè)試的性能表現(xiàn)卻是由各種人為設(shè)定的評(píng)價(jià)指標(biāo)來(lái)決定的。這兩者之間的巨大差異將會(huì)影響模型最后的性能表現(xiàn)。強(qiáng)化學(xué)習(xí)被逐漸引入到自然圖像描述領(lǐng)域[44,57],并且取得了巨大的成功,但是如何使用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)遙感圖像描述模型的性能仍少有研究工作涉及。1.4論文的主要貢獻(xiàn)和研究動(dòng)機(jī)(MainContributionsandMotivationsoftheThesis)本文的研究?jī)?nèi)容主要針對(duì)上述的當(dāng)前研究任務(wù)的不足,目標(biāo)是提高模型在遙感圖像描述任務(wù)上的性能表現(xiàn)。整體的研究框架如圖1-2所示。本論文的主要貢獻(xiàn)和動(dòng)機(jī)列舉如下:1.使用包含了變分自編碼器的支路對(duì)輸入的遙感圖像進(jìn)行還原,以此來(lái)對(duì)共用的編碼器進(jìn)行正則約束,并且更加高效地提取遙感圖像特征。變分自編碼器可以視作一個(gè)在編碼器上添加了正則化的普通自編碼器,這樣做可以在緩解過(guò)擬合問(wèn)題的同時(shí),保證隱空間能夠生成一些新數(shù)據(jù)的優(yōu)良特性。遙感圖像的數(shù)據(jù)集大都規(guī)模不大,而由此帶來(lái)的過(guò)擬合問(wèn)題就相對(duì)嚴(yán)重,添加包含變分自編碼器的支路可以有效緩解這一過(guò)擬合問(wèn)題。與此同時(shí),變分自編碼器中的還原輸入遙感圖像的操作可以使得在圖1-2整體研究框架Figure1-2Theoverallresearchframework
2相關(guān)技術(shù)及理論13卷積層中包含的卷積操作(convolution)是卷積神經(jīng)網(wǎng)絡(luò)中最核心的部分!熬矸e”的定義來(lái)源于數(shù)學(xué),因其操作方式與數(shù)學(xué)中的卷積相類似。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積的操作通常被用來(lái)提取圖像的特征。VGG網(wǎng)絡(luò)中的卷積核全部為3×3或1×1,并且通過(guò)網(wǎng)絡(luò)層數(shù)的加深,逐漸擴(kuò)大感受野。圖2-2演示了在一幅圖像上使用3×3的卷積核進(jìn)行卷積操作的過(guò)程。由于經(jīng)過(guò)卷積之后獲得圖像特征圖通道數(shù)增多,由此帶來(lái)的參數(shù)量也會(huì)更大。為了緩解由此帶來(lái)計(jì)算量問(wèn)題和過(guò)擬合問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)中采取了池化操作。常見(jiàn)的池化操作包括最大池化(maxpooling)和平均池化(averagepooling)。最大池化即取局部區(qū)域中的最大值最為結(jié)果,平均池化即取局部區(qū)圖2-1VGG網(wǎng)絡(luò)架構(gòu)[18]Figure2-1NetworkArchitectureofVGG[18]圖2-2卷積操作Figure2-2ExamplesofConvolution
【參考文獻(xiàn)】:
期刊論文
[1]基于條件隨機(jī)場(chǎng)的遙感圖像語(yǔ)義標(biāo)注[J]. 楊俊俐,姜志國(guó),周全,張浩鵬,史駿. 航空學(xué)報(bào). 2015(09)
[2]基于語(yǔ)義的遙感影像數(shù)據(jù)檢索關(guān)鍵技術(shù)研究[J]. 王金杰,周海芳. 計(jì)算機(jī)與數(shù)字工程. 2012(08)
[3]一個(gè)基于語(yǔ)義挖掘的遙感影像檢索模型[J]. 劉婷婷,李平湘,張良培,陳旭. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2009(06)
碩士論文
[1]基于深度學(xué)習(xí)的視覺(jué)內(nèi)容描述技術(shù)研究[D]. 李林科.電子科技大學(xué) 2018
本文編號(hào):3105809
【文章來(lái)源】:中國(guó)礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
經(jīng)典圖像描述模型網(wǎng)絡(luò)結(jié)構(gòu)
1緒論9Transformer擁有更加強(qiáng)大的序列特征提取能力和更高效的訓(xùn)練效率。2018年,Zhu[37]等人最先嘗試把Transformer模型作為自然圖像描述模型的解碼器,取得了很好的實(shí)驗(yàn)結(jié)果,但是在遙感圖像內(nèi)容描述上的研究工作還很少。3.在圖像描述任務(wù)中,訓(xùn)練的目標(biāo)通常是最小化一個(gè)交叉熵?fù)p失函數(shù),而模型測(cè)試的性能表現(xiàn)卻是由各種人為設(shè)定的評(píng)價(jià)指標(biāo)來(lái)決定的。這兩者之間的巨大差異將會(huì)影響模型最后的性能表現(xiàn)。強(qiáng)化學(xué)習(xí)被逐漸引入到自然圖像描述領(lǐng)域[44,57],并且取得了巨大的成功,但是如何使用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)遙感圖像描述模型的性能仍少有研究工作涉及。1.4論文的主要貢獻(xiàn)和研究動(dòng)機(jī)(MainContributionsandMotivationsoftheThesis)本文的研究?jī)?nèi)容主要針對(duì)上述的當(dāng)前研究任務(wù)的不足,目標(biāo)是提高模型在遙感圖像描述任務(wù)上的性能表現(xiàn)。整體的研究框架如圖1-2所示。本論文的主要貢獻(xiàn)和動(dòng)機(jī)列舉如下:1.使用包含了變分自編碼器的支路對(duì)輸入的遙感圖像進(jìn)行還原,以此來(lái)對(duì)共用的編碼器進(jìn)行正則約束,并且更加高效地提取遙感圖像特征。變分自編碼器可以視作一個(gè)在編碼器上添加了正則化的普通自編碼器,這樣做可以在緩解過(guò)擬合問(wèn)題的同時(shí),保證隱空間能夠生成一些新數(shù)據(jù)的優(yōu)良特性。遙感圖像的數(shù)據(jù)集大都規(guī)模不大,而由此帶來(lái)的過(guò)擬合問(wèn)題就相對(duì)嚴(yán)重,添加包含變分自編碼器的支路可以有效緩解這一過(guò)擬合問(wèn)題。與此同時(shí),變分自編碼器中的還原輸入遙感圖像的操作可以使得在圖1-2整體研究框架Figure1-2Theoverallresearchframework
2相關(guān)技術(shù)及理論13卷積層中包含的卷積操作(convolution)是卷積神經(jīng)網(wǎng)絡(luò)中最核心的部分!熬矸e”的定義來(lái)源于數(shù)學(xué),因其操作方式與數(shù)學(xué)中的卷積相類似。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積的操作通常被用來(lái)提取圖像的特征。VGG網(wǎng)絡(luò)中的卷積核全部為3×3或1×1,并且通過(guò)網(wǎng)絡(luò)層數(shù)的加深,逐漸擴(kuò)大感受野。圖2-2演示了在一幅圖像上使用3×3的卷積核進(jìn)行卷積操作的過(guò)程。由于經(jīng)過(guò)卷積之后獲得圖像特征圖通道數(shù)增多,由此帶來(lái)的參數(shù)量也會(huì)更大。為了緩解由此帶來(lái)計(jì)算量問(wèn)題和過(guò)擬合問(wèn)題,卷積神經(jīng)網(wǎng)絡(luò)中采取了池化操作。常見(jiàn)的池化操作包括最大池化(maxpooling)和平均池化(averagepooling)。最大池化即取局部區(qū)域中的最大值最為結(jié)果,平均池化即取局部區(qū)圖2-1VGG網(wǎng)絡(luò)架構(gòu)[18]Figure2-1NetworkArchitectureofVGG[18]圖2-2卷積操作Figure2-2ExamplesofConvolution
【參考文獻(xiàn)】:
期刊論文
[1]基于條件隨機(jī)場(chǎng)的遙感圖像語(yǔ)義標(biāo)注[J]. 楊俊俐,姜志國(guó),周全,張浩鵬,史駿. 航空學(xué)報(bào). 2015(09)
[2]基于語(yǔ)義的遙感影像數(shù)據(jù)檢索關(guān)鍵技術(shù)研究[J]. 王金杰,周海芳. 計(jì)算機(jī)與數(shù)字工程. 2012(08)
[3]一個(gè)基于語(yǔ)義挖掘的遙感影像檢索模型[J]. 劉婷婷,李平湘,張良培,陳旭. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2009(06)
碩士論文
[1]基于深度學(xué)習(xí)的視覺(jué)內(nèi)容描述技術(shù)研究[D]. 李林科.電子科技大學(xué) 2018
本文編號(hào):3105809
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3105809.html
最近更新
教材專著