天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的圖像描述算法研究

發(fā)布時(shí)間:2020-06-09 05:58
【摘要】:圖像描述是一種對(duì)輸入的圖像,能夠準(zhǔn)確地生成描述圖像內(nèi)容文本的多模態(tài)任務(wù)。該任務(wù)除了需要利用計(jì)算機(jī)視覺技術(shù)外,也需要使用自然語(yǔ)言處理的相關(guān)技術(shù)。將圖像內(nèi)容轉(zhuǎn)化為描述圖像內(nèi)容的文本,可以建立圖像中對(duì)象之間的語(yǔ)義關(guān)系,加強(qiáng)對(duì)圖像內(nèi)容的深入理解;谏疃葘W(xué)習(xí)的編碼器解碼器框架雖然已為解決圖像描述任務(wù)提供了一套解決方案,但是現(xiàn)有的方法還存在識(shí)別率不高等問(wèn)題,主要體現(xiàn)在:1)對(duì)圖像的空間區(qū)域信息利用程度不夠;2)通過(guò)交叉熵?fù)p失函數(shù)訓(xùn)練得到的模型存在著訓(xùn)練階段和測(cè)試階段的偏置問(wèn)題;3)基于遞歸神經(jīng)網(wǎng)絡(luò)的圖像描述模型存在著訓(xùn)練并行度不高的問(wèn)題。針對(duì)以上問(wèn)題,本文提出了一系列的改進(jìn)方案。本文研究?jī)?nèi)容包括基于多注意力機(jī)制和并行堆疊遞歸神經(jīng)網(wǎng)絡(luò)的圖像描述算法,基于字典控制門和自適應(yīng)自監(jiān)督增強(qiáng)學(xué)習(xí)的圖像描述算法,基于堆疊注意力機(jī)制和多級(jí)監(jiān)督的圖像描述算法。本文的主要?jiǎng)?chuàng)新工作如下:(1)基于多注意力機(jī)制和并行堆疊長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的圖像描述模型。針對(duì)圖像描述任務(wù)中,如何使描述文本在不同的時(shí)刻都能更加有效地利用圖像局部信息的問(wèn)題,提出了一種多注意力機(jī)制的改進(jìn)方法。傳統(tǒng)的注意力機(jī)制,僅僅考慮了如何在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的輸入階段融合圖像的局部信息,本文為了多階段地融合圖像的局部信息提出了一種多注意力機(jī)制圖像描述模型。首先,該模型能夠在長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的各個(gè)階段,有效融合圖像的局部特征信息。另外,在單詞的生成階段,所提出的模型也能夠高效地利用圖像局部特征。最后,為了解決長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)于歷史信息建模不足的問(wèn)題,本文提出了利用單詞歷史信息和圖像本身的語(yǔ)義信息進(jìn)行建模的方法;谝陨先(xiàng)對(duì)注意力機(jī)制的改進(jìn),圖像描述模型的性能得到了一定的提高。本文進(jìn)一步提出了一種新的并行堆疊長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),同時(shí)進(jìn)行了一系列的對(duì)比實(shí)驗(yàn),相對(duì)于傳統(tǒng)的堆疊長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),模型的性能得到了有效的提升。(2)基于字典控制門和自適應(yīng)自監(jiān)督增強(qiáng)學(xué)習(xí)的圖像描述模型。圖像描述任務(wù)是一種單詞序列生成任務(wù),由于傳統(tǒng)的基于遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法是基于交叉熵?fù)p失函數(shù),所以會(huì)導(dǎo)致模型存在訓(xùn)練階段和測(cè)試階段不一致的問(wèn)題。為了解決該問(wèn)題,本文提出了自適應(yīng)自監(jiān)督的增強(qiáng)學(xué)習(xí)方法。該方法相較于之前的方法,它的訓(xùn)練基準(zhǔn)更加穩(wěn)定。該方法與基于交叉熵?fù)p失函數(shù)的訓(xùn)練不同,它是通過(guò)一個(gè)獎(jiǎng)勵(lì)函數(shù)進(jìn)行有效的訓(xùn)練。該獎(jiǎng)勵(lì)函數(shù)綜合考慮了詞匯之間的相似關(guān)系。在圖像描述任務(wù)中,由于可能被選中的單詞包含在整個(gè)字典之中,導(dǎo)致了增強(qiáng)學(xué)習(xí)的行為選擇維度較高。為了降低行為選擇的難度,本文進(jìn)一步提出了一種基于字典控制門的機(jī)制。通過(guò)該機(jī)制,模型可以有效地縮小行為選擇的空間,使得單詞的生成,相當(dāng)于在一個(gè)更加準(zhǔn)確的單詞范圍之內(nèi)進(jìn)行選擇。該方法可以進(jìn)一步理解為減少了增強(qiáng)學(xué)習(xí)中行為空間的選擇范圍,有利于對(duì)增強(qiáng)學(xué)習(xí)進(jìn)行更好的訓(xùn)練。除此之外,通過(guò)對(duì)比實(shí)驗(yàn),驗(yàn)證了本文提出的方法,能夠使得模型得到更好的性能,更加符合描述語(yǔ)句在應(yīng)用中的實(shí)際情況。(3)基于堆疊注意力機(jī)制和多層級(jí)監(jiān)督的圖像描述模型;谶f歸神經(jīng)網(wǎng)絡(luò)的圖像描述算法,其當(dāng)前單詞需要利用歷史已生成的單詞逐個(gè)進(jìn)行生成。在訓(xùn)練階段,模型需要等待歷史單詞逐個(gè)生成之后,才能進(jìn)行當(dāng)前時(shí)刻單詞的訓(xùn)練,該方式會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)歷史依賴問(wèn)題。為了改進(jìn)該訓(xùn)練方式,本文提出了一種基于堆疊注意力機(jī)制圖像描述模型。該模型相對(duì)于傳統(tǒng)的基于遞歸神經(jīng)網(wǎng)絡(luò)的圖像描述模型,包含了多頭注意力模型和自注意力模型。該模型中包含的模塊都能夠有效進(jìn)行并行訓(xùn)練。本文使用了類似深度卷積神經(jīng)網(wǎng)絡(luò)的方法,堆疊了更多的多頭注意力模型和自注意力模型,并且引入了殘差機(jī)制,使得深層次的網(wǎng)絡(luò)也能夠進(jìn)行有效的訓(xùn)練。為了更加有效地對(duì)多層模型進(jìn)行訓(xùn)練,本文提出了一種多層級(jí)監(jiān)督的訓(xùn)練方法。該方法使得模型的不同層次都具有輸出完整語(yǔ)義的能力。最后模型使用了平均池化層,來(lái)融合各個(gè)層次的輸出。該方法相對(duì)于傳統(tǒng)的最上層優(yōu)化方法能夠得到更優(yōu)的性能。綜上所述,本文對(duì)基于深度學(xué)習(xí)的圖像描述算法進(jìn)行了研究,針對(duì)已有模型的缺陷,提出了一系列的改進(jìn)方案。實(shí)驗(yàn)結(jié)果表明,本文提出的圖像描述算法相對(duì)于傳統(tǒng)的方法,能夠有效地提升圖像描述算法的性能,解決以往圖像描述算法的缺陷,同時(shí)能夠更加準(zhǔn)確地生成圖像的描述文本。
【圖文】:

結(jié)構(gòu)圖,遞歸神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)圖


經(jīng)網(wǎng)絡(luò)[221為代表的達(dá)上百層的深度卷積網(wǎng)絡(luò)。逡逑圖像分類的飛速發(fā)展,也促進(jìn)了計(jì)算視覺其它領(lǐng)域的快速發(fā)展,以深yL經(jīng)網(wǎng)絡(luò)為基礎(chǔ),圖像檢測(cè)、圖像分割的性能也得到了飛速的提高,出現(xiàn)Faster-RCNN[81,Mask-RCNN117]在內(nèi)的優(yōu)秀算法,它們的性能己經(jīng)能夠達(dá)級(jí)別,并己經(jīng)應(yīng)用于自動(dòng)駕駛等領(lǐng)域。逡逑1.3.2遞歸神經(jīng)網(wǎng)絡(luò)逡逑遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一種神經(jīng)網(wǎng)絡(luò)算法,它可以看作不同節(jié)點(diǎn),連接的邊生成一個(gè)有向圖的過(guò)程。該結(jié)構(gòu)使得它能夠在時(shí)間序列上動(dòng)態(tài)的不同的行為。相對(duì)于傳統(tǒng)的前向反饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠利用內(nèi)部狀態(tài)序列的輸入。除此之外,,該結(jié)構(gòu)也使得它能夠應(yīng)用于包括手寫體識(shí)別和語(yǔ)等任務(wù)之中。逡逑

結(jié)構(gòu)圖,結(jié)構(gòu)圖,梯度,訓(xùn)練參數(shù)


逑一個(gè)基本的RNN如圖]-1中左半部分所示,它包括內(nèi)部狀態(tài)/;^是模型的逡逑輸入,0為模型的輸出。RNN本身是一個(gè)迭代的過(guò)程,展開后為圖1-1右半部分逡逑所示的結(jié)構(gòu),即模型的隱藏狀態(tài)隨著時(shí)刻的進(jìn)行,需要不斷的傳遞到下一時(shí)刻之逡逑中,它可以由公式(1-20),公式(1-21)進(jìn)行表示:逡逑ht邋=邋ah(Whxt邋+邐+邋bh)邐(1-20)逡逑ot邋=邋Gt(W0ht邋+邋by)邐(1-21)逡逑其中/it代表了邋RNN在t時(shí)刻的隱藏狀態(tài),1^是RNN在t時(shí)刻的輸入向量,0t表示逡逑模型的輸出向量,?代表模型的訓(xùn)練參數(shù),卟,%為模型的逡逑激活函數(shù)。逡逑由于傳統(tǒng)的RNN存在梯度消失和梯度爆炸的問(wèn)題,所以出現(xiàn)了克服該缺點(diǎn)逡逑的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long邋Short-Term邋Memory,LSTM)邋[36]。LSTM能夠有效地逡逑阻止反向傳播中的梯度消失和梯度爆炸問(wèn)題。LSTM為了更加有效地利用歷史信逡逑息,提出了門的概念。逡逑如圖1-2所不
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.41;TP183

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 湯鵬杰;譚云蘭;李金忠;;融合圖像場(chǎng)景及物體先驗(yàn)知識(shí)的圖像描述生成模型[J];中國(guó)圖象圖形學(xué)報(bào);2017年09期

2 李曉莉;張慧明;李曉光;;多主題的圖像描述生成方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2019年05期

3 薛一鳴;周雪婧;周小詩(shī);牛少彰;文娟;;基于圖像描述的文本信息隱藏[J];北京郵電大學(xué)學(xué)報(bào);2018年06期

4 張凱;李軍輝;周國(guó)棟;;基于樞軸語(yǔ)言的圖像描述生成研究[J];中文信息學(xué)報(bào);2019年03期

5 周昌;鄭雅羽;周凡;陳耀武;;基于局部圖像描述的目標(biāo)跟蹤方法[J];浙江大學(xué)學(xué)報(bào)(工學(xué)版);2008年07期

6 楊楠;南琳;張丁一;庫(kù)濤;;基于深度學(xué)習(xí)的圖像描述研究[J];紅外與激光工程;2018年02期

7 李亞棟;莫紅;王世豪;周忠;吳威;;基于圖像描述的人物檢索方法[J];系統(tǒng)仿真學(xué)報(bào);2018年07期

8 陶云松;張麗紅;;基于雙向注意力機(jī)制圖像描述方法研究[J];測(cè)試技術(shù)學(xué)報(bào);2019年04期

9 徐平;;探究曲線運(yùn)動(dòng)的圖像描述[J];物理通報(bào);2013年07期

10 吳娛;趙嘉濟(jì);平子良;杜昊翔;;基于指數(shù)矩的圖像描述[J];現(xiàn)代電子技術(shù);2013年14期

相關(guān)會(huì)議論文 前3條

1 莫華;張燕;岳糧躍;吳智輝;滕維中;;生物臟器滲流分支血管系統(tǒng)的分形特性[A];第四屆西部十二。▍^(qū))市物理學(xué)會(huì)聯(lián)合學(xué)術(shù)交流會(huì)論文集[C];2008年

2 楊秀秀;尹燕寧;徐素鵬;夏勇;印建平;;氟化鎂分子的受激輻射力減速[A];第十七屆全國(guó)量子光學(xué)學(xué)術(shù)會(huì)議報(bào)告摘要集[C];2016年

3 程士德;蘇晶;;中醫(yī)模式形成和特點(diǎn)剖析[A];中醫(yī)藥優(yōu)秀論文選(上)[C];2009年

相關(guān)博士學(xué)位論文 前4條

1 朱欣鑫;基于深度學(xué)習(xí)的圖像描述算法研究[D];北京郵電大學(xué);2019年

2 湯進(jìn);基于圖理論的圖像描述與檢索方法研究[D];安徽大學(xué);2007年

3 顧廣華;面向圖像語(yǔ)義描述的場(chǎng)景分類研究[D];北京交通大學(xué);2013年

4 曲智國(guó);基于圖理論的圖像結(jié)構(gòu)化描述與匹配方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 趙德海;基于深度學(xué)習(xí)的視頻事件檢測(cè)的研究與應(yīng)用[D];中國(guó)石油大學(xué)(華東);2017年

2 常智;基于深度學(xué)習(xí)的圖像描述方法研究[D];天津理工大學(xué);2019年

3 房超;基于圖像高級(jí)語(yǔ)義與Attention融合的圖像描述方法研究[D];遼寧大學(xué);2018年

4 束炎武;基于多模態(tài)遞歸網(wǎng)絡(luò)的圖像描述研究[D];南京理工大學(xué);2018年

5 倪夢(mèng)s

本文編號(hào):2704258


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2704258.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶886ac***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com