基于區(qū)域相關(guān)性與Attention的圖像描述方法研究
發(fā)布時(shí)間:2021-01-25 20:56
最近十幾年,大規(guī)模訓(xùn)練數(shù)據(jù)集以及高性能計(jì)算機(jī)硬件的出現(xiàn)帶動(dòng)了深度學(xué)習(xí)技術(shù)的迅速發(fā)展,深度學(xué)習(xí)技術(shù)在許多領(lǐng)域得到了廣泛應(yīng)用。隨著互聯(lián)網(wǎng)的快速發(fā)展以及攝像設(shè)備的普及,網(wǎng)絡(luò)中的圖片數(shù)量成幾何倍增長(zhǎng),僅靠人力已無(wú)法對(duì)圖片內(nèi)容進(jìn)行鑒別。所以,如何讓計(jì)算機(jī)自動(dòng)描述一副圖像是當(dāng)前圖像理解領(lǐng)域的研究熱點(diǎn)。該任務(wù)涉及到計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理兩大人工智能領(lǐng)域,其基本原理就是對(duì)要描述的圖像進(jìn)行信息提取,識(shí)別出其中的人物,感知場(chǎng)景內(nèi)容以及人物之間的關(guān)系,最后用一段邏輯語(yǔ)言表達(dá)出來(lái)。本文對(duì)近些年來(lái)圖像描述方法在國(guó)內(nèi)外的研究發(fā)展?fàn)顩r進(jìn)行研究,研究中發(fā)現(xiàn),傳統(tǒng)的圖像描述方法在提取圖像特征信息的過(guò)程中忽視了圖像中目標(biāo)之間的相互依賴(lài)關(guān)系。本文提出了一種基于區(qū)域相關(guān)性的圖像特征提取優(yōu)化方法,將VGG與RPN結(jié)合起來(lái)進(jìn)行圖像特征提取和候選區(qū)域選取,對(duì)每一個(gè)候選區(qū)域計(jì)算它與其他所有區(qū)域的空間距離之和,以此作為該區(qū)域與其他區(qū)域總體相關(guān)性的度量,基于這個(gè)度量值來(lái)對(duì)候選區(qū)域?qū)?yīng)在特征圖上的部分進(jìn)行加權(quán)優(yōu)化,最終將加權(quán)優(yōu)化后的圖像特征圖作為輸入,送給語(yǔ)言模塊參與文本的生成。然后,本文對(duì)Attention機(jī)制在圖像描述任務(wù)中的應(yīng)用進(jìn)...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Sigmoid激活函數(shù)針對(duì)Sigmoid函數(shù)的缺點(diǎn),人們又提出了修正線性單元函數(shù)
圖 2-5 ReLU 激活函數(shù)ReLU 函數(shù)會(huì)輸出 0 與輸入數(shù)據(jù)兩者中的最大值,ReLU 函數(shù)看似是分段線性的,用于淺層網(wǎng)絡(luò)其非線性表現(xiàn)能力弱,但用于深層網(wǎng)絡(luò),許多隱藏層神經(jīng)元最后表現(xiàn)出來(lái)的就是非線性,類(lèi)似于將一條曲線分成無(wú)限段,每一段近似于直線,組合起來(lái)就可以擬合曲線。ReLU 函數(shù)的導(dǎo)數(shù)也更簡(jiǎn)單,基于上述特性,ReLU 函數(shù)目前成為了主流的激活函數(shù)。2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類(lèi)對(duì)時(shí)間顯示建模的神經(jīng)網(wǎng)絡(luò),正如 CNN 被廣泛應(yīng)用于圖像問(wèn)題,RNN 則被專(zhuān)門(mén)應(yīng)用于序列化問(wèn)題,RNN 的神經(jīng)元與 CNN 一樣接收來(lái)自其他神經(jīng)元的輸入,但是它與高低層皆可建立連接,RNN 的輸出即與當(dāng)前時(shí)刻的輸入有關(guān)也與之前時(shí)刻的輸出有關(guān)。因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)具有參數(shù)共享、信息記憶、圖靈完備的特點(diǎn),所以它在時(shí)序性的
圖 3-1 VGGNet16 的網(wǎng)絡(luò)結(jié)構(gòu)VGGNet16 大體上包含了 5 個(gè)大段,每個(gè)大段包含了 2 到 3 個(gè)卷積層,每個(gè)大段的后面會(huì)接一個(gè)池化層來(lái)降維采樣,池化操作使用的過(guò)濾器都是 2×2 規(guī)格,步長(zhǎng)都為 2,模型的最后是 3 個(gè)連續(xù)的全連接層加一個(gè) softmax 層。VGGNet 在卷積層、特征圖、全連接層三個(gè)方面具有很重要的特點(diǎn),下面將從這些方面對(duì)其進(jìn)行介紹。在卷積層上,它使用 3×3 的小卷積核,通過(guò)小卷積核串聯(lián)的方式減小了參數(shù)規(guī)模,加快了模型的學(xué)習(xí)速度。例如對(duì)于輸入為 8×8 的特征圖,設(shè)步長(zhǎng) stride=1,如果是經(jīng)過(guò)兩個(gè)連續(xù)的 3×3 卷積層處理,其過(guò)程是這樣:(8-3)/1+1=6,(6-3)/1+1=4,所得到的是 4×4 大小的特征圖,如果是經(jīng)過(guò)一個(gè) 5×5 的卷積層處理,其過(guò)程是這樣:(8-5)/1+1=4,所得也是大小為 4×4 的特征圖,兩種情況獲取到感受野相同,但是兩個(gè) 3×3 的小卷積核參數(shù)量為 3×3×2=18,而一個(gè) 5×5 的大卷積核參數(shù)量為25,小卷積核串聯(lián)的參數(shù)量更少。同樣的道理,三個(gè) 3×3 的小卷積核能夠獲得與一個(gè) 7×7 的大卷積核相同的感受野而參數(shù)更少。此外,多個(gè)小卷積核的處理
【參考文獻(xiàn)】:
期刊論文
[1]基于注意力反饋機(jī)制的深度圖像標(biāo)注模型[J]. 鄧遠(yuǎn)遠(yuǎn),沈煒. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[2]基于多注意力多尺度特征融合的圖像描述生成算法[J]. 陳龍杰,張鈺,張玉梅,吳曉軍. 計(jì)算機(jī)應(yīng)用. 2019(02)
[3]結(jié)合視覺(jué)屬性注意力和殘差連接的圖像描述生成模型[J]. 周治平,張威. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2018(08)
[4]基于GoogLeNet多階段連帶優(yōu)化的圖像描述[J]. 湯鵬杰,譚云蘭,許愷晟,李金忠. 井岡山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
碩士論文
[1]結(jié)合視覺(jué)顯著性及多特征表示的圖像描述方法研究[D]. 劉麗莎.西安電子科技大學(xué) 2018
本文編號(hào):2999883
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:91 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Sigmoid激活函數(shù)針對(duì)Sigmoid函數(shù)的缺點(diǎn),人們又提出了修正線性單元函數(shù)
圖 2-5 ReLU 激活函數(shù)ReLU 函數(shù)會(huì)輸出 0 與輸入數(shù)據(jù)兩者中的最大值,ReLU 函數(shù)看似是分段線性的,用于淺層網(wǎng)絡(luò)其非線性表現(xiàn)能力弱,但用于深層網(wǎng)絡(luò),許多隱藏層神經(jīng)元最后表現(xiàn)出來(lái)的就是非線性,類(lèi)似于將一條曲線分成無(wú)限段,每一段近似于直線,組合起來(lái)就可以擬合曲線。ReLU 函數(shù)的導(dǎo)數(shù)也更簡(jiǎn)單,基于上述特性,ReLU 函數(shù)目前成為了主流的激活函數(shù)。2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類(lèi)對(duì)時(shí)間顯示建模的神經(jīng)網(wǎng)絡(luò),正如 CNN 被廣泛應(yīng)用于圖像問(wèn)題,RNN 則被專(zhuān)門(mén)應(yīng)用于序列化問(wèn)題,RNN 的神經(jīng)元與 CNN 一樣接收來(lái)自其他神經(jīng)元的輸入,但是它與高低層皆可建立連接,RNN 的輸出即與當(dāng)前時(shí)刻的輸入有關(guān)也與之前時(shí)刻的輸出有關(guān)。因?yàn)檠h(huán)神經(jīng)網(wǎng)絡(luò)具有參數(shù)共享、信息記憶、圖靈完備的特點(diǎn),所以它在時(shí)序性的
圖 3-1 VGGNet16 的網(wǎng)絡(luò)結(jié)構(gòu)VGGNet16 大體上包含了 5 個(gè)大段,每個(gè)大段包含了 2 到 3 個(gè)卷積層,每個(gè)大段的后面會(huì)接一個(gè)池化層來(lái)降維采樣,池化操作使用的過(guò)濾器都是 2×2 規(guī)格,步長(zhǎng)都為 2,模型的最后是 3 個(gè)連續(xù)的全連接層加一個(gè) softmax 層。VGGNet 在卷積層、特征圖、全連接層三個(gè)方面具有很重要的特點(diǎn),下面將從這些方面對(duì)其進(jìn)行介紹。在卷積層上,它使用 3×3 的小卷積核,通過(guò)小卷積核串聯(lián)的方式減小了參數(shù)規(guī)模,加快了模型的學(xué)習(xí)速度。例如對(duì)于輸入為 8×8 的特征圖,設(shè)步長(zhǎng) stride=1,如果是經(jīng)過(guò)兩個(gè)連續(xù)的 3×3 卷積層處理,其過(guò)程是這樣:(8-3)/1+1=6,(6-3)/1+1=4,所得到的是 4×4 大小的特征圖,如果是經(jīng)過(guò)一個(gè) 5×5 的卷積層處理,其過(guò)程是這樣:(8-5)/1+1=4,所得也是大小為 4×4 的特征圖,兩種情況獲取到感受野相同,但是兩個(gè) 3×3 的小卷積核參數(shù)量為 3×3×2=18,而一個(gè) 5×5 的大卷積核參數(shù)量為25,小卷積核串聯(lián)的參數(shù)量更少。同樣的道理,三個(gè) 3×3 的小卷積核能夠獲得與一個(gè) 7×7 的大卷積核相同的感受野而參數(shù)更少。此外,多個(gè)小卷積核的處理
【參考文獻(xiàn)】:
期刊論文
[1]基于注意力反饋機(jī)制的深度圖像標(biāo)注模型[J]. 鄧遠(yuǎn)遠(yuǎn),沈煒. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(02)
[2]基于多注意力多尺度特征融合的圖像描述生成算法[J]. 陳龍杰,張鈺,張玉梅,吳曉軍. 計(jì)算機(jī)應(yīng)用. 2019(02)
[3]結(jié)合視覺(jué)屬性注意力和殘差連接的圖像描述生成模型[J]. 周治平,張威. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2018(08)
[4]基于GoogLeNet多階段連帶優(yōu)化的圖像描述[J]. 湯鵬杰,譚云蘭,許愷晟,李金忠. 井岡山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2016(05)
碩士論文
[1]結(jié)合視覺(jué)顯著性及多特征表示的圖像描述方法研究[D]. 劉麗莎.西安電子科技大學(xué) 2018
本文編號(hào):2999883
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2999883.html
最近更新
教材專(zhuān)著