基于注意力機(jī)制的圖像描述生成技術(shù)研究
發(fā)布時(shí)間:2021-03-22 13:09
圖像描述生成是一項(xiàng)結(jié)合了計(jì)算機(jī)視覺和自然語言處理的任務(wù),對(duì)于給定圖像,要求算法根據(jù)圖像內(nèi)容自動(dòng)生成可以描述圖像內(nèi)容的自然語言。該任務(wù)在圖像輔助理解、圖文互搜等領(lǐng)域具有較強(qiáng)的實(shí)用價(jià)值。近年來,針對(duì)如何高效利用圖像卷積特征以生成更好的描述語句成為圖像描述生成任務(wù)的重要研究方向。本文在當(dāng)前圖像描述生成方法的基礎(chǔ)上,從特征組合以及高級(jí)語義信息的利用上進(jìn)行了相關(guān)研究:1)基于類激活映射機(jī)制的圖像描述生成方法。本文在現(xiàn)有圖像描述生成框架中引入類激活映射機(jī)制,提出了基于類激活映射注意力機(jī)制的圖像描述生成框架(Class Activation Mapping-Attention,CAMA),在生成單詞與卷積特征之間建立聯(lián)系,以實(shí)現(xiàn)卷積特征能夠與生成單詞更好的語義對(duì)齊。與其他使用基于空間的特征表達(dá)不同,在注意力機(jī)制計(jì)算之前,就對(duì)卷積特征進(jìn)行組合以得到更合適準(zhǔn)確的特征表達(dá),在當(dāng)前軟注意力框架基礎(chǔ)上引入類激活映射機(jī)制,利用類激活映射機(jī)制重新組合由卷積神經(jīng)網(wǎng)絡(luò)得到的圖像卷積特征。而在圖像描述生成部分,為了使解碼模塊適應(yīng)類激活映射機(jī)制算法,采用雙層長短時(shí)記憶網(wǎng)絡(luò),充分利用圖像的全局特征和局部特征,有效提高模型的...
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)Figure1-1Modelstructur
崛∧芰σ駁玫攪思?蟮腦鑾浚?虼薘esNet應(yīng)用廣泛,F(xiàn)在ResNet系列主要流行的結(jié)構(gòu)有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152等。2.1.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNNs)[52]是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),廣泛的用于自然語言處理的任務(wù)中,例如文本生成、機(jī)器翻譯等任務(wù)[53]。1)RNN網(wǎng)絡(luò)RNN是一類具有記憶能力的神經(jīng)網(wǎng)絡(luò),與前向神經(jīng)網(wǎng)絡(luò)(ForwardNeuralNetwork,F(xiàn)NNs)只接受其他神經(jīng)元的輸入不同,RNN網(wǎng)絡(luò)的神經(jīng)元還可以接受自身的信息(通常是上一時(shí)刻的網(wǎng)絡(luò)輸出),如圖2-4所示,RNN能夠形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)RNNs在有限時(shí)間上展開,這等價(jià)于每一個(gè)層之間擁有相同權(quán)值的前饋網(wǎng)絡(luò)。圖2-4循環(huán)神經(jīng)網(wǎng)絡(luò)Figure2-4Recurrentneuralnetwork在圖中,當(dāng)輸入為時(shí),可以得到輸出為,當(dāng)輸入為時(shí),我們不僅要考慮當(dāng)前的輸入,還需要考慮到之前的輸出,這就需要RNN記住之前的狀態(tài),最終根據(jù)當(dāng)前輸入以及前一時(shí)刻的輸出得到了當(dāng)前的輸出。傳統(tǒng)RNN網(wǎng)絡(luò)結(jié)構(gòu)解決了序列任務(wù)前后輸入的依賴問題,但梯度消失的問題限制了其應(yīng)用范圍。RNN的參數(shù)更新是依靠反向傳播算法來進(jìn)行的,如果前向計(jì)算中相互影響的狀態(tài),反向傳播的參數(shù)更新也需要能夠相互影響。而如果梯度值較小,相隔一定步數(shù)的狀態(tài)因?yàn)樘荻忍。嗷ブg就不能產(chǎn)生影響。RNN不能解決長時(shí)依賴的問題,對(duì)于長序列建模能力不佳。2)LSTM為了解決傳統(tǒng)RNN的長時(shí)依賴問題,Hochreiter和Schmidhuber提出了RNN網(wǎng)絡(luò)的一個(gè)變體,長短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)[54]。LSTM使得循環(huán)網(wǎng)絡(luò)能夠在有較長計(jì)算步數(shù)的條件下學(xué)習(xí),從而是長序列遠(yuǎn)程連接成為可能,也因此在機(jī)器翻譯、語音識(shí)別等多個(gè)應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用。其結(jié)構(gòu)
3基于類激活映射-注意力機(jī)制的圖像描述生成213.1類激活映射機(jī)制(ClassActivationMappingMechanism)3.1.1全局平均池化在圖像分類任務(wù)中,通常使用全連接層分類,全連接層之前則是提取圖像特征。全連接網(wǎng)絡(luò)一直以來是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分類網(wǎng)絡(luò)的標(biāo)配結(jié)構(gòu),通常是將卷積特征轉(zhuǎn)換為各個(gè)類別的概率分布向量,如果在某個(gè)類別的位置該值較大,那么是某個(gè)類別的可能性就大,如果值小那么是某個(gè)類別的可能性就校如圖3-1(a)所示,將卷積得到的二維特征圖伸展成一維向量,再由全連接網(wǎng)絡(luò)對(duì)這個(gè)向量做矩陣乘法,最終降低其維度,轉(zhuǎn)化為概率類別分布向量。全連接層存在著很多問題,例如參數(shù)量過大,降低了訓(xùn)練的速度,并且容易造成過擬合等問題。圖3-1(b)中的全局平均池化(GlobalAveragePooling,GAP)則通過對(duì)每一個(gè)特征圖計(jì)算平均值,大大降低了模型參數(shù)數(shù)量。GAP的引入降低了需要訓(xùn)練的參數(shù)數(shù)量,一定程度上具有正則化的作用,同時(shí)使得不同的特征圖與類別具有明確的關(guān)聯(lián)信息。因此Lin等人[69]提出將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為全局平均池化,將特征權(quán)重矩陣映射后經(jīng)過一個(gè)Softmax層即可進(jìn)行分類。此外,Zhou等人[22]的論文表明,GAP不僅僅有正則化的作用,還能夠?qū)⒕矸e層的定位能力一直保持到最后一層。在圖片的類別標(biāo)簽上訓(xùn)練,CNN有著卓越的目標(biāo)定位能力,能夠區(qū)分判別圖像區(qū)域。例如,對(duì)于包含貓的圖片來說,特征圖上面的耳朵、鼻子等地方的概率值就會(huì)比較大。而且這種網(wǎng)絡(luò)的訓(xùn)練是端到端的,只需要訓(xùn)練分類的網(wǎng)絡(luò),我們就可以在前向傳播的時(shí)候獲取目標(biāo)定位的信息。(a)全連接層(b)全局平均池化圖3-1全連接層和全局平均池化層Figure3-1Fullyconnectedlayerandglobalaveragepooling3.1.2類激活映射基于上述的研究?
【參考文獻(xiàn)】:
期刊論文
[1]圖像的文本描述方法研究綜述[J]. 馬龍龍,韓先培,孫樂. 中文信息學(xué)報(bào). 2018(04)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
博士論文
[1]融合文本信息的圖像分類和標(biāo)注關(guān)鍵問題研究[D]. 楊柳.北京交通大學(xué) 2016
[2]大數(shù)據(jù)檢索及其在圖像標(biāo)注與重構(gòu)中的應(yīng)用[D]. 戴禮燦.中國科學(xué)技術(shù)大學(xué) 2013
碩士論文
[1]基于圖像的文本自動(dòng)生成關(guān)鍵技術(shù)研究[D]. 莫凌波.北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的圖像描述生成[D]. 樓佳珍.西安電子科技大學(xué) 2018
[3]基于深度學(xué)習(xí)的圖像語義標(biāo)注與描述研究[D]. 鄭永哲.廣西師范大學(xué) 2017
[4]圖像描述文本自動(dòng)生成方法研究[D]. 申永飛.重慶大學(xué) 2017
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法研究[D]. 謝寶劍.合肥工業(yè)大學(xué) 2015
本文編號(hào):3094056
【文章來源】:中國礦業(yè)大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)Figure1-1Modelstructur
崛∧芰σ駁玫攪思?蟮腦鑾浚?虼薘esNet應(yīng)用廣泛,F(xiàn)在ResNet系列主要流行的結(jié)構(gòu)有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152等。2.1.2循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNNs)[52]是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),廣泛的用于自然語言處理的任務(wù)中,例如文本生成、機(jī)器翻譯等任務(wù)[53]。1)RNN網(wǎng)絡(luò)RNN是一類具有記憶能力的神經(jīng)網(wǎng)絡(luò),與前向神經(jīng)網(wǎng)絡(luò)(ForwardNeuralNetwork,F(xiàn)NNs)只接受其他神經(jīng)元的輸入不同,RNN網(wǎng)絡(luò)的神經(jīng)元還可以接受自身的信息(通常是上一時(shí)刻的網(wǎng)絡(luò)輸出),如圖2-4所示,RNN能夠形成具有環(huán)路的網(wǎng)絡(luò)結(jié)構(gòu)。當(dāng)RNNs在有限時(shí)間上展開,這等價(jià)于每一個(gè)層之間擁有相同權(quán)值的前饋網(wǎng)絡(luò)。圖2-4循環(huán)神經(jīng)網(wǎng)絡(luò)Figure2-4Recurrentneuralnetwork在圖中,當(dāng)輸入為時(shí),可以得到輸出為,當(dāng)輸入為時(shí),我們不僅要考慮當(dāng)前的輸入,還需要考慮到之前的輸出,這就需要RNN記住之前的狀態(tài),最終根據(jù)當(dāng)前輸入以及前一時(shí)刻的輸出得到了當(dāng)前的輸出。傳統(tǒng)RNN網(wǎng)絡(luò)結(jié)構(gòu)解決了序列任務(wù)前后輸入的依賴問題,但梯度消失的問題限制了其應(yīng)用范圍。RNN的參數(shù)更新是依靠反向傳播算法來進(jìn)行的,如果前向計(jì)算中相互影響的狀態(tài),反向傳播的參數(shù)更新也需要能夠相互影響。而如果梯度值較小,相隔一定步數(shù)的狀態(tài)因?yàn)樘荻忍。嗷ブg就不能產(chǎn)生影響。RNN不能解決長時(shí)依賴的問題,對(duì)于長序列建模能力不佳。2)LSTM為了解決傳統(tǒng)RNN的長時(shí)依賴問題,Hochreiter和Schmidhuber提出了RNN網(wǎng)絡(luò)的一個(gè)變體,長短時(shí)記憶網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)[54]。LSTM使得循環(huán)網(wǎng)絡(luò)能夠在有較長計(jì)算步數(shù)的條件下學(xué)習(xí),從而是長序列遠(yuǎn)程連接成為可能,也因此在機(jī)器翻譯、語音識(shí)別等多個(gè)應(yīng)用領(lǐng)域得到了廣泛的應(yīng)用。其結(jié)構(gòu)
3基于類激活映射-注意力機(jī)制的圖像描述生成213.1類激活映射機(jī)制(ClassActivationMappingMechanism)3.1.1全局平均池化在圖像分類任務(wù)中,通常使用全連接層分類,全連接層之前則是提取圖像特征。全連接網(wǎng)絡(luò)一直以來是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的分類網(wǎng)絡(luò)的標(biāo)配結(jié)構(gòu),通常是將卷積特征轉(zhuǎn)換為各個(gè)類別的概率分布向量,如果在某個(gè)類別的位置該值較大,那么是某個(gè)類別的可能性就大,如果值小那么是某個(gè)類別的可能性就校如圖3-1(a)所示,將卷積得到的二維特征圖伸展成一維向量,再由全連接網(wǎng)絡(luò)對(duì)這個(gè)向量做矩陣乘法,最終降低其維度,轉(zhuǎn)化為概率類別分布向量。全連接層存在著很多問題,例如參數(shù)量過大,降低了訓(xùn)練的速度,并且容易造成過擬合等問題。圖3-1(b)中的全局平均池化(GlobalAveragePooling,GAP)則通過對(duì)每一個(gè)特征圖計(jì)算平均值,大大降低了模型參數(shù)數(shù)量。GAP的引入降低了需要訓(xùn)練的參數(shù)數(shù)量,一定程度上具有正則化的作用,同時(shí)使得不同的特征圖與類別具有明確的關(guān)聯(lián)信息。因此Lin等人[69]提出將卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為全局平均池化,將特征權(quán)重矩陣映射后經(jīng)過一個(gè)Softmax層即可進(jìn)行分類。此外,Zhou等人[22]的論文表明,GAP不僅僅有正則化的作用,還能夠?qū)⒕矸e層的定位能力一直保持到最后一層。在圖片的類別標(biāo)簽上訓(xùn)練,CNN有著卓越的目標(biāo)定位能力,能夠區(qū)分判別圖像區(qū)域。例如,對(duì)于包含貓的圖片來說,特征圖上面的耳朵、鼻子等地方的概率值就會(huì)比較大。而且這種網(wǎng)絡(luò)的訓(xùn)練是端到端的,只需要訓(xùn)練分類的網(wǎng)絡(luò),我們就可以在前向傳播的時(shí)候獲取目標(biāo)定位的信息。(a)全連接層(b)全局平均池化圖3-1全連接層和全局平均池化層Figure3-1Fullyconnectedlayerandglobalaveragepooling3.1.2類激活映射基于上述的研究?
【參考文獻(xiàn)】:
期刊論文
[1]圖像的文本描述方法研究綜述[J]. 馬龍龍,韓先培,孫樂. 中文信息學(xué)報(bào). 2018(04)
[2]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識(shí)別與人工智能. 2015(04)
博士論文
[1]融合文本信息的圖像分類和標(biāo)注關(guān)鍵問題研究[D]. 楊柳.北京交通大學(xué) 2016
[2]大數(shù)據(jù)檢索及其在圖像標(biāo)注與重構(gòu)中的應(yīng)用[D]. 戴禮燦.中國科學(xué)技術(shù)大學(xué) 2013
碩士論文
[1]基于圖像的文本自動(dòng)生成關(guān)鍵技術(shù)研究[D]. 莫凌波.北京郵電大學(xué) 2019
[2]基于深度學(xué)習(xí)的圖像描述生成[D]. 樓佳珍.西安電子科技大學(xué) 2018
[3]基于深度學(xué)習(xí)的圖像語義標(biāo)注與描述研究[D]. 鄭永哲.廣西師范大學(xué) 2017
[4]圖像描述文本自動(dòng)生成方法研究[D]. 申永飛.重慶大學(xué) 2017
[5]基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法研究[D]. 謝寶劍.合肥工業(yè)大學(xué) 2015
本文編號(hào):3094056
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3094056.html
最近更新
教材專著