基于注意力機制與高層語義的視覺問答研究

發(fā)布時間：2020-04-16 19:44

【摘要】：隨著大數(shù)據(jù)、高性能計算工具、深度學(xué)習(xí)技術(shù)的相繼出現(xiàn),人工智能迎來了第三次發(fā)展熱潮。深度學(xué)習(xí)模型在計算機視覺、自然語言處理、語音識別等諸多領(lǐng)域取得了突破性的進展。在物體識別、機器翻譯、自動問答等多個單模態(tài)任務(wù)中,基于深度學(xué)習(xí)的方法在某些大規(guī)模數(shù)據(jù)集上取得了和人類相匹敵的性能。在現(xiàn)實世界中,擁有高級智能的人類面對更加復(fù)雜的環(huán)境時經(jīng)常需要多模態(tài)信息的感知和推理,從而進行各種決策。近年來,基于視覺和語言的多模態(tài)任務(wù)引起研究者越來越多的注意,如圖像字幕生成、視覺敘事、自動視覺問答等。不同于傳統(tǒng)的圖像標注任務(wù),圖像字幕生成和視覺敘事旨在于用一句話或者一段話來描述圖像的主要內(nèi)容,這同時需要對圖片內(nèi)容進行視覺理解以及生成與圖片語義一致的描述。視覺問答旨在于讓機器自動回答與圖片內(nèi)容相關(guān)的用自然語言描述的問題,其涉及多模態(tài)信息(即視覺圖片和自然語言描述的問題)的輸入,需要對圖像內(nèi)容進行更精細化的理解。自動視覺問答的關(guān)鍵在于視覺和自然語言的共同語義理解,以及視覺與語言之間的聯(lián)合推理。注意力機制是實現(xiàn)多模態(tài)推理的一種有效方式,高層語義銜接了視覺和自然語言之間的語義信息。注意力機制在視覺問答中主要有三個方面的作用:首先,注意力機制能夠根據(jù)具體提問的問題進行有效信息的定位和提取;其次,注意力機制能夠?qū)⒆匀徽Z言和視覺圖片在語義上對齊,從而在更細粒度上實現(xiàn)推理;最后,注意力機制通過對注意力熱圖可視化從而增加模型的可解釋型。高層語義在視覺問答中的作用也可以分為兩個方面:一方面,從圖像中生成的高層語義能夠縮小視覺圖像和自然語言的問題之間的語義鴻溝,從而能夠在共同的語義空間中進行推理;另一方面,與傳統(tǒng)圖像特征相比,高層語義具有可讀性和可解釋性,因此為答案的推理和問答系統(tǒng)的錯誤診斷提供依據(jù)。然而現(xiàn)有的自動視覺問答模型通常存在以下兩個問題:首先,自動視覺問答的問題具有多樣性和復(fù)雜性,現(xiàn)有工作通常采用單一層次的圖像表達,無法滿足各種問題需要的信息;其次,現(xiàn)有的注意力模型對圖像不同區(qū)域獨立計算注意力權(quán)重,忽略了圖像中物體之間上下文信息,無法回答需要關(guān)系推理的問題�；谶@些問題,本文對自動視覺問答中的注意力機制進行深入研究,將注意力網(wǎng)絡(luò)創(chuàng)新性運用于圖像不同層次的表達上,進而根據(jù)提出的問題進行更有效的信息提取,理解和推理。本文的主要工作和創(chuàng)新點總結(jié)如下:基于多層次注意力網(wǎng)絡(luò)的視覺問答本文提出了基于多層次注意力網(wǎng)絡(luò)的視覺問答模型�，F(xiàn)有的基于注意力機制的視覺問答模型主要從低層次的視覺信息中推理答案,忽略了圖像中高層語義的建模以及不同區(qū)域之間的空間關(guān)系。本文提出的多層次注意力網(wǎng)絡(luò)對圖像不同層次的信息進行篩選、融合及聯(lián)合推理,通過語義注意力模塊減少語義鴻溝同時通過視覺注意力機制進行更細粒度的空間推理。此外本文使用雙向GRU網(wǎng)絡(luò)對圖像不同區(qū)域進行關(guān)系建模,從而編碼區(qū)域的上下文信息。本文在兩個最有挑戰(zhàn)性的VQA數(shù)據(jù)集上取得了當(dāng)時的最好結(jié)果�；诙嘣炊鄬哟巫⒁饬W(wǎng)絡(luò)的視覺問答本文提出了多源多層次注意力網(wǎng)絡(luò),解決了多層次注意力網(wǎng)絡(luò)的兩個不足之處:第一,多層次注意力網(wǎng)絡(luò)只能提取視覺表達的不同層次的語義信息,而視覺問答中部分問題需要涉及知識推理;第二,在多層次注意力網(wǎng)絡(luò)中,雙向GRU只能對圖像區(qū)域進行一維線性展開后再學(xué)習(xí)空間關(guān)系,這破壞了圖像本身的二維結(jié)構(gòu)。本文提出的多源多層次注意力網(wǎng)絡(luò)有三次創(chuàng)新之處:首先,多源多層次注意力網(wǎng)絡(luò)引入了外部知識庫,同時使用來自視覺和知識的多源信息,使得視覺問答系統(tǒng)進行基于知識的推理。其次,本文提出2D-GRU的結(jié)構(gòu),對圖像的上下左右兩個維度四個方向進行關(guān)系建模,更符合圖像的結(jié)構(gòu)特征。最后,在兩個最大的VQA數(shù)據(jù)集上,本文取得了比多層次注意力網(wǎng)絡(luò)顯著更好的結(jié)果�；趫D注意力網(wǎng)絡(luò)的視覺問答本文提出了基于圖注意力網(wǎng)絡(luò),進一步解決了多源多層次注意力網(wǎng)絡(luò)的兩個不足之處:第一,多源多層次注意力網(wǎng)絡(luò)從最后一層卷積層抽取圖像特征,每個區(qū)域感受野是均勻分割的固定大小的區(qū)域,不符合物體本身多尺度變化的特征;第二,多源多層次注意力網(wǎng)絡(luò)對視覺特征按照注意力進行加權(quán)平均,丟失區(qū)域的位置信息。針對這兩個不足之處,本文提出的圖注意力網(wǎng)絡(luò),能夠?qū)ξ矬w之間的關(guān)系建立圖結(jié)構(gòu),對圖的節(jié)點和邊分別進行注意力建模,然后通過圖嵌入的方法,解決不同物體信息融合的問題�；趯傩院妥帜坏目山忉屢曈X問答本文提出將傳統(tǒng)端到端的視覺問答任務(wù)分解為兩步,解釋和推理,通過闡明這兩步的中間結(jié)果嘗試建造一個可解釋的視覺問答系統(tǒng)。本文首先提取屬性和描述性句子作為圖片高層語義的解釋,然后推理模塊通過利用這些解釋而不是圖片本身推理答案。這樣的分解有兩個好處:第一,屬性和字幕能夠反映出系統(tǒng)從圖像中提取了那些信息,因此為預(yù)測的答案提供了解釋;第二,當(dāng)預(yù)測的答案是錯誤的時候,這些中間結(jié)果能夠?qū)﹀e誤原因進行診斷,幫助識別錯誤是源于圖像理解還是后續(xù)的推理部分。本文通過實驗證明,這樣的分解系統(tǒng)取得了和基準模型相當(dāng)?shù)男阅?同時具有可解釋性以及用更好質(zhì)量的屬性和字幕改進整個系統(tǒng)的能力。
【圖文】：

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),高維,桂冠

在這種背景下，基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)開始發(fā)揮應(yīng)有的威力，直接推動逡逑了人工智能的新一代革命。２０１２年，ＡｌｅｘＫｒｉｚｈｅｖｓｋｙ等人［２］發(fā)表了著名的卷積逡逑神經(jīng)網(wǎng)絡(luò)ＡｌｅｘＮｅｔ，，其網(wǎng)絡(luò)結(jié)構(gòu)如圖１．１。相比傳統(tǒng)的ＣＮＮ網(wǎng)絡(luò)結(jié)果，它的網(wǎng)絡(luò)逡逑層次更深，而且采用了很多新技術(shù)，包括使用ＲｅＬＵ函數(shù)作為激活函數(shù)，降低了逡逑Ｓｉｇｍｏｉｄ類函數(shù)的計算量；利用ｄｒｏｐｏｕｔ技術(shù)在訓(xùn)練期間選擇性地剪掉某些神經(jīng)逡逑元，避免模型過擬合；引入ｍａｘ－ｐｏｏｌｉｎｇ技術(shù)；引入數(shù)據(jù)增強技術(shù)增加訓(xùn)練樣本。逡逑ＡｌｅｘＮｅｔ不僅比傳統(tǒng)ＣＮＮ的網(wǎng)絡(luò)結(jié)構(gòu)（例如ＬｅＮｅｔ）層數(shù)更深，也可以學(xué)習(xí)更復(fù)雜逡逑的圖像高維特征。由于其更深的網(wǎng)絡(luò)結(jié)構(gòu)和諸多新技術(shù)的應(yīng)用，ＡｌｅｘＮｅｔ在２０１２逡逑年舉辦的大規(guī)模圖形識別比賽（ＩｍａｇｅＮｅｔ邋Ｌａｒｇｅ邋Ｓｃａｌｅ邋Ｖｉｓｕａｌ邋Ｒｅｃｏｇｎｉｔｉｏｎ邋Ｃｈａｌｌｅｎｇｅ逡逑２０１２）中以遠超傳統(tǒng)方法的成績奪得桂冠。ＡｌｅｘＮｅｔ不僅比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)逡逑（Ｃｏｎｖｏｌｕｔｉｏｎａｌ邋Ｎｅｕｒａｌ邋Ｎｅｔｗｏｒｋｓ）�。薜木W(wǎng)絡(luò)結(jié)構(gòu)更深，也可以基于數(shù)據(jù)和具體的任逡逑務(wù)來學(xué)習(xí)更復(fù)雜的圖形高維表示�；谌斯ど窠�(jīng)網(wǎng)絡(luò)的模型在沉寂了將近１０年逡逑后再次引起研究人員的重視。逡逑此外短短幾年內(nèi)，基于深度學(xué)習(xí)的研宄無論在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計還是新的應(yīng)用逡逑上都獲得了突破性進展。２０１４年，Ｓｚｅｇｅｄｙ等人大大增加了邋ＣＮＮ的深度，提逡逑出了超過２０層的ＣＮＮ結(jié)構(gòu)

多模態(tài),視覺,圖像,自動問答

署于現(xiàn)實場景中。隨著人們在計算機視覺和自然語言處理領(lǐng)域都取得了很大的逡逑進展，最近幾年，同時基于視覺和語言的多模態(tài)學(xué)習(xí)任務(wù)引起了越來越多研宄者逡逑的關(guān)注，如圖像字幕生成，視覺敘事，自動視覺問答等。如圖１．２，類似于嬰兒逡逑學(xué)習(xí)說話的過程，機器對圖像的理解正從用若干個單詞來標注所看到的圖像向逡逑學(xué)習(xí)生成完整的句子或者一段話過渡。不同于傳統(tǒng)的圖像標注任務(wù)，圖像字幕生逡逑成和視覺敘事需要對同時對圖像內(nèi)容進行視覺理解和相應(yīng)的文本進行自然語言逡逑理解，并學(xué)習(xí)兩個信息源的語義對應(yīng)關(guān)系。逡逑ｉｉｌｕｉｌｉ邐ＭＨＬｇＭｉ邐ｌｌｌＬｉｇＭｉ逡逑￣邐ＳＳＢ邋￣逡逑人．運動球邐今天我和問學(xué)－？起打棒球＊邋ｍ邐問：人們在玩什么游戲？逡逑yU．操場邐ＡＩＩＪ（ｌ．Ｗ５＾．ｒ．ｉＪＰＰ７Ｃ邐糊友來觀＃比賽，P懼未穡喊羥蟈義隙寂說梅鄭危危耗們蚺醯腦碩貝┦裁囪丈模孕�？辶x洗穡焐義賢枷翊艝茉翦問洛巫遠鎬p逡逑圖１．２基于視覺與語言的多模態(tài)任務(wù)進展趨勢。隨著對圖像內(nèi)容理解的深入，機器對圖像逡逑的描述從個別單詞到完整的句子再到故事情節(jié)，甚至能夠回答相關(guān)的問題。逡逑受到自然語言處理領(lǐng)域中自動問答任務(wù)的啟發(fā)，研宄人員提出自動視覺問逡逑答任務(wù)來測試機器對多模態(tài)信息的理解和推理能力。在基于文本的自動問答任逡逑務(wù)中
【學(xué)位授予單位】：中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】：博士
【學(xué)位授予年份】：2019
【分類號】：TP391.41;TP18

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 魏維;游靜;劉鳳玉;許滿武;;音頻高層語義分析[J];中國圖象圖形學(xué)報;2007年01期

2 歐陽軍林;夏利民;張偉偉;;基于高層語義及相關(guān)反饋的圖像檢索[J];計算機工程與應(yīng)用;2006年25期

3 許源;薛向陽;;一種視頻局部高層語義特征提取算法[J];計算機科學(xué);2006年11期

4 吳楠;宋方敏;;一種基于圖像高層語義信息的圖像檢索方法[J];中國圖象圖形學(xué)報;2006年12期

5 王崇駿,楊育彬,陳世福;基于高層語義的圖像檢索算法[J];軟件學(xué)報;2004年10期

6 席彩麗;;基于內(nèi)容的圖像檢索高層語義處理方法[J];圖書情報工作;2009年09期

7 李天添;趙丹華;趙江洪;;基于高層語義視覺表征的意象版工具[J];包裝工程;2018年04期

8 ;2014年《計算機研究與發(fā)展》專題(正刊)征文通知——“深度學(xué)習(xí)”[J];計算機研究與發(fā)展;2014年01期

9 顧廣華;秦芳;;基于多層次特征表示的圖像場景分類算法[J];高技術(shù)通訊;2019年03期

10 賈振超;趙耀;朱振峰;;應(yīng)用對象語義進行圖像檢索的新方法[J];鐵道學(xué)報;2007年04期

中國重要會議論文全文數(shù)據(jù)庫前6條

1 張楊;房斌;徐傳運;;基于本體和描述邏輯的圖像語義識別[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議（CACIS·2009）暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集（上冊）[C];2009年

2 姜志國;張立國;史駿;;基于內(nèi)容的數(shù)字病理切片檢索技術(shù)研究[A];第八屆全國生物醫(yī)學(xué)體視學(xué)學(xué)術(shù)會議、第十一屆全軍軍事病理學(xué)學(xué)術(shù)會議、第七屆全軍定量病理學(xué)學(xué)術(shù)會議論文（摘要）匯編[C];2012年

3 楊震群;魏驍勇;夏芳;;基于上下文空間的概念融合技術(shù)[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議（HHME2010)、第19屆全國多媒體學(xué)術(shù)會議（NCMT2010）、第6屆全國人機交互學(xué)術(shù)會議（CHCI2010）、第5屆全國普適計算學(xué)術(shù)會議（PCC2010）論文集[C];2010年

4 吳玲達;魏迎梅;謝毓湘;楊征;;MSFAS:一個媒體語義特征分析系統(tǒng)的設(shè)計與實現(xiàn)[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議（HHME2010)、第19屆全國多媒體學(xué)術(shù)會議（NCMT2010）、第6屆全國人機交互學(xué)術(shù)會議（CHCI2010）、第5屆全國普適計算學(xué)術(shù)會議（PCC2010）論文集[C];2010年

5 趙海英;彭宏;徐丹;;交互式的基于內(nèi)容的圖像檢索[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年

6 曲云堯;施伯樂;;事務(wù)分層及其調(diào)度技術(shù)的研究[A];數(shù)據(jù)庫研究與進展95——第十三屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1995年

中國博士學(xué)位論文全文數(shù)據(jù)庫前7條

1 于東飛;基于注意力機制與高層語義的視覺問答研究[D];中國科學(xué)技術(shù)大學(xué);2019年

2 潘瀅煒;基于高層語義的跨模態(tài)應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2018年

3 萬華林;圖象檢索中高層語義和低層可視特征的提取研究[D];中國科學(xué)院研究生院（計算技術(shù)研究所）;2002年

4 孫元;多媒體語義檢索關(guān)鍵問題研究[D];吉林大學(xué);2010年

5 高贊;基于內(nèi)容的視頻分析關(guān)鍵技術(shù)[D];北京郵電大學(xué);2011年

6 姚聰;自然圖像中文字檢測與識別研究[D];華中科技大學(xué);2014年

7 韋星星;基于結(jié)構(gòu)化信息的圖像內(nèi)容分析與理解[D];天津大學(xué);2015年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 史建華;基于高層語義的場景分類[D];中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機械研究所);2016年

2 王繼宗;基于高層語義特征的圖像檢索關(guān)鍵技術(shù)研究[D];吉林大學(xué);2013年

3 張毅;基于高層語義的圖像檢索研究[D];西安電子科技大學(xué);2007年

4 莫浩瀾;基于高層語義的自然圖像檢索方法研究[D];湘潭大學(xué);2007年

5 陳琴;融合進高層語義特征的醫(yī)學(xué)圖像檢索技術(shù)研究[D];寧波大學(xué);2009年

6 王平;基于模糊領(lǐng)域本體的材料外觀腐蝕底層特征與高層語義映射方法研究[D];重慶理工大學(xué);2013年

7 劉繼晴;基于多特征融合的視頻高層語義概念檢測[D];北京郵電大學(xué);2011年

8 呂軼超;結(jié)合底層特征和高層語義的圖像檢索技術(shù)研究[D];重慶大學(xué);2011年

9 安福定;基于高層語義的圖像檢索研究[D];西北農(nóng)林科技大學(xué);2011年

10 孫子晨;視頻高層語義提取技術(shù)研究與應(yīng)用[D];復(fù)旦大學(xué);2009年

本文編號：2629958

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2629958.html

上一篇：面向任務(wù)的高斯過程隱變量模型擴展研究
下一篇：基于聚類的高光譜圖像壓縮技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力機制與高層語義的視覺問答研究