基于注意力機制與高層語義的視覺問答研究
【圖文】:
在這種背景下,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)開始發(fā)揮應(yīng)有的威力,直接推動逡逑了人工智能的新一代革命。2012年,AlexKrizhevsky等人[2]發(fā)表了著名的卷積逡逑神經(jīng)網(wǎng)絡(luò)AlexNet,,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.1。相比傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)果,它的網(wǎng)絡(luò)逡逑層次更深,而且采用了很多新技術(shù),包括使用ReLU函數(shù)作為激活函數(shù),降低了逡逑Sigmoid類函數(shù)的計算量;利用dropout技術(shù)在訓(xùn)練期間選擇性地剪掉某些神經(jīng)逡逑元,避免模型過擬合;引入max-pooling技術(shù);引入數(shù)據(jù)增強技術(shù)增加訓(xùn)練樣本。逡逑AlexNet不僅比傳統(tǒng)CNN的網(wǎng)絡(luò)結(jié)構(gòu)(例如LeNet)層數(shù)更深,也可以學(xué)習(xí)更復(fù)雜逡逑的圖像高維特征。由于其更深的網(wǎng)絡(luò)結(jié)構(gòu)和諸多新技術(shù)的應(yīng)用,AlexNet在2012逡逑年舉辦的大規(guī)模圖形識別比賽(ImageNet邋Large邋Scale邋Visual邋Recognition邋Challenge逡逑2012)中以遠超傳統(tǒng)方法的成績奪得桂冠。AlexNet不僅比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)逡逑(Convolutional邋Neural邋Networks)。薜木W(wǎng)絡(luò)結(jié)構(gòu)更深,也可以基于數(shù)據(jù)和具體的任逡逑務(wù)來學(xué)習(xí)更復(fù)雜的圖形高維表示;谌斯ど窠(jīng)網(wǎng)絡(luò)的模型在沉寂了將近10年逡逑后再次引起研究人員的重視。逡逑此外短短幾年內(nèi),基于深度學(xué)習(xí)的研宄無論在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計還是新的應(yīng)用逡逑上都獲得了突破性進展。2014年,Szegedy等人大大增加了邋CNN的深度,提逡逑出了超過20層的CNN結(jié)構(gòu)
署于現(xiàn)實場景中。隨著人們在計算機視覺和自然語言處理領(lǐng)域都取得了很大的逡逑進展,最近幾年,同時基于視覺和語言的多模態(tài)學(xué)習(xí)任務(wù)引起了越來越多研宄者逡逑的關(guān)注,如圖像字幕生成,視覺敘事,自動視覺問答等。如圖1.2,類似于嬰兒逡逑學(xué)習(xí)說話的過程,機器對圖像的理解正從用若干個單詞來標注所看到的圖像向逡逑學(xué)習(xí)生成完整的句子或者一段話過渡。不同于傳統(tǒng)的圖像標注任務(wù),圖像字幕生逡逑成和視覺敘事需要對同時對圖像內(nèi)容進行視覺理解和相應(yīng)的文本進行自然語言逡逑理解,并學(xué)習(xí)兩個信息源的語義對應(yīng)關(guān)系。逡逑iiluili邐MHLgMi邐lllLigMi逡逑 ̄邐SSB邋 ̄逡逑人.運動球邐今天我和問學(xué)-?起打棒球*邋m邐問:人們在玩什么游戲?逡逑yU.操場邐AIIJ(l.W5^.r.iJPP7C邐糊友來觀#比賽,P懼未穡喊羥蟈義隙寂說梅鄭危危耗們蚺醯腦碩貝┦裁囪丈模孕?辶x洗穡焐義賢枷翊艝茉翦問洛巫遠鎬p逡逑圖1.2基于視覺與語言的多模態(tài)任務(wù)進展趨勢。隨著對圖像內(nèi)容理解的深入,機器對圖像逡逑的描述從個別單詞到完整的句子再到故事情節(jié),甚至能夠回答相關(guān)的問題。逡逑受到自然語言處理領(lǐng)域中自動問答任務(wù)的啟發(fā),研宄人員提出自動視覺問逡逑答任務(wù)來測試機器對多模態(tài)信息的理解和推理能力。在基于文本的自動問答任逡逑務(wù)中
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2019
【分類號】:TP391.41;TP18
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 魏維;游靜;劉鳳玉;許滿武;;音頻高層語義分析[J];中國圖象圖形學(xué)報;2007年01期
2 歐陽軍林;夏利民;張偉偉;;基于高層語義及相關(guān)反饋的圖像檢索[J];計算機工程與應(yīng)用;2006年25期
3 許源;薛向陽;;一種視頻局部高層語義特征提取算法[J];計算機科學(xué);2006年11期
4 吳楠;宋方敏;;一種基于圖像高層語義信息的圖像檢索方法[J];中國圖象圖形學(xué)報;2006年12期
5 王崇駿,楊育彬,陳世福;基于高層語義的圖像檢索算法[J];軟件學(xué)報;2004年10期
6 席彩麗;;基于內(nèi)容的圖像檢索高層語義處理方法[J];圖書情報工作;2009年09期
7 李天添;趙丹華;趙江洪;;基于高層語義視覺表征的意象版工具[J];包裝工程;2018年04期
8 ;2014年《計算機研究與發(fā)展》專題(正刊)征文通知——“深度學(xué)習(xí)”[J];計算機研究與發(fā)展;2014年01期
9 顧廣華;秦芳;;基于多層次特征表示的圖像場景分類算法[J];高技術(shù)通訊;2019年03期
10 賈振超;趙耀;朱振峰;;應(yīng)用對象語義進行圖像檢索的新方法[J];鐵道學(xué)報;2007年04期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 張楊;房斌;徐傳運;;基于本體和描述邏輯的圖像語義識別[A];全國第20屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
2 姜志國;張立國;史駿;;基于內(nèi)容的數(shù)字病理切片檢索技術(shù)研究[A];第八屆全國生物醫(yī)學(xué)體視學(xué)學(xué)術(shù)會議、第十一屆全軍軍事病理學(xué)學(xué)術(shù)會議、第七屆全軍定量病理學(xué)學(xué)術(shù)會議論文(摘要)匯編[C];2012年
3 楊震群;魏驍勇;夏芳;;基于上下文空間的概念融合技術(shù)[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
4 吳玲達;魏迎梅;謝毓湘;楊征;;MSFAS:一個媒體語義特征分析系統(tǒng)的設(shè)計與實現(xiàn)[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
5 趙海英;彭宏;徐丹;;交互式的基于內(nèi)容的圖像檢索[A];’2004計算機應(yīng)用技術(shù)交流會議論文集[C];2004年
6 曲云堯;施伯樂;;事務(wù)分層及其調(diào)度技術(shù)的研究[A];數(shù)據(jù)庫研究與進展95——第十三屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1995年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 于東飛;基于注意力機制與高層語義的視覺問答研究[D];中國科學(xué)技術(shù)大學(xué);2019年
2 潘瀅煒;基于高層語義的跨模態(tài)應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2018年
3 萬華林;圖象檢索中高層語義和低層可視特征的提取研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2002年
4 孫元;多媒體語義檢索關(guān)鍵問題研究[D];吉林大學(xué);2010年
5 高贊;基于內(nèi)容的視頻分析關(guān)鍵技術(shù)[D];北京郵電大學(xué);2011年
6 姚聰;自然圖像中文字檢測與識別研究[D];華中科技大學(xué);2014年
7 韋星星;基于結(jié)構(gòu)化信息的圖像內(nèi)容分析與理解[D];天津大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 史建華;基于高層語義的場景分類[D];中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機械研究所);2016年
2 王繼宗;基于高層語義特征的圖像檢索關(guān)鍵技術(shù)研究[D];吉林大學(xué);2013年
3 張毅;基于高層語義的圖像檢索研究[D];西安電子科技大學(xué);2007年
4 莫浩瀾;基于高層語義的自然圖像檢索方法研究[D];湘潭大學(xué);2007年
5 陳琴;融合進高層語義特征的醫(yī)學(xué)圖像檢索技術(shù)研究[D];寧波大學(xué);2009年
6 王平;基于模糊領(lǐng)域本體的材料外觀腐蝕底層特征與高層語義映射方法研究[D];重慶理工大學(xué);2013年
7 劉繼晴;基于多特征融合的視頻高層語義概念檢測[D];北京郵電大學(xué);2011年
8 呂軼超;結(jié)合底層特征和高層語義的圖像檢索技術(shù)研究[D];重慶大學(xué);2011年
9 安福定;基于高層語義的圖像檢索研究[D];西北農(nóng)林科技大學(xué);2011年
10 孫子晨;視頻高層語義提取技術(shù)研究與應(yīng)用[D];復(fù)旦大學(xué);2009年
本文編號:2629958
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2629958.html