天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

面向圖像與文本的多模態(tài)關(guān)聯(lián)學(xué)習(xí)的研究與應(yīng)用

發(fā)布時(shí)間:2020-07-30 12:31
【摘要】:多模態(tài)關(guān)聯(lián)學(xué)習(xí)是多媒體理解任務(wù)的基石,并且具有廣泛的應(yīng)用場(chǎng)景。但是多模態(tài)關(guān)聯(lián)學(xué)習(xí)由于其輸入數(shù)據(jù)不同模態(tài)之間的巨大差異往往被認(rèn)為是一個(gè)很具有挑戰(zhàn)的研究課題。而多模態(tài)關(guān)聯(lián)學(xué)習(xí)的關(guān)鍵是在于為不同模態(tài)的輸入數(shù)據(jù)建立相互關(guān)聯(lián)關(guān)系。本文專注于包括多模態(tài)數(shù)據(jù)對(duì)齊以及多模態(tài)關(guān)聯(lián)特征學(xué)習(xí)在內(nèi)的關(guān)于圖像-文本多模態(tài)關(guān)聯(lián)學(xué)習(xí)兩大基礎(chǔ)研究課題,以及與圖像-文本多模態(tài)關(guān)聯(lián)學(xué)習(xí)最為相關(guān)的兩大重要應(yīng)用:跨模態(tài)圖像檢索以及多模態(tài)視覺問答。首先,針對(duì)多模態(tài)數(shù)據(jù)集對(duì)齊任務(wù)提出了一套新的框架,該框架基于圖像和文本之間的互補(bǔ)性,同時(shí)依托大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)以及深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)擴(kuò)充人工標(biāo)注圖像數(shù)據(jù)集。其中大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)提供大量包含上下文文本信息的圖像資源,而深度卷積神經(jīng)網(wǎng)絡(luò)則代替人工標(biāo)注資源在借助文本信息的情況下去除掉大量的噪聲圖像數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,基于本文方法可以在保證準(zhǔn)確率以及多樣性的情況下,從大規(guī);ヂ(lián)數(shù)據(jù)中顯著擴(kuò)充現(xiàn)有人工標(biāo)注數(shù)據(jù)集。通過在圖像識(shí)別任務(wù)和遷移學(xué)習(xí)任務(wù)上實(shí)驗(yàn),證明了基于本文方法自動(dòng)擴(kuò)充的圖像數(shù)據(jù)集可以帶來顯著的性能提升。這也進(jìn)一步驗(yàn)證了基于大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)的多模態(tài)數(shù)據(jù)增強(qiáng)可以帶來更多有用的監(jiān)督信息幫助模型訓(xùn)練。其次,提出了一種全新的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像-文本多模態(tài)關(guān)聯(lián)特征學(xué)習(xí)的算法。通過該深度卷積神經(jīng)網(wǎng)絡(luò)可以在同一連續(xù)空間中學(xué)習(xí)文本特征表示和圖像特征表示。另外還引入了一種名為交叉卷積濾波器正則化的技術(shù)加速卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,減少了將近一半的訓(xùn)練時(shí)間消耗。為了進(jìn)一步驗(yàn)證基于本文方法學(xué)習(xí)得到的圖像-文本多模態(tài)關(guān)聯(lián)特征的質(zhì)量,定義了基于多模態(tài)關(guān)聯(lián)特征的文本-文本以及文本-圖像之間的相似度度量方法來自動(dòng)構(gòu)建圖像數(shù)據(jù)集。這兩個(gè)相似度度量方法被用來替代傳統(tǒng)人工數(shù)據(jù)集標(biāo)注過程中的兩個(gè)重要步驟:類別關(guān)鍵詞擴(kuò)充以及噪聲圖片過濾。最終,在不使用任何人工標(biāo)注數(shù)據(jù)集的基礎(chǔ)上從頭構(gòu)建了一個(gè)全新數(shù)據(jù)集。該數(shù)據(jù)集不但數(shù)據(jù)規(guī)模與大規(guī)模人工標(biāo)注的數(shù)據(jù)集接近,且在準(zhǔn)確率和數(shù)據(jù)多樣性以及跨數(shù)據(jù)集泛化能力上都與人工標(biāo)注數(shù)據(jù)集不相上下。之后本文主要關(guān)注跟多模態(tài)關(guān)聯(lián)學(xué)習(xí)相關(guān)的兩大重要應(yīng)用。對(duì)于跨模態(tài)圖像檢索,本文介紹了三種不同的框架。第一種是基于典型關(guān)聯(lián)分析的圖像檢索模型,該方法基于大規(guī)模文本語料學(xué)習(xí)得到的文本特征表示以及有標(biāo)注圖像識(shí)別任務(wù)學(xué)習(xí)得到的圖像特征表示,通過簡單的線性變換將兩個(gè)不同模態(tài)的特征空間映射到同一空間。第二種是基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索模型,針對(duì)該模型本文提出了一種全新的逐任務(wù)遷移學(xué)習(xí)的多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,且在有噪聲的用戶點(diǎn)擊數(shù)據(jù)上學(xué)習(xí)面向圖像檢索任務(wù)的深度圖像特征。最后一種是基于圖像-文本多模態(tài)關(guān)聯(lián)特征的圖像檢索模型,使用圖像-文本多模態(tài)關(guān)聯(lián)特征計(jì)算查詢關(guān)鍵字與圖像之間的相關(guān)度,以及計(jì)算圖像與圖像之間的相關(guān)度對(duì)檢索后的圖像進(jìn)行重排序。在大規(guī)模圖像檢索任務(wù)上的實(shí)驗(yàn)結(jié)果表明基于圖像-文本多模態(tài)關(guān)聯(lián)特征的圖像檢索模型具有更優(yōu)性能。本文討論的另外一個(gè)跟多模態(tài)關(guān)聯(lián)學(xué)習(xí)相關(guān)的應(yīng)用是多模態(tài)視覺問答任務(wù)。該任務(wù)由于需要綜合考慮對(duì)圖像內(nèi)容理解的能力,問句文本信息理解的能力以及圖像-問句-答案三元組之間的多模態(tài)推理關(guān)系,往往被認(rèn)為是一項(xiàng)難度較大的應(yīng)用。本文提出了一種基于回歸的學(xué)習(xí)模型來度量圖像-問句-答案三元組之間的相互關(guān)系。此外,還提出了一種基于注意力的深度張量神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來完成三元組推理過程。實(shí)驗(yàn)結(jié)果表明,將本文提出的方法應(yīng)用在目前廣泛使用的視覺問答模型MLB和MUTAN上之后視覺問答任務(wù)的性能有了顯著提升。概括地說,本文為圖像-文本多模態(tài)關(guān)聯(lián)學(xué)習(xí)提出了若干種解決方案,且在多模態(tài)數(shù)據(jù)關(guān)聯(lián)以及多模態(tài)特征關(guān)聯(lián)這兩個(gè)多模態(tài)關(guān)聯(lián)學(xué)習(xí)的基礎(chǔ)任務(wù)上證明了本文提出方法的有效性。同時(shí),本文提出的方法還進(jìn)一步提升了跨模態(tài)圖像檢索以及多模態(tài)視覺問答這兩大多模態(tài)關(guān)聯(lián)學(xué)習(xí)關(guān)鍵應(yīng)用的性能,這也進(jìn)一步證明了本文研究內(nèi)容的實(shí)用價(jià)值。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP391.41;TP18

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蘇樹智;朱剛;高鵬連;鄧瀛灝;鄭蘋;;面向多模態(tài)圖像的廣義輔助相關(guān)投影方法[J];安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2019年04期

2 周毅;;政務(wù)多模態(tài)圖像話語表征探析[J];中國廣播電視學(xué)刊;2017年06期

3 王佳宇;;“系統(tǒng)功能符號(hào)學(xué)”視角下多模態(tài)語篇的批評(píng)性分析框架研究[J];外語藝術(shù)教育研究;2011年01期

4 楊?,裴繼紅,謝維信;一種基于頻帶一致性的多模態(tài)圖像校準(zhǔn)算法[J];通信學(xué)報(bào);2005年04期

5 陳風(fēng)華;胡冬梅;;多模態(tài)隱喻研究20年(1998—2017)——理論、實(shí)踐與進(jìn)展[J];外國語文;2018年05期

6 楊小敏;;國外政府網(wǎng)站設(shè)計(jì)與形象建構(gòu):基于多模態(tài)視覺語法的分析[J];外國語文研究(輯刊);2018年01期

7 劉澤宇;馬龍龍;吳健;孫樂;;基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成方法[J];中文信息學(xué)報(bào);2017年06期

8 朱俊林;;淺析多模態(tài)醫(yī)學(xué)圖像的配準(zhǔn)與融合技術(shù)[J];醫(yī)療衛(wèi)生裝備;2005年12期

9 黎姿;;電影《流浪地球》海報(bào)的多模態(tài)三維解讀[J];藝術(shù)科技;2019年01期

10 閆利;胡修兵;陳長軍;馬振玲;;多模態(tài)圖像配準(zhǔn)的梯度一致性算子[J];武漢大學(xué)學(xué)報(bào)(信息科學(xué)版);2013年08期

相關(guān)會(huì)議論文 前1條

1 林哲;閆敬文;袁野;;基于稀疏表示和PCNN的多模態(tài)圖像融合[A];創(chuàng)新驅(qū)動(dòng)與轉(zhuǎn)型發(fā)展,推動(dòng)汕頭騰飛——汕頭市科協(xié)第七屆學(xué)術(shù)年會(huì)優(yōu)秀論文集[C];2014年

相關(guān)博士學(xué)位論文 前4條

1 白亞龍;面向圖像與文本的多模態(tài)關(guān)聯(lián)學(xué)習(xí)的研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2018年

2 劉沐寒;光學(xué)核素多模態(tài)分子影像在肝癌/胃癌腫瘤模型上的應(yīng)用[D];西安電子科技大學(xué);2017年

3 李盼龍;多模態(tài)核磁共振腦圖像處理方法的研究及其應(yīng)用[D];鄭州大學(xué);2019年

4 張靜亞;非剛體醫(yī)學(xué)圖像配準(zhǔn)技術(shù)研究[D];蘇州大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 童靖然;基于多模態(tài)數(shù)據(jù)的目標(biāo)檢測(cè)與追蹤[D];江南大學(xué);2019年

2 王天嬌;多模態(tài)圖像重排序算法研究[D];北京交通大學(xué);2019年

3 王耀煊;面向多模態(tài)高層語義的歧視情感檢測(cè)[D];北京交通大學(xué);2019年

4 羅成偉;基于多模態(tài)數(shù)據(jù)融合的視覺目標(biāo)跟蹤算法研究[D];電子科技大學(xué);2019年

5 朱韋丹;基于多模態(tài)圖像融合的人臉識(shí)別算法研究[D];電子科技大學(xué);2019年

6 楊帆;多模態(tài)圖像中的目標(biāo)檢測(cè)問題研究[D];南京大學(xué);2019年

7 湯琪琦;中美影視公益廣告互動(dòng)意義的多模態(tài)話語對(duì)比分析[D];廈門大學(xué);2018年

8 江雙珊;多模態(tài)視角下英文影視片段對(duì)培養(yǎng)高中學(xué)生英語口語表達(dá)能力的研究[D];重慶師范大學(xué);2019年

9 顏晗;基于局部特征的多模態(tài)圖像配準(zhǔn)與融合研究[D];齊魯工業(yè)大學(xué);2019年

10 周雅文;HIV感染者大腦運(yùn)動(dòng)功能損傷的多模態(tài)磁共振影像學(xué)研究[D];中國科學(xué)技術(shù)大學(xué);2018年



本文編號(hào):2775544

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2775544.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d1697***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com