基于預(yù)訓(xùn)練的跨模態(tài)統(tǒng)一模型研究
發(fā)布時(shí)間:2021-04-26 12:35
世界是多模態(tài)的——信息往往同時(shí)存在于語言、聲音、圖像等多個(gè)模態(tài)當(dāng)中。當(dāng)前人工智能發(fā)展迅速,在自然語言處理(NLP)、自動(dòng)語音識別(ASR)和計(jì)算機(jī)視覺(CV)各自領(lǐng)域都有重大突破,但這種單一領(lǐng)域的突破仍然與真實(shí)世界有著明顯不同。為構(gòu)建真正理解人類世界的人工智能,它需要有對多模態(tài)數(shù)據(jù)識別和響應(yīng)的能力。近年來自然語言處理和計(jì)算機(jī)視覺兩大領(lǐng)域不斷碰撞和融合,衍生出很多跨模態(tài)研究課題,如圖片檢索和圖片問答等,但是由于這兩個(gè)領(lǐng)域中的基礎(chǔ)模型大都針對純NLP或CV任務(wù)單獨(dú)設(shè)計(jì)和訓(xùn)練(例如NLP中針對語言模型設(shè)計(jì)的BERT和CV中針對圖片分類設(shè)計(jì)的ResNet),這些模型無法很好地刻畫語言和視覺內(nèi)容之間的關(guān)聯(lián)。從下游任務(wù)對應(yīng)的標(biāo)注數(shù)據(jù)中學(xué)習(xí)這類關(guān)聯(lián)是解決方案之一,但由于標(biāo)注開銷大,數(shù)據(jù)量較少,該方案依然缺點(diǎn)明顯。本文中提及的跨模態(tài)僅設(shè)計(jì)圖像和文本兩種模態(tài)之間的交互任務(wù)。本文設(shè)計(jì)一種新的結(jié)構(gòu)——Unicoder-VL,基于自注意力機(jī)制學(xué)習(xí)語言與圖像信息間的協(xié)同表示。在此基礎(chǔ)上,利用大規(guī)模的圖像文本匹配對數(shù)據(jù),設(shè)計(jì)基于文本的掩碼語言模型(MLM)、基于圖像區(qū)域的掩碼類別預(yù)測(MOC)、圖像文本匹配(VL...
【文章來源】:北京大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題背景及研究意義
1.2 本文主要研究內(nèi)容和組織結(jié)構(gòu)
1.3 本文的主要貢獻(xiàn)
第二章 相關(guān)研究
2.1 跨模態(tài)任務(wù)相關(guān)研究進(jìn)展
2.1.1 圖像-文本檢索相關(guān)研究進(jìn)展
2.1.2 圖像問答任務(wù)相關(guān)研究進(jìn)展
2.2 預(yù)訓(xùn)練任務(wù)相關(guān)研究進(jìn)展
2.2.1 計(jì)算機(jī)視覺領(lǐng)域預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.2.2 自然語言處理領(lǐng)域預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.2.3 圖像-文本跨模態(tài)預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.3 本章小結(jié)
第三章 基于自注意力機(jī)制的Unicoder-VL的設(shè)計(jì)與驗(yàn)證
3.1 自注意力機(jī)制與Transformer模型
3.1.1 注意力機(jī)制
3.1.2 Transformer編碼器
3.1.3 BERT
3.2 Unicoder-VL模型設(shè)計(jì)
3.2.1 圖像特征編碼模塊——Image Encoding
3.2.2 文本特征編碼模塊——Word Encoding
3.2.3 位置編碼模塊——Position Encoding
3.2.4 模態(tài)編碼模塊——Segment Encoding
3.2.5 圖像-文本聯(lián)合表示——Joint Encoding
3.3 Unicoder-VL在圖像-文本檢索任務(wù)上的表現(xiàn)
3.3.1 圖像-文本檢索任務(wù)定義
3.3.2 圖像-文本檢索任務(wù)評價(jià)指標(biāo)
3.3.3 圖像-文本檢索任務(wù)數(shù)據(jù)集
3.3.4 訓(xùn)練目標(biāo)
3.3.5 實(shí)驗(yàn)設(shè)置
3.3.6 實(shí)驗(yàn)結(jié)果
3.4 Unicoder-VL在圖像問答任務(wù)上的表現(xiàn)
3.4.1 圖像問答數(shù)據(jù)集
3.4.2 圖像問答任務(wù)評價(jià)
3.4.3 圖像問答訓(xùn)練目標(biāo)
3.4.4 實(shí)驗(yàn)設(shè)置
3.4.5 實(shí)驗(yàn)結(jié)果
3.5 本章小結(jié)
第四章 基于預(yù)訓(xùn)練提升的Unicoder-VL的設(shè)計(jì)與驗(yàn)證
4.1 遷移學(xué)習(xí)與預(yù)訓(xùn)練
4.1.1 BERT的預(yù)訓(xùn)練機(jī)制
4.1.2 Unicoder:跨語言預(yù)訓(xùn)練模型
4.2 Unicoder-VL的預(yù)訓(xùn)練算法設(shè)計(jì)
4.2.1 預(yù)訓(xùn)練任務(wù)設(shè)計(jì)
4.2.2 預(yù)訓(xùn)練數(shù)據(jù)處理
4.2.3 預(yù)訓(xùn)練實(shí)驗(yàn)設(shè)置
4.3 預(yù)訓(xùn)練的Unicoder-VL在圖像-文本檢索任務(wù)上的實(shí)驗(yàn)結(jié)果
4.4 預(yù)訓(xùn)練的Unicoder-VL在圖像問答任務(wù)上的表現(xiàn)
4.5 消融實(shí)驗(yàn)
4.5.1 預(yù)訓(xùn)練數(shù)據(jù)集對實(shí)驗(yàn)結(jié)果的影響
4.5.2 圖像特征框數(shù)量對實(shí)驗(yàn)結(jié)果的影響
4.5.3 微調(diào)時(shí)的目標(biāo)函數(shù)對實(shí)驗(yàn)結(jié)果的影響
4.5.4 Unicoder-VL模型深度對實(shí)驗(yàn)結(jié)果的影響
4.6 本章小結(jié)
第五章 結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號:3161422
【文章來源】:北京大學(xué)北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 引言
1.1 課題背景及研究意義
1.2 本文主要研究內(nèi)容和組織結(jié)構(gòu)
1.3 本文的主要貢獻(xiàn)
第二章 相關(guān)研究
2.1 跨模態(tài)任務(wù)相關(guān)研究進(jìn)展
2.1.1 圖像-文本檢索相關(guān)研究進(jìn)展
2.1.2 圖像問答任務(wù)相關(guān)研究進(jìn)展
2.2 預(yù)訓(xùn)練任務(wù)相關(guān)研究進(jìn)展
2.2.1 計(jì)算機(jī)視覺領(lǐng)域預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.2.2 自然語言處理領(lǐng)域預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.2.3 圖像-文本跨模態(tài)預(yù)訓(xùn)練的相關(guān)研究進(jìn)展
2.3 本章小結(jié)
第三章 基于自注意力機(jī)制的Unicoder-VL的設(shè)計(jì)與驗(yàn)證
3.1 自注意力機(jī)制與Transformer模型
3.1.1 注意力機(jī)制
3.1.2 Transformer編碼器
3.1.3 BERT
3.2 Unicoder-VL模型設(shè)計(jì)
3.2.1 圖像特征編碼模塊——Image Encoding
3.2.2 文本特征編碼模塊——Word Encoding
3.2.3 位置編碼模塊——Position Encoding
3.2.4 模態(tài)編碼模塊——Segment Encoding
3.2.5 圖像-文本聯(lián)合表示——Joint Encoding
3.3 Unicoder-VL在圖像-文本檢索任務(wù)上的表現(xiàn)
3.3.1 圖像-文本檢索任務(wù)定義
3.3.2 圖像-文本檢索任務(wù)評價(jià)指標(biāo)
3.3.3 圖像-文本檢索任務(wù)數(shù)據(jù)集
3.3.4 訓(xùn)練目標(biāo)
3.3.5 實(shí)驗(yàn)設(shè)置
3.3.6 實(shí)驗(yàn)結(jié)果
3.4 Unicoder-VL在圖像問答任務(wù)上的表現(xiàn)
3.4.1 圖像問答數(shù)據(jù)集
3.4.2 圖像問答任務(wù)評價(jià)
3.4.3 圖像問答訓(xùn)練目標(biāo)
3.4.4 實(shí)驗(yàn)設(shè)置
3.4.5 實(shí)驗(yàn)結(jié)果
3.5 本章小結(jié)
第四章 基于預(yù)訓(xùn)練提升的Unicoder-VL的設(shè)計(jì)與驗(yàn)證
4.1 遷移學(xué)習(xí)與預(yù)訓(xùn)練
4.1.1 BERT的預(yù)訓(xùn)練機(jī)制
4.1.2 Unicoder:跨語言預(yù)訓(xùn)練模型
4.2 Unicoder-VL的預(yù)訓(xùn)練算法設(shè)計(jì)
4.2.1 預(yù)訓(xùn)練任務(wù)設(shè)計(jì)
4.2.2 預(yù)訓(xùn)練數(shù)據(jù)處理
4.2.3 預(yù)訓(xùn)練實(shí)驗(yàn)設(shè)置
4.3 預(yù)訓(xùn)練的Unicoder-VL在圖像-文本檢索任務(wù)上的實(shí)驗(yàn)結(jié)果
4.4 預(yù)訓(xùn)練的Unicoder-VL在圖像問答任務(wù)上的表現(xiàn)
4.5 消融實(shí)驗(yàn)
4.5.1 預(yù)訓(xùn)練數(shù)據(jù)集對實(shí)驗(yàn)結(jié)果的影響
4.5.2 圖像特征框數(shù)量對實(shí)驗(yàn)結(jié)果的影響
4.5.3 微調(diào)時(shí)的目標(biāo)函數(shù)對實(shí)驗(yàn)結(jié)果的影響
4.5.4 Unicoder-VL模型深度對實(shí)驗(yàn)結(jié)果的影響
4.6 本章小結(jié)
第五章 結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
本文編號:3161422
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3161422.html
最近更新
教材專著