面向共同空間學(xué)習(xí)的多模態(tài)數(shù)據(jù)建模和檢索研究
發(fā)布時間:2021-11-12 12:11
隨著大數(shù)據(jù)時代的到來,以文本、圖像、語音等為代表的多媒體數(shù)據(jù)在數(shù)據(jù)量和數(shù)據(jù)多樣性上均達到了很大的規(guī)模,進而對這些多媒體數(shù)據(jù)進行檢索和建模也逐漸變得具有吸引力,即針對多媒體數(shù)據(jù)中存在的多模態(tài)性進行研究已經(jīng)成為熱點。而為了克服多模態(tài)數(shù)據(jù)存在的數(shù)據(jù)結(jié)構(gòu)多樣性、信息復(fù)雜性和對任務(wù)的不匹配性,多模態(tài)數(shù)據(jù)融合起著很重要的作用,其可以通過整合多模態(tài)中所包含的信息從而得到一個任務(wù)導(dǎo)向的統(tǒng)一表征。在這其中,面向構(gòu)建統(tǒng)一表征的共同空間學(xué)習(xí)是主要途徑,即針對數(shù)據(jù)中存在的多模態(tài)性進行建模,從而為多元輸入學(xué)習(xí)潛在的共同空間從而實現(xiàn)稠密數(shù)據(jù)檢索和目標定位、數(shù)據(jù)不平衡處理和多模態(tài)數(shù)據(jù)檢索。本論文的研究以深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)作為共同空間學(xué)習(xí)的主要技術(shù)。首先,針對多模態(tài)數(shù)據(jù)中稠密數(shù)據(jù)的建模,本論文提出了細粒度漸進注意力定位網(wǎng)絡(luò)(FPAN)以完成針對圖像數(shù)據(jù)的檢索和定位工作。即著重對深度學(xué)習(xí)如何建模圖像數(shù)據(jù)進行研究,特別是解決輸入目標圖像在待檢索圖像上如何進行目標定位這一關(guān)鍵問題。對這一問題的解決有效地探索了稠密模態(tài)數(shù)據(jù)間的信息交互并有助于推動研究深度學(xué)習(xí)如何用于共同空間學(xué)習(xí)的建模。FPAN以全卷積網(wǎng)絡(luò)、細粒度“軟”注...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
映射到共同空間中的向量的語義保留性和結(jié)構(gòu)不變性
級聯(lián)上采樣N ×圖3.2 細粒度注意力漸進網(wǎng)絡(luò)框圖3.1 FPAN 的主體思想給定圖像 x 和查詢對象 q,模型需要能確定 q 在 x 中的準確位置。可以用公式 z = {x,q} 表示輸入的一對圖像和查詢。然后,理想的特征函數(shù) 可以從二者中提取最具可分性的特征 , 。同時,檢索函數(shù)需要可以從 x 的背景中將目標對象分離并得到查詢對象的位置。在這里,本算法將特征提取和目標檢索作為兩個互相作用的過程。為了聯(lián)合優(yōu)化這個兩個過程,提出迭代定位策略,其可用公式表達如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到細的定位方式不斷迭代優(yōu)化特征提取和定位函數(shù),其主要包括細粒度注意力生成函數(shù) T
第三章 用于多模態(tài)數(shù)據(jù)檢索的細粒度漸進注意力定位網(wǎng)絡(luò)征,從而 T 可以據(jù)此生成細粒度的注意力圖。然后 Ω 整合這些注意力圖前最優(yōu)的注意力分布。進而,圖像的特征圖和注意力圖進行逐元素相乘以作的輸入。最后,Θ 用于確定查詢目標在原圖中的確切位置,而這也有利于圖督。需要注意的是 為很多機器視覺任務(wù)[41]中常用的已經(jīng)預(yù)訓(xùn)練的深度卷絡(luò)。本章中提出的框架利用漸進注意力的思想來確定圖像中查詢目標的位和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,其中框架以及其中子模塊的結(jié)構(gòu)細節(jié)如圖 3.3 中N ×
【參考文獻】:
期刊論文
[1]跨媒體分析與推理:研究進展與發(fā)展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文編號:3490889
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
映射到共同空間中的向量的語義保留性和結(jié)構(gòu)不變性
級聯(lián)上采樣N ×圖3.2 細粒度注意力漸進網(wǎng)絡(luò)框圖3.1 FPAN 的主體思想給定圖像 x 和查詢對象 q,模型需要能確定 q 在 x 中的準確位置。可以用公式 z = {x,q} 表示輸入的一對圖像和查詢。然后,理想的特征函數(shù) 可以從二者中提取最具可分性的特征 , 。同時,檢索函數(shù)需要可以從 x 的背景中將目標對象分離并得到查詢對象的位置。在這里,本算法將特征提取和目標檢索作為兩個互相作用的過程。為了聯(lián)合優(yōu)化這個兩個過程,提出迭代定位策略,其可用公式表達如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到細的定位方式不斷迭代優(yōu)化特征提取和定位函數(shù),其主要包括細粒度注意力生成函數(shù) T
第三章 用于多模態(tài)數(shù)據(jù)檢索的細粒度漸進注意力定位網(wǎng)絡(luò)征,從而 T 可以據(jù)此生成細粒度的注意力圖。然后 Ω 整合這些注意力圖前最優(yōu)的注意力分布。進而,圖像的特征圖和注意力圖進行逐元素相乘以作的輸入。最后,Θ 用于確定查詢目標在原圖中的確切位置,而這也有利于圖督。需要注意的是 為很多機器視覺任務(wù)[41]中常用的已經(jīng)預(yù)訓(xùn)練的深度卷絡(luò)。本章中提出的框架利用漸進注意力的思想來確定圖像中查詢目標的位和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,其中框架以及其中子模塊的結(jié)構(gòu)細節(jié)如圖 3.3 中N ×
【參考文獻】:
期刊論文
[1]跨媒體分析與推理:研究進展與發(fā)展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文編號:3490889
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3490889.html
最近更新
教材專著