基于生成對抗機(jī)制的跨模態(tài)特征關(guān)聯(lián)及應(yīng)用
發(fā)布時間:2020-12-14 23:36
人類在感知事物時往往會結(jié)合視覺、聽覺以及觸覺等多方面的信息,因為單一模態(tài)信息很難去反映真實世界中紛繁復(fù)雜的場景。隨著移動終端設(shè)備的普及,人們可以方便快捷的在互聯(lián)網(wǎng)上傳各種信息,這些信息涉及到文本、語音、圖像等多個模態(tài)。面對這些海量存在的多模態(tài)數(shù)據(jù),迫切需要找到不同模態(tài)數(shù)據(jù)之間的聯(lián)系,從而賦予機(jī)器結(jié)合多模態(tài)信息去完成特定任務(wù)的能力。跨模態(tài)特征關(guān)聯(lián)技術(shù)希望通過數(shù)據(jù)本身在語義層面建立起不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)性,進(jìn)而能夠更加精準(zhǔn)的實現(xiàn)諸如跨模態(tài)檢索這樣的多模態(tài)數(shù)據(jù)應(yīng)用。如今,深度學(xué)習(xí)的浪潮推動了深度模型的飛速發(fā)展,一大批深度神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生,生成對抗網(wǎng)絡(luò)就是其中具有代表性的模型之一。在博弈對抗思想的指導(dǎo)下,生成對抗網(wǎng)絡(luò)具有一般深度模型難以比擬的數(shù)據(jù)特征學(xué)習(xí)能力。對于跨模態(tài)特征關(guān)聯(lián)而言,其要求關(guān)聯(lián)后的特征對語義具有判別性,對模態(tài)具有一致性。從本質(zhì)上而言,跨模態(tài)特征關(guān)聯(lián)就是一個特征學(xué)習(xí)的過程,因此生成對抗網(wǎng)絡(luò)中的博弈對抗思想能夠為跨模態(tài)特征關(guān)聯(lián)提供有力的工具。在此基礎(chǔ)上,本文基于生成對抗機(jī)制改進(jìn)了一種跨模態(tài)特征關(guān)聯(lián)算法,并以此構(gòu)建了一個跨模態(tài)檢索系統(tǒng),最后結(jié)合多模態(tài)數(shù)據(jù)集驗證其在跨模態(tài)檢索任務(wù)上的...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【圖文】:
GAN極小極大化博弈過程示意圖
少包含一張圖片和 70 個單詞的章節(jié),獲得 10 類文本圖像數(shù)據(jù)對。最終包含 2886 個文本圖像對,其中 2173 個樣本為訓(xùn)練集,231 個樣本為驗個樣本為測試集。Pascal Sentences[51]:該數(shù)據(jù)集收集于 2008 PASCAL 挑戰(zhàn)賽所提供的開發(fā)它總共包含 20 個語義類別,每個類別有 50 張圖片,并且每張圖片有人 個句子,總的樣本數(shù)為 1000。該數(shù)據(jù)集同樣也被分為三個部分,其中訓(xùn)本數(shù)為 800,驗證集和測試集的樣本數(shù)均為 100。NUS-WIDE-10K:該數(shù)據(jù)集是 NUS-WIDE[52]數(shù)據(jù)集的子集,NUS-WIDE 270k 張圖片,每張圖片都有相應(yīng)的文本標(biāo)注信息;NUS-WIDE-10K 則選樣本數(shù)目最多的 10 個類別(窗戶、水、玩具、天空、人、草、食品、花、),每個類別包含 1000 個樣本。該數(shù)據(jù)集的訓(xùn)練集包含 8000 個樣本,驗試集均包含 1000 個樣本。2 數(shù)據(jù)特征提取片特征提取
圖 3.17 PCA 降維后分類結(jié)果示意圖(文本特征)he illustration of PCA dimension reduction for classification results 圖 3.18 PCA 降維后分類結(jié)果示意圖(圖片特征)e illustration of PCA dimension reduction for classification results (
【參考文獻(xiàn)】:
博士論文
[1]基于深度學(xué)習(xí)的跨模態(tài)檢索研究[D]. 馮方向.北京郵電大學(xué) 2015
碩士論文
[1]多模態(tài)語義知識庫構(gòu)造方法研究[D]. 陳敏.華中科技大學(xué) 2014
[2]基于多模態(tài)融合和傳播的跨模態(tài)信息檢索算法[D]. 林婉霞.南京大學(xué) 2012
本文編號:2917217
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【圖文】:
GAN極小極大化博弈過程示意圖
少包含一張圖片和 70 個單詞的章節(jié),獲得 10 類文本圖像數(shù)據(jù)對。最終包含 2886 個文本圖像對,其中 2173 個樣本為訓(xùn)練集,231 個樣本為驗個樣本為測試集。Pascal Sentences[51]:該數(shù)據(jù)集收集于 2008 PASCAL 挑戰(zhàn)賽所提供的開發(fā)它總共包含 20 個語義類別,每個類別有 50 張圖片,并且每張圖片有人 個句子,總的樣本數(shù)為 1000。該數(shù)據(jù)集同樣也被分為三個部分,其中訓(xùn)本數(shù)為 800,驗證集和測試集的樣本數(shù)均為 100。NUS-WIDE-10K:該數(shù)據(jù)集是 NUS-WIDE[52]數(shù)據(jù)集的子集,NUS-WIDE 270k 張圖片,每張圖片都有相應(yīng)的文本標(biāo)注信息;NUS-WIDE-10K 則選樣本數(shù)目最多的 10 個類別(窗戶、水、玩具、天空、人、草、食品、花、),每個類別包含 1000 個樣本。該數(shù)據(jù)集的訓(xùn)練集包含 8000 個樣本,驗試集均包含 1000 個樣本。2 數(shù)據(jù)特征提取片特征提取
圖 3.17 PCA 降維后分類結(jié)果示意圖(文本特征)he illustration of PCA dimension reduction for classification results 圖 3.18 PCA 降維后分類結(jié)果示意圖(圖片特征)e illustration of PCA dimension reduction for classification results (
【參考文獻(xiàn)】:
博士論文
[1]基于深度學(xué)習(xí)的跨模態(tài)檢索研究[D]. 馮方向.北京郵電大學(xué) 2015
碩士論文
[1]多模態(tài)語義知識庫構(gòu)造方法研究[D]. 陳敏.華中科技大學(xué) 2014
[2]基于多模態(tài)融合和傳播的跨模態(tài)信息檢索算法[D]. 林婉霞.南京大學(xué) 2012
本文編號:2917217
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2917217.html
最近更新
教材專著