基于圖文檢索的多模態(tài)學(xué)習(xí)算法研究
發(fā)布時間:2021-07-17 11:07
隨著大數(shù)據(jù)時代的到來,不同模態(tài)類型的數(shù)據(jù)比如文本、圖像、視頻、音頻等在互聯(lián)網(wǎng)上飛速增長。這些多模態(tài)數(shù)據(jù)從多個不同的角度描述著同一個事件,其中的互補(bǔ)信息使人們對事件的認(rèn)知更加全面。為了更好地利用多模態(tài)數(shù)據(jù),人們嘗試對多模態(tài)數(shù)據(jù)進(jìn)行建模處理,各種行之有效的多模態(tài)學(xué)習(xí)算法隨之被提出,并涌現(xiàn)出了很多熱門的多模態(tài)數(shù)據(jù)研究領(lǐng)域,比如跨模態(tài)檢索等。目前在多模態(tài)深度學(xué)習(xí)中存在的問題是:多模態(tài)數(shù)據(jù)存在著噪聲標(biāo)簽或者標(biāo)簽缺失的情況,且人工驗(yàn)證代價高昂,這樣迫切需要可以有效利用噪聲標(biāo)簽進(jìn)行多模態(tài)學(xué)習(xí)的方法;另外,現(xiàn)有的多模態(tài)數(shù)據(jù)相關(guān)性挖掘方法主要集中在單層次的挖掘,這往往僅能捕獲部分的層次關(guān)聯(lián),這就需要一種更全面的多層次相關(guān)性挖掘算法來捕捉不同模態(tài)數(shù)據(jù)間的復(fù)雜相關(guān)性。因此,本論文重點(diǎn)研究如何利用多模態(tài)數(shù)據(jù)集噪聲標(biāo)簽進(jìn)行有效的多模態(tài)學(xué)習(xí),以及如何多層次深度挖掘多模態(tài)數(shù)據(jù)相關(guān)性并將其應(yīng)用到跨模態(tài)檢索系統(tǒng)中。首先,針對多模態(tài)數(shù)據(jù)集存在的噪聲標(biāo)簽問題,我們提出了一種噪聲標(biāo)簽清洗、預(yù)測方法。該方法的網(wǎng)絡(luò)主體結(jié)構(gòu)包括圖像嵌入子網(wǎng)絡(luò)、文本嵌入子網(wǎng)絡(luò)、融合網(wǎng)絡(luò)層、非線性映射層等,并采用弱監(jiān)督方法,利用多模態(tài)數(shù)據(jù)集中存在的部...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
所提算法在測試集上的性能表現(xiàn)圖
第四章 基于多層次相關(guān)性挖掘的跨模態(tài)數(shù)據(jù)檢索方法51圖4.9 所提算法在 Flickr8K dataset 測試集上的性能表現(xiàn)圖圖 4.10 是隨著迭代次數(shù)的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖從上述實(shí)驗(yàn)結(jié)果我們可知:與 MCNN 方法相比,在 Flickr8K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval實(shí)驗(yàn)中,R@10檢索指標(biāo)提升0.8%左右,在Sentenceretrieval實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.6%左右;在 Flickr30K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval 實(shí)驗(yàn)中
圖 4.10 是隨著迭代次數(shù)的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖從上述實(shí)驗(yàn)結(jié)果我們可知:與 MCNN 方法相比,在 Flickr8K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval實(shí)驗(yàn)中,R@10檢索指標(biāo)提升0.8%左右,在Sentenceretrieval實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.6%左右;在 Flickr30K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval 實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.2%左右
【參考文獻(xiàn)】:
期刊論文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
本文編號:3288057
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【部分圖文】:
所提算法在測試集上的性能表現(xiàn)圖
第四章 基于多層次相關(guān)性挖掘的跨模態(tài)數(shù)據(jù)檢索方法51圖4.9 所提算法在 Flickr8K dataset 測試集上的性能表現(xiàn)圖圖 4.10 是隨著迭代次數(shù)的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖從上述實(shí)驗(yàn)結(jié)果我們可知:與 MCNN 方法相比,在 Flickr8K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval實(shí)驗(yàn)中,R@10檢索指標(biāo)提升0.8%左右,在Sentenceretrieval實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.6%左右;在 Flickr30K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval 實(shí)驗(yàn)中
圖 4.10 是隨著迭代次數(shù)的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現(xiàn)圖從上述實(shí)驗(yàn)結(jié)果我們可知:與 MCNN 方法相比,在 Flickr8K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval實(shí)驗(yàn)中,R@10檢索指標(biāo)提升0.8%左右,在Sentenceretrieval實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.6%左右;在 Flickr30K 數(shù)據(jù)集上,我們提出的方法在Imageretrieval 實(shí)驗(yàn)中,R@10 檢索指標(biāo)提升 1.2%左右
【參考文獻(xiàn)】:
期刊論文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
本文編號:3288057
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3288057.html
最近更新
教材專著