基于圖文檢索的多模態(tài)學習算法研究
發(fā)布時間:2021-07-17 11:07
隨著大數據時代的到來,不同模態(tài)類型的數據比如文本、圖像、視頻、音頻等在互聯網上飛速增長。這些多模態(tài)數據從多個不同的角度描述著同一個事件,其中的互補信息使人們對事件的認知更加全面。為了更好地利用多模態(tài)數據,人們嘗試對多模態(tài)數據進行建模處理,各種行之有效的多模態(tài)學習算法隨之被提出,并涌現出了很多熱門的多模態(tài)數據研究領域,比如跨模態(tài)檢索等。目前在多模態(tài)深度學習中存在的問題是:多模態(tài)數據存在著噪聲標簽或者標簽缺失的情況,且人工驗證代價高昂,這樣迫切需要可以有效利用噪聲標簽進行多模態(tài)學習的方法;另外,現有的多模態(tài)數據相關性挖掘方法主要集中在單層次的挖掘,這往往僅能捕獲部分的層次關聯,這就需要一種更全面的多層次相關性挖掘算法來捕捉不同模態(tài)數據間的復雜相關性。因此,本論文重點研究如何利用多模態(tài)數據集噪聲標簽進行有效的多模態(tài)學習,以及如何多層次深度挖掘多模態(tài)數據相關性并將其應用到跨模態(tài)檢索系統(tǒng)中。首先,針對多模態(tài)數據集存在的噪聲標簽問題,我們提出了一種噪聲標簽清洗、預測方法。該方法的網絡主體結構包括圖像嵌入子網絡、文本嵌入子網絡、融合網絡層、非線性映射層等,并采用弱監(jiān)督方法,利用多模態(tài)數據集中存在的部...
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數】:78 頁
【學位級別】:碩士
【部分圖文】:
所提算法在測試集上的性能表現圖
第四章 基于多層次相關性挖掘的跨模態(tài)數據檢索方法51圖4.9 所提算法在 Flickr8K dataset 測試集上的性能表現圖圖 4.10 是隨著迭代次數的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現圖從上述實驗結果我們可知:與 MCNN 方法相比,在 Flickr8K 數據集上,我們提出的方法在Imageretrieval實驗中,R@10檢索指標提升0.8%左右,在Sentenceretrieval實驗中,R@10 檢索指標提升 1.6%左右;在 Flickr30K 數據集上,我們提出的方法在Imageretrieval 實驗中
圖 4.10 是隨著迭代次數的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現圖從上述實驗結果我們可知:與 MCNN 方法相比,在 Flickr8K 數據集上,我們提出的方法在Imageretrieval實驗中,R@10檢索指標提升0.8%左右,在Sentenceretrieval實驗中,R@10 檢索指標提升 1.6%左右;在 Flickr30K 數據集上,我們提出的方法在Imageretrieval 實驗中,R@10 檢索指標提升 1.2%左右
【參考文獻】:
期刊論文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
本文編號:3288057
【文章來源】:西安電子科技大學陜西省 211工程院校 教育部直屬院校
【文章頁數】:78 頁
【學位級別】:碩士
【部分圖文】:
所提算法在測試集上的性能表現圖
第四章 基于多層次相關性挖掘的跨模態(tài)數據檢索方法51圖4.9 所提算法在 Flickr8K dataset 測試集上的性能表現圖圖 4.10 是隨著迭代次數的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現圖從上述實驗結果我們可知:與 MCNN 方法相比,在 Flickr8K 數據集上,我們提出的方法在Imageretrieval實驗中,R@10檢索指標提升0.8%左右,在Sentenceretrieval實驗中,R@10 檢索指標提升 1.6%左右;在 Flickr30K 數據集上,我們提出的方法在Imageretrieval 實驗中
圖 4.10 是隨著迭代次數的增加,所提跨模態(tài)檢索算法在 Flickr30K dataset 測試集上的性能表現圖:圖4.10 所提算法在 Flickr30K dataset 測試集上的性能表現圖從上述實驗結果我們可知:與 MCNN 方法相比,在 Flickr8K 數據集上,我們提出的方法在Imageretrieval實驗中,R@10檢索指標提升0.8%左右,在Sentenceretrieval實驗中,R@10 檢索指標提升 1.6%左右;在 Flickr30K 數據集上,我們提出的方法在Imageretrieval 實驗中,R@10 檢索指標提升 1.2%左右
【參考文獻】:
期刊論文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou. National Science Review. 2018(01)
本文編號:3288057
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3288057.html