基于深度學(xué)習(xí)的圖像文本描述自動生成方法研究
發(fā)布時間:2022-09-27 18:17
隨著網(wǎng)絡(luò)通信技術(shù)以及多媒體技術(shù)的飛速發(fā)展,人們獲取知識的途徑以及相互之間溝通交流的方式發(fā)生著翻天覆地的變化,越來越多的文本、圖像、視頻等多媒體信息不斷涌入人們的視野。圖像文本描述自動生成任務(wù)是一種融合圖像和文本的多模態(tài)處理的關(guān)鍵技術(shù),該任務(wù)結(jié)合了計算機(jī)視覺和自然語言處理兩個關(guān)鍵領(lǐng)域,實現(xiàn)了從圖像到自然語言的轉(zhuǎn)換,它能夠應(yīng)用于基于文本內(nèi)容的圖像檢索、網(wǎng)絡(luò)圖像分析等眾多場景中。本文采用基于編碼-解碼的模型框架,通過學(xué)習(xí)數(shù)據(jù)集中的圖像特征和文本表達(dá)方式,自動的為測試圖片生成相應(yīng)的文本描述。模型中涉及到兩種深度神經(jīng)網(wǎng)絡(luò),分別是卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),這兩種網(wǎng)絡(luò)近幾年在機(jī)器學(xué)習(xí)領(lǐng)域有著廣泛的應(yīng)用。本文提出了基于文本牽引的注意力機(jī)制結(jié)構(gòu),將該結(jié)構(gòu)分別應(yīng)用于基于CNN-RNN和CNN-CNN的模型框架下,使得模型能夠像人類一樣思考,動態(tài)地為圖像分配不同的注意力區(qū)域來生成相關(guān)的詞語。本文工作和研究成果主要包括以下幾個方面:(1)本文針對圖像文本描述任務(wù)中,圖像和文本之間底層特征的異構(gòu)性問題,提出了一種尋找圖像代表性的文本特征向量的方法。給定查詢圖像,在訓(xùn)練集中通過最近鄰圖像集的查找、“一致性語句”...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于模板的方法
1.2.2 基于檢索的方法
1.2.3 基于編碼-解碼的方法
1.3 論文主要工作與結(jié)構(gòu)
1.3.1 本文的主要工作
1.3.2 本文的組織結(jié)構(gòu)
第二章 圖像文本描述任務(wù)的基礎(chǔ)知識
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.1 神經(jīng)網(wǎng)絡(luò)及后向傳播(Back Propogation,BP)算法
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本操作
2.1.3 卷積神經(jīng)網(wǎng)絡(luò)中的BP算法
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)模型及BP算法
2.2.2 LSTM的模型介紹
2.2.3 LSTM的 BP算法
第三章 基于文本牽引的自適應(yīng)注意力機(jī)制的CNN-RNN模型
3.1 編碼-解碼框架
3.1.1 編碼部分
3.1.2 解碼部分
3.2 視覺特征提取
3.2.1 Res Net模型介紹
3.2.2 圖像局部和全局特征
3.3 最近鄰圖像集
3.3.1 VGG網(wǎng)絡(luò)模型介紹
3.3.2 候選特征的選擇
3.4 文本牽引的向量獲取
3.4.1 一致性語句選擇
3.4.2 文本向量的映射
3.5 文本牽引的注意力機(jī)制模型構(gòu)建
3.5.1 視覺依賴門向量的構(gòu)建
3.5.2 CNN-RNN結(jié)構(gòu)下的文本牽引的自適應(yīng)注意力機(jī)制
3.6 實驗設(shè)計及結(jié)果分析
3.6.1 數(shù)據(jù)集
3.6.2 評價指標(biāo)
3.6.3 網(wǎng)絡(luò)參數(shù)設(shè)置
3.6.4 模型結(jié)果及分析
第四章 基于文本牽引的注意力機(jī)制的CNN-CNN模型結(jié)構(gòu)
4.1 圖像文本描述模型框架
4.1.1 單詞向量特征提取
4.1.2 CNN-CNN結(jié)構(gòu)下的文本牽引的注意力機(jī)制
4.1.3 模型的預(yù)測模塊
4.2 實驗設(shè)計與分析
4.2.1 網(wǎng)絡(luò)參數(shù)設(shè)置
4.2.2 模型結(jié)果及分析
第五章 總結(jié)與展望
5.1 主要工作總結(jié)
5.2 未來工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3681374
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于模板的方法
1.2.2 基于檢索的方法
1.2.3 基于編碼-解碼的方法
1.3 論文主要工作與結(jié)構(gòu)
1.3.1 本文的主要工作
1.3.2 本文的組織結(jié)構(gòu)
第二章 圖像文本描述任務(wù)的基礎(chǔ)知識
2.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.1 神經(jīng)網(wǎng)絡(luò)及后向傳播(Back Propogation,BP)算法
2.1.2 卷積神經(jīng)網(wǎng)絡(luò)的基本操作
2.1.3 卷積神經(jīng)網(wǎng)絡(luò)中的BP算法
2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)模型及BP算法
2.2.2 LSTM的模型介紹
2.2.3 LSTM的 BP算法
第三章 基于文本牽引的自適應(yīng)注意力機(jī)制的CNN-RNN模型
3.1 編碼-解碼框架
3.1.1 編碼部分
3.1.2 解碼部分
3.2 視覺特征提取
3.2.1 Res Net模型介紹
3.2.2 圖像局部和全局特征
3.3 最近鄰圖像集
3.3.1 VGG網(wǎng)絡(luò)模型介紹
3.3.2 候選特征的選擇
3.4 文本牽引的向量獲取
3.4.1 一致性語句選擇
3.4.2 文本向量的映射
3.5 文本牽引的注意力機(jī)制模型構(gòu)建
3.5.1 視覺依賴門向量的構(gòu)建
3.5.2 CNN-RNN結(jié)構(gòu)下的文本牽引的自適應(yīng)注意力機(jī)制
3.6 實驗設(shè)計及結(jié)果分析
3.6.1 數(shù)據(jù)集
3.6.2 評價指標(biāo)
3.6.3 網(wǎng)絡(luò)參數(shù)設(shè)置
3.6.4 模型結(jié)果及分析
第四章 基于文本牽引的注意力機(jī)制的CNN-CNN模型結(jié)構(gòu)
4.1 圖像文本描述模型框架
4.1.1 單詞向量特征提取
4.1.2 CNN-CNN結(jié)構(gòu)下的文本牽引的注意力機(jī)制
4.1.3 模型的預(yù)測模塊
4.2 實驗設(shè)計與分析
4.2.1 網(wǎng)絡(luò)參數(shù)設(shè)置
4.2.2 模型結(jié)果及分析
第五章 總結(jié)與展望
5.1 主要工作總結(jié)
5.2 未來工作展望
致謝
參考文獻(xiàn)
作者在學(xué)期間取得的學(xué)術(shù)成果
本文編號:3681374
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3681374.html
最近更新
教材專著