基于深度學習的圖像文本描述自動生成方法研究

發(fā)布時間：2022-09-27 18:17

　　隨著網(wǎng)絡通信技術以及多媒體技術的飛速發(fā)展,人們獲取知識的途徑以及相互之間溝通交流的方式發(fā)生著翻天覆地的變化,越來越多的文本、圖像、視頻等多媒體信息不斷涌入人們的視野。圖像文本描述自動生成任務是一種融合圖像和文本的多模態(tài)處理的關鍵技術,該任務結合了計算機視覺和自然語言處理兩個關鍵領域,實現(xiàn)了從圖像到自然語言的轉(zhuǎn)換,它能夠應用于基于文本內(nèi)容的圖像檢索、網(wǎng)絡圖像分析等眾多場景中。本文采用基于編碼-解碼的模型框架,通過學習數(shù)據(jù)集中的圖像特征和文本表達方式,自動的為測試圖片生成相應的文本描述。模型中涉及到兩種深度神經(jīng)網(wǎng)絡,分別是卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡,這兩種網(wǎng)絡近幾年在機器學習領域有著廣泛的應用。本文提出了基于文本牽引的注意力機制結構,將該結構分別應用于基于CNN-RNN和CNN-CNN的模型框架下,使得模型能夠像人類一樣思考,動態(tài)地為圖像分配不同的注意力區(qū)域來生成相關的詞語。本文工作和研究成果主要包括以下幾個方面:（1）本文針對圖像文本描述任務中,圖像和文本之間底層特征的異構性問題,提出了一種尋找圖像代表性的文本特征向量的方法。給定查詢圖像,在訓練集中通過最近鄰圖像集的查找、“一致性語句”...

【文章頁數(shù)】：77 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第一章緒論
    1.1 研究背景與意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 基于模板的方法
        1.2.2 基于檢索的方法
        1.2.3 基于編碼-解碼的方法
    1.3 論文主要工作與結構
        1.3.1 本文的主要工作
        1.3.2 本文的組織結構
第二章圖像文本描述任務的基礎知識
    2.1 卷積神經(jīng)網(wǎng)絡
        2.1.1 神經(jīng)網(wǎng)絡及后向傳播(Back Propogation,BP)算法
        2.1.2 卷積神經(jīng)網(wǎng)絡的基本操作
        2.1.3 卷積神經(jīng)網(wǎng)絡中的BP算法
    2.2 循環(huán)神經(jīng)網(wǎng)絡
        2.2.1 循環(huán)神經(jīng)網(wǎng)絡模型及BP算法
        2.2.2 LSTM的模型介紹
        2.2.3 LSTM的 BP算法
第三章基于文本牽引的自適應注意力機制的CNN-RNN模型
    3.1 編碼-解碼框架
        3.1.1 編碼部分
        3.1.2 解碼部分
    3.2 視覺特征提取
        3.2.1 Res Net模型介紹
        3.2.2 圖像局部和全局特征
    3.3 最近鄰圖像集
        3.3.1 VGG網(wǎng)絡模型介紹
        3.3.2 候選特征的選擇
    3.4 文本牽引的向量獲取
        3.4.1 一致性語句選擇
        3.4.2 文本向量的映射
    3.5 文本牽引的注意力機制模型構建
        3.5.1 視覺依賴門向量的構建
        3.5.2 CNN-RNN結構下的文本牽引的自適應注意力機制
    3.6 實驗設計及結果分析
        3.6.1 數(shù)據(jù)集
        3.6.2 評價指標
        3.6.3 網(wǎng)絡參數(shù)設置
        3.6.4 模型結果及分析
第四章基于文本牽引的注意力機制的CNN-CNN模型結構
    4.1 圖像文本描述模型框架
        4.1.1 單詞向量特征提取
        4.1.2 CNN-CNN結構下的文本牽引的注意力機制
        4.1.3 模型的預測模塊
    4.2 實驗設計與分析
        4.2.1 網(wǎng)絡參數(shù)設置
        4.2.2 模型結果及分析
第五章總結與展望
    5.1 主要工作總結
    5.2 未來工作展望
致謝
參考文獻
作者在學期間取得的學術成果

本文編號：3681374

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3681374.html

上一篇：多目標演化優(yōu)化算法的決策空間多樣性維護機制研究
下一篇：兼容ROS的嵌入式實時機器人通信系統(tǒng)的設計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學習的圖像文本描述自動生成方法研究