天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像描述方法研究

發(fā)布時間:2023-11-10 17:15
  隨著人工智能技術(shù)及其應(yīng)用的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)算法只需要通過大量的數(shù)據(jù)以及性能卓越的硬件設(shè)備,就可以使計算機模擬人類的行為,并且應(yīng)用在生活的方方面面,使人類可以更加高效的完成工作、獲得可觀的經(jīng)濟效益,促進社會的進步。圖像描述結(jié)合了“自然語言處理”和“計算機視覺”兩個熱門研究領(lǐng)域,旨在使計算機在分析輸入圖像的視覺信息后,輸出關(guān)于圖像內(nèi)容的連貫流暢的自然語言描述句子。目前對于圖像描述生成的研究取得了快速的發(fā)展,并且衍生出很多不同的方法。然而現(xiàn)有的圖像描述方法普遍存在生成的描述句子聯(lián)系上下文長期記憶不足、生成的描述語句與圖像的相關(guān)性較差等問題。本文基于多模態(tài)神經(jīng)網(wǎng)絡(luò)(multimodal Recurrent Neural Network,m-RNN),通過分析m-RNN的結(jié)構(gòu),結(jié)合當(dāng)前圖像處理和自然語言處理的研究前沿,從圖像特征提取部分和文本序列數(shù)據(jù)處理兩方面入手,找出m-RNN對于一些圖像生成描述的效果不佳的問題所在,進行了以下工作:(1)探究使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分析提取圖像特征的功能,深入理解Vgg-16網(wǎng)絡(luò)的邏輯內(nèi)涵,在構(gòu)建...

【文章頁數(shù)】:55 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 基于生成的方法
        1.2.2 基于檢索的方法
        1.2.3 基于編碼-解碼的方法
    1.3 本文主要研究內(nèi)容
    1.4 本文組織結(jié)構(gòu)
2 圖像描述相關(guān)技術(shù)理論
    2.1 語言模型
    2.2 編碼-解碼框架
    2.3 卷積神經(jīng)網(wǎng)絡(luò)
        2.3.1 卷積神經(jīng)網(wǎng)絡(luò)簡介
        2.3.2 常用的卷積神經(jīng)網(wǎng)絡(luò)介紹
    2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
    2.5 注意力機制
    2.6 本章小結(jié)
3 基于m-RNN的圖像描述方法研究
    3.1 m-RNN模型的介紹
    3.2 m-RNN模型的改進方向
    3.3 本章小結(jié)
4 改進的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法
    4.1 使用卷積注意力模塊(CBAM)優(yōu)化圖像特征提取
    4.2 使用門控循環(huán)單元(GRU)優(yōu)化語言模型
    4.3 實驗數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
        4.3.1 實驗數(shù)據(jù)集
        4.3.2 數(shù)據(jù)預(yù)處理
    4.4 實驗和結(jié)果分析
        4.4.1 實驗環(huán)境
        4.4.2 模型訓(xùn)練
        4.4.3 評價方法
        4.4.4 實驗結(jié)果與分析
    4.5 本章小結(jié)
5 總結(jié)與展望
    5.1 本文工作總結(jié)
    5.2 未來工作展望
致謝
參考文獻
攻讀學(xué)位期間的研究成果



本文編號:3861977

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3861977.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fcea3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com