基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像描述方法研究
發(fā)布時間:2023-11-10 17:15
隨著人工智能技術(shù)及其應(yīng)用的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)算法只需要通過大量的數(shù)據(jù)以及性能卓越的硬件設(shè)備,就可以使計算機模擬人類的行為,并且應(yīng)用在生活的方方面面,使人類可以更加高效的完成工作、獲得可觀的經(jīng)濟效益,促進社會的進步。圖像描述結(jié)合了“自然語言處理”和“計算機視覺”兩個熱門研究領(lǐng)域,旨在使計算機在分析輸入圖像的視覺信息后,輸出關(guān)于圖像內(nèi)容的連貫流暢的自然語言描述句子。目前對于圖像描述生成的研究取得了快速的發(fā)展,并且衍生出很多不同的方法。然而現(xiàn)有的圖像描述方法普遍存在生成的描述句子聯(lián)系上下文長期記憶不足、生成的描述語句與圖像的相關(guān)性較差等問題。本文基于多模態(tài)神經(jīng)網(wǎng)絡(luò)(multimodal Recurrent Neural Network,m-RNN),通過分析m-RNN的結(jié)構(gòu),結(jié)合當(dāng)前圖像處理和自然語言處理的研究前沿,從圖像特征提取部分和文本序列數(shù)據(jù)處理兩方面入手,找出m-RNN對于一些圖像生成描述的效果不佳的問題所在,進行了以下工作:(1)探究使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分析提取圖像特征的功能,深入理解Vgg-16網(wǎng)絡(luò)的邏輯內(nèi)涵,在構(gòu)建...
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于生成的方法
1.2.2 基于檢索的方法
1.2.3 基于編碼-解碼的方法
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
2 圖像描述相關(guān)技術(shù)理論
2.1 語言模型
2.2 編碼-解碼框架
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)簡介
2.3.2 常用的卷積神經(jīng)網(wǎng)絡(luò)介紹
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5 注意力機制
2.6 本章小結(jié)
3 基于m-RNN的圖像描述方法研究
3.1 m-RNN模型的介紹
3.2 m-RNN模型的改進方向
3.3 本章小結(jié)
4 改進的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法
4.1 使用卷積注意力模塊(CBAM)優(yōu)化圖像特征提取
4.2 使用門控循環(huán)單元(GRU)優(yōu)化語言模型
4.3 實驗數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
4.3.1 實驗數(shù)據(jù)集
4.3.2 數(shù)據(jù)預(yù)處理
4.4 實驗和結(jié)果分析
4.4.1 實驗環(huán)境
4.4.2 模型訓(xùn)練
4.4.3 評價方法
4.4.4 實驗結(jié)果與分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
致謝
參考文獻
攻讀學(xué)位期間的研究成果
本文編號:3861977
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于生成的方法
1.2.2 基于檢索的方法
1.2.3 基于編碼-解碼的方法
1.3 本文主要研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
2 圖像描述相關(guān)技術(shù)理論
2.1 語言模型
2.2 編碼-解碼框架
2.3 卷積神經(jīng)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)簡介
2.3.2 常用的卷積神經(jīng)網(wǎng)絡(luò)介紹
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.5 注意力機制
2.6 本章小結(jié)
3 基于m-RNN的圖像描述方法研究
3.1 m-RNN模型的介紹
3.2 m-RNN模型的改進方向
3.3 本章小結(jié)
4 改進的多模態(tài)神經(jīng)網(wǎng)絡(luò)圖像描述方法
4.1 使用卷積注意力模塊(CBAM)優(yōu)化圖像特征提取
4.2 使用門控循環(huán)單元(GRU)優(yōu)化語言模型
4.3 實驗數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
4.3.1 實驗數(shù)據(jù)集
4.3.2 數(shù)據(jù)預(yù)處理
4.4 實驗和結(jié)果分析
4.4.1 實驗環(huán)境
4.4.2 模型訓(xùn)練
4.4.3 評價方法
4.4.4 實驗結(jié)果與分析
4.5 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
致謝
參考文獻
攻讀學(xué)位期間的研究成果
本文編號:3861977
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3861977.html
最近更新
教材專著