多目標(biāo)語言圖像描述模型的研究
發(fā)布時(shí)間:2021-09-07 18:31
圖像描述任務(wù)是自然語言處理和計(jì)算機(jī)視覺領(lǐng)域的交叉課題,近些年引起了國內(nèi)外學(xué)者的廣泛關(guān)注。隨著人工智能技術(shù)的興起,很多有效的圖像描述模型被提出,但是大多數(shù)模型都將長短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory Networks,LSTM)作為生成器,而LSTM存在不能很好支持較長序列依賴的缺點(diǎn),成為了基于LSTM的圖像描述模型的性能瓶頸,導(dǎo)致現(xiàn)有模型不能很好學(xué)習(xí)較長句子中的上下文信息。目前的圖像描述模型一般只能針對一種目標(biāo)語言進(jìn)行生成,而在很多應(yīng)用場景中需要不同語言的文本,圖像描述作為一種應(yīng)用廣泛的技術(shù)不應(yīng)受到語言的限制。本課題針對以上問題展開了研究。針對目前模型支持較長序列依賴能力較差的問題,本文對圖像描述模型的原理和目前先進(jìn)的機(jī)器翻譯模型展開研究,提出了一種基于機(jī)器翻譯模型的圖像描述模型。該模型利用機(jī)器翻譯模型中現(xiàn)有的編碼器和解碼器結(jié)構(gòu),并融入預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)和一些解決特定問題的網(wǎng)絡(luò)結(jié)構(gòu),能夠更好學(xué)習(xí)較長句子中的上下文依賴信息。本文通過對比模型在句子長短分布不同的數(shù)據(jù)集上的表現(xiàn)驗(yàn)證模型的有效性。實(shí)驗(yàn)結(jié)果表明,提出的模型在較長句子分布較多的數(shù)據(jù)集中表現(xiàn)優(yōu)于基于LSTM...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景及來源
1.1.2 研究目的及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于機(jī)器學(xué)習(xí)的圖像描述模型
1.2.2 基于深度學(xué)習(xí)的圖像描述模型
1.2.3 基于強(qiáng)化學(xué)習(xí)的圖像描述模型
1.2.4 圖像描述的評價(jià)指標(biāo)
1.2.5 現(xiàn)有研究中存在的主要問題和不足
1.3 本文的主要研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 圖像描述模型的原理
2.1 引言
2.2 圖像描述模型的優(yōu)化目標(biāo)
2.3 基于LSTM的圖像描述模型
2.3.1 LSTM模型
2.3.2 基于LSTM的圖像描述模型
2.3.3 基于LSTM的圖像描述模型的改進(jìn)方法
2.4 TRANSFORMER模型
2.5 本章小結(jié)
第3章 多目標(biāo)語言圖像描述模型的研究
3.1 引言
3.2 基于TRANSFORMER的圖像描述模型
3.3 多目標(biāo)語言圖像描述模型的原理
3.4 多語言圖像描述模型的設(shè)計(jì)
3.4.1 編碼器設(shè)計(jì)
3.4.2 解碼器設(shè)計(jì)
3.5 多目標(biāo)語言圖像描述模型的優(yōu)化
3.5.1 波束搜索
3.5.2 基于目標(biāo)檢測的圖像特征提取
3.6 本章小結(jié)
第4章 圖像描述模型的實(shí)驗(yàn)及分析
4.1 引言
4.2 數(shù)據(jù)集及評價(jià)指標(biāo)
4.2.1 數(shù)據(jù)集
4.2.2 評價(jià)指標(biāo)
4.3 基于LSTM和 TRANSFORMER的圖像描述模型的實(shí)驗(yàn)及分析
4.4 多目標(biāo)語言圖像描述模型的實(shí)驗(yàn)結(jié)果及分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
本文編號:3390040
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景及來源
1.1.2 研究目的及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于機(jī)器學(xué)習(xí)的圖像描述模型
1.2.2 基于深度學(xué)習(xí)的圖像描述模型
1.2.3 基于強(qiáng)化學(xué)習(xí)的圖像描述模型
1.2.4 圖像描述的評價(jià)指標(biāo)
1.2.5 現(xiàn)有研究中存在的主要問題和不足
1.3 本文的主要研究內(nèi)容
1.4 本文的組織結(jié)構(gòu)
第2章 圖像描述模型的原理
2.1 引言
2.2 圖像描述模型的優(yōu)化目標(biāo)
2.3 基于LSTM的圖像描述模型
2.3.1 LSTM模型
2.3.2 基于LSTM的圖像描述模型
2.3.3 基于LSTM的圖像描述模型的改進(jìn)方法
2.4 TRANSFORMER模型
2.5 本章小結(jié)
第3章 多目標(biāo)語言圖像描述模型的研究
3.1 引言
3.2 基于TRANSFORMER的圖像描述模型
3.3 多目標(biāo)語言圖像描述模型的原理
3.4 多語言圖像描述模型的設(shè)計(jì)
3.4.1 編碼器設(shè)計(jì)
3.4.2 解碼器設(shè)計(jì)
3.5 多目標(biāo)語言圖像描述模型的優(yōu)化
3.5.1 波束搜索
3.5.2 基于目標(biāo)檢測的圖像特征提取
3.6 本章小結(jié)
第4章 圖像描述模型的實(shí)驗(yàn)及分析
4.1 引言
4.2 數(shù)據(jù)集及評價(jià)指標(biāo)
4.2.1 數(shù)據(jù)集
4.2.2 評價(jià)指標(biāo)
4.3 基于LSTM和 TRANSFORMER的圖像描述模型的實(shí)驗(yàn)及分析
4.4 多目標(biāo)語言圖像描述模型的實(shí)驗(yàn)結(jié)果及分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
本文編號:3390040
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3390040.html
最近更新
教材專著