基于深度學習的自動生成圖像描述方法研究
發(fā)布時間:2021-01-31 01:01
隨著數(shù)據(jù)規(guī)模和計算能力的飛速增長,基于數(shù)據(jù)和硬件的深度學習開始顯示出獨特的優(yōu)勢。作為一個有挑戰(zhàn)性的人工智能領域,自動生成圖像描述正受到越來越多的關注。作為計算機視覺與自然語言處理領域的綜合性任務,自動生成圖像描述可以完成從圖像到文本的轉換,即算法可以根據(jù)輸入圖像自動生成相應的描述性語句。使計算機可以描述視覺世界帶來了廣泛的應用,如信息檢索、人機交互、兒童教育、為視障人士提供幫助等。傳統(tǒng)的自動生成圖像描述方法包括基于模板的方法和基于檢索的方法,但這些方法有一定的局限性,無法適用于新的場景,與人類描述的相關性較差。本文使用深度學習的方法,設計了基于編碼器-解碼器結構的自動生成圖像描述模型。用擴展的深度卷積神經網(wǎng)絡作為編碼器提取圖像特征,用長短期記憶網(wǎng)絡生成描述性句子。本文對于端到端的自動生成圖像描述模型展開研究,主要工作如下:1.對深度卷積神經網(wǎng)絡進行改進,保持超參數(shù)數(shù)量不變的情況下提高其準確性。傳統(tǒng)的提高卷積神經網(wǎng)絡精度的方法是增加其深度,但是,隨著超參數(shù)數(shù)量的增加,網(wǎng)絡設計的難度和計算開銷也會增大。受到Inception模塊的多支路機制的啟發(fā),本文設計了基于Resnet的高度模塊化的卷...
【文章來源】:北方工業(yè)大學北京市
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
自動生成圖像描述模型測試界面圖
第五章實驗結果與分析42MSCOCO的學習率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結果表明在采用大規(guī)模的數(shù)據(jù)集訓練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結果對比
第五章實驗結果與分析42MSCOCO的學習率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結果表明在采用大規(guī)模的數(shù)據(jù)集訓練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結果對比
本文編號:3009916
【文章來源】:北方工業(yè)大學北京市
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
自動生成圖像描述模型測試界面圖
第五章實驗結果與分析42MSCOCO的學習率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結果表明在采用大規(guī)模的數(shù)據(jù)集訓練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結果對比
第五章實驗結果與分析42MSCOCO的學習率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結果表明在采用大規(guī)模的數(shù)據(jù)集訓練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結果對比
本文編號:3009916
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3009916.html
最近更新
教材專著