基于高層語義的圖像描述生成模型研究
發(fā)布時間:2021-10-25 06:36
圖像描述生成旨在為給定的圖像生成相應的自然語言文字描述。圖像描述生成涉及計算機視覺和自然語言處理領域,具有很強的挑戰(zhàn)性。近年來,基于深度神經網(wǎng)絡的圖像描述生成方法雖已取得極大進展,然而現(xiàn)有方法仍無法避免因圖像高層語義的缺失而造成的描述文本不準確不自然等問題。因此,本文結合圖像的高層語義信息,研究圖像描述生成的方法和技術。本文的主要工作如下:(1)基于神經網(wǎng)絡的編碼-解碼模型雖能依賴大規(guī)模訓練集學習到編碼后的圖像特征與解碼生成的描述文本之間的關聯(lián)關系,但仍無法避免生成的描述存在語義缺失、語義錯誤等缺陷。針對此問題,本文在經典的編碼-解碼模型基礎上進行了改進,提出了一種融合高層語義再生成的圖像描述生成模型,即先利用Faster R-CNN檢測出圖像中的高層語義詞,再通過注意力機制將高層語義信息融入到網(wǎng)絡模型中,對初始圖像描述進行再生成。實驗結果表明,融合高層語義信息有助于改善圖像描述文本的質量。(2)研究發(fā)現(xiàn),人對圖像進行描述時,不僅依賴自身的語言水平,還依賴圖像內容中未明顯包含的常識性知識,而現(xiàn)有的圖像描述生成模型很少能充分利用這類常識性知識。針對此問題,本文提出一種基于圖像高層語義引入...
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
圖像描述示例
果。Mason[5]等人使用該場景屬性數(shù)據(jù)集構建待描述圖像的視覺表示,并從訓練集中找出與之視覺相似的圖像集,之后,依據(jù)文本特征,采用概率密度估計的方法在相似圖像集的候選描述中找出最符合條件的圖像描述。Devlin[6]等人使用k最近鄰的方法得到與輸入圖像視覺表示最相近的k個圖像,隨后從這k個圖像的描述集中選出最佳描述作為圖像的描述。這種基于圖像視覺檢索生成圖像描述的方法雖然在一定程度上保證了描述的語法正確性,但卻無法保證描述的語義與圖像內容的相關性。另外,對數(shù)據(jù)庫之外的圖像很難為之生成相關的描述。圖1.2基于圖像檢索的圖像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的圖像描述生成基于模板的方法首先使用檢測器提取輸入圖像中視覺概念,具體為圖像中對象類型、對象屬性、場景類型(室內或室外)等詞匯標簽,然后根據(jù)預先設定好的句子模板或語法規(guī)則在空缺上填充相應的目標內容,以便生成遵循規(guī)則的圖像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如圖1.3所示,該模型使用檢測器識別圖像中具體的視覺概念,即預測圖像物體、物體屬性和物體之間相互關系的具體單詞,之后采用CRF算法計算物體之間的關系重組屬性標簽,最后將屬性標簽填充到模板的相應位置生成圖像的描述。Farhadi[8]等人借助語法分析等手段抽取描述中圖像的視覺概念并構建物體、動作和場景之間的三元組表示,并基于三元組相似訓練圖像識別和分類器,進而可以將輸入圖
模型,計算選擇出檢測詞中最可能相關詞語組合并對模板句子的空槽內容進行填充。Lu[11]等人把圖像描述生成分成兩個階段,將描述文本數(shù)據(jù)集中詞語分為實體詞與非實體詞,先由語言模型預先訓練好只包含非實體詞的句子模板;再通過目標檢測提取圖像中的實體詞,并將提取到的實體詞用于填充由句子模板中的空槽,進而生成完整的圖像描述。這種基于模板的圖像描述生成方法雖然基本保證了描述的語義正確性,但是非常依賴于生成描述前預先制定的句子模板和語法規(guī)則。另外,對于句子的多樣性來說,該方法無法生成較為靈活的描述。圖1.3基于模板的圖像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于語言模型的圖像描述生成基于語言模型的方法首先提取輸入圖像的特征表示,并將圖像特征表示輸入帶訓練好的語言模型后,直接根據(jù)圖像特征表示生成對應的描述。該方法中圖像的特征提取以及描述的生成都需要優(yōu)質的模型結構作為支撐,而深度學習技術為該方法提供了基矗受機器翻譯中基于神經網(wǎng)絡的語言模型[12][13][14]成功啟發(fā),Vinyals等人[15]和Karpathy等人[16]提出了基于神經網(wǎng)絡的語言模型方法,該方法結構如圖1.4所示,首先使用深度卷積網(wǎng)絡CNN對圖像處理得到圖像表征,之后使用基于循環(huán)神經網(wǎng)絡RNN構建的語言模型將圖像表征進行解碼生成相應的描述。在此模型基礎
【參考文獻】:
期刊論文
[1]圖像特征提取研究[J]. 翟俊海,趙文秀,王熙照. 河北大學學報(自然科學版). 2009(01)
本文編號:3456847
【文章來源】:合肥工業(yè)大學安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
圖像描述示例
果。Mason[5]等人使用該場景屬性數(shù)據(jù)集構建待描述圖像的視覺表示,并從訓練集中找出與之視覺相似的圖像集,之后,依據(jù)文本特征,采用概率密度估計的方法在相似圖像集的候選描述中找出最符合條件的圖像描述。Devlin[6]等人使用k最近鄰的方法得到與輸入圖像視覺表示最相近的k個圖像,隨后從這k個圖像的描述集中選出最佳描述作為圖像的描述。這種基于圖像視覺檢索生成圖像描述的方法雖然在一定程度上保證了描述的語法正確性,但卻無法保證描述的語義與圖像內容的相關性。另外,對數(shù)據(jù)庫之外的圖像很難為之生成相關的描述。圖1.2基于圖像檢索的圖像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的圖像描述生成基于模板的方法首先使用檢測器提取輸入圖像中視覺概念,具體為圖像中對象類型、對象屬性、場景類型(室內或室外)等詞匯標簽,然后根據(jù)預先設定好的句子模板或語法規(guī)則在空缺上填充相應的目標內容,以便生成遵循規(guī)則的圖像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如圖1.3所示,該模型使用檢測器識別圖像中具體的視覺概念,即預測圖像物體、物體屬性和物體之間相互關系的具體單詞,之后采用CRF算法計算物體之間的關系重組屬性標簽,最后將屬性標簽填充到模板的相應位置生成圖像的描述。Farhadi[8]等人借助語法分析等手段抽取描述中圖像的視覺概念并構建物體、動作和場景之間的三元組表示,并基于三元組相似訓練圖像識別和分類器,進而可以將輸入圖
模型,計算選擇出檢測詞中最可能相關詞語組合并對模板句子的空槽內容進行填充。Lu[11]等人把圖像描述生成分成兩個階段,將描述文本數(shù)據(jù)集中詞語分為實體詞與非實體詞,先由語言模型預先訓練好只包含非實體詞的句子模板;再通過目標檢測提取圖像中的實體詞,并將提取到的實體詞用于填充由句子模板中的空槽,進而生成完整的圖像描述。這種基于模板的圖像描述生成方法雖然基本保證了描述的語義正確性,但是非常依賴于生成描述前預先制定的句子模板和語法規(guī)則。另外,對于句子的多樣性來說,該方法無法生成較為靈活的描述。圖1.3基于模板的圖像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于語言模型的圖像描述生成基于語言模型的方法首先提取輸入圖像的特征表示,并將圖像特征表示輸入帶訓練好的語言模型后,直接根據(jù)圖像特征表示生成對應的描述。該方法中圖像的特征提取以及描述的生成都需要優(yōu)質的模型結構作為支撐,而深度學習技術為該方法提供了基矗受機器翻譯中基于神經網(wǎng)絡的語言模型[12][13][14]成功啟發(fā),Vinyals等人[15]和Karpathy等人[16]提出了基于神經網(wǎng)絡的語言模型方法,該方法結構如圖1.4所示,首先使用深度卷積網(wǎng)絡CNN對圖像處理得到圖像表征,之后使用基于循環(huán)神經網(wǎng)絡RNN構建的語言模型將圖像表征進行解碼生成相應的描述。在此模型基礎
【參考文獻】:
期刊論文
[1]圖像特征提取研究[J]. 翟俊海,趙文秀,王熙照. 河北大學學報(自然科學版). 2009(01)
本文編號:3456847
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3456847.html
最近更新
教材專著