基于高層語義的圖像描述生成模型研究

發(fā)布時間：2021-10-25 06:36

　　圖像描述生成旨在為給定的圖像生成相應(yīng)的自然語言文字描述。圖像描述生成涉及計算機視覺和自然語言處理領(lǐng)域,具有很強的挑戰(zhàn)性。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法雖已取得極大進展,然而現(xiàn)有方法仍無法避免因圖像高層語義的缺失而造成的描述文本不準(zhǔn)確不自然等問題。因此,本文結(jié)合圖像的高層語義信息,研究圖像描述生成的方法和技術(shù)。本文的主要工作如下:（1）基于神經(jīng)網(wǎng)絡(luò)的編碼-解碼模型雖能依賴大規(guī)模訓(xùn)練集學(xué)習(xí)到編碼后的圖像特征與解碼生成的描述文本之間的關(guān)聯(lián)關(guān)系,但仍無法避免生成的描述存在語義缺失、語義錯誤等缺陷。針對此問題,本文在經(jīng)典的編碼-解碼模型基礎(chǔ)上進行了改進,提出了一種融合高層語義再生成的圖像描述生成模型,即先利用Faster R-CNN檢測出圖像中的高層語義詞,再通過注意力機制將高層語義信息融入到網(wǎng)絡(luò)模型中,對初始圖像描述進行再生成。實驗結(jié)果表明,融合高層語義信息有助于改善圖像描述文本的質(zhì)量。（2）研究發(fā)現(xiàn),人對圖像進行描述時,不僅依賴自身的語言水平,還依賴圖像內(nèi)容中未明顯包含的常識性知識,而現(xiàn)有的圖像描述生成模型很少能充分利用這類常識性知識。針對此問題,本文提出一種基于圖像高層語義引入...

【文章來源】：合肥工業(yè)大學(xué)安徽省 211工程院校教育部直屬院校

【文章頁數(shù)】：66 頁

【學(xué)位級別】：碩士

【部分圖文】：

基于高層語義的圖像描述生成模型研究

圖像描述示例

模型圖,圖像,生成模型,示例

果。Mason[5]等人使用該場景屬性數(shù)據(jù)集構(gòu)建待描述圖像的視覺表示，并從訓(xùn)練集中找出與之視覺相似的圖像集，之后，依據(jù)文本特征，采用概率密度估計的方法在相似圖像集的候選描述中找出最符合條件的圖像描述。Devlin[6]等人使用k最近鄰的方法得到與輸入圖像視覺表示最相近的k個圖像，隨后從這k個圖像的描述集中選出最佳描述作為圖像的描述。這種基于圖像視覺檢索生成圖像描述的方法雖然在一定程度上保證了描述的語法正確性，但卻無法保證描述的語義與圖像內(nèi)容的相關(guān)性。另外，對數(shù)據(jù)庫之外的圖像很難為之生成相關(guān)的描述。圖1.2基于圖像檢索的圖像描述生成模型示例（Im2Text模型）Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的圖像描述生成基于模板的方法首先使用檢測器提取輸入圖像中視覺概念，具體為圖像中對象類型、對象屬性、場景類型（室內(nèi)或室外）等詞匯標(biāo)簽，然后根據(jù)預(yù)先設(shè)定好的句子模板或語法規(guī)則在空缺上填充相應(yīng)的目標(biāo)內(nèi)容，以便生成遵循規(guī)則的圖像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型，如圖1.3所示，該模型使用檢測器識別圖像中具體的視覺概念，即預(yù)測圖像物體、物體屬性和物體之間相互關(guān)系的具體單詞，之后采用CRF算法計算物體之間的關(guān)系重組屬性標(biāo)簽，最后將屬性標(biāo)簽填充到模板的相應(yīng)位置生成圖像的描述。Farhadi[8]等人借助語法分析等手段抽取描述中圖像的視覺概念并構(gòu)建物體、動作和場景之間的三元組表示，并基于三元組相似訓(xùn)練圖像識別和分類器，進而可以將輸入圖

模型圖,生成模型,模板,圖像

模型，計算選擇出檢測詞中最可能相關(guān)詞語組合并對模板句子的空槽內(nèi)容進行填充。Lu[11]等人把圖像描述生成分成兩個階段，將描述文本數(shù)據(jù)集中詞語分為實體詞與非實體詞，先由語言模型預(yù)先訓(xùn)練好只包含非實體詞的句子模板；再通過目標(biāo)檢測提取圖像中的實體詞，并將提取到的實體詞用于填充由句子模板中的空槽，進而生成完整的圖像描述。這種基于模板的圖像描述生成方法雖然基本保證了描述的語義正確性，但是非常依賴于生成描述前預(yù)先制定的句子模板和語法規(guī)則。另外，對于句子的多樣性來說，該方法無法生成較為靈活的描述。圖1.3基于模板的圖像描述生成模型示例（BabyTalk模型）Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于語言模型的圖像描述生成基于語言模型的方法首先提取輸入圖像的特征表示，并將圖像特征表示輸入帶訓(xùn)練好的語言模型后，直接根據(jù)圖像特征表示生成對應(yīng)的描述。該方法中圖像的特征提取以及描述的生成都需要優(yōu)質(zhì)的模型結(jié)構(gòu)作為支撐，而深度學(xué)習(xí)技術(shù)為該方法提供了基矗受機器翻譯中基于神經(jīng)網(wǎng)絡(luò)的語言模型[12][13][14]成功啟發(fā)，Vinyals等人[15]和Karpathy等人[16]提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型方法，該方法結(jié)構(gòu)如圖1.4所示，首先使用深度卷積網(wǎng)絡(luò)CNN對圖像處理得到圖像表征，之后使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN構(gòu)建的語言模型將圖像表征進行解碼生成相應(yīng)的描述。在此模型基礎(chǔ)

【參考文獻】：
期刊論文
[1]圖像特征提取研究[J]. 翟俊海,趙文秀,王熙照. 河北大學(xué)學(xué)報(自然科學(xué)版). 2009(01)

本文編號：3456847

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3456847.html

上一篇：面向風(fēng)控的企業(yè)關(guān)聯(lián)信息知識圖譜構(gòu)建與應(yīng)用研究
下一篇：“黑石號”沉船Android移動端虛擬漫游系統(tǒng)設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于高層語義的圖像描述生成模型研究