多主題的圖像摘要生成方法研究
發(fā)布時間:2021-01-14 23:15
圖像描述生成任務(wù)(Image Caption)是一個融合了計算機(jī)視覺(CV)和自然語言處理(NLP)的綜合類問題,可以簡單的理解為將輸入的圖像翻譯成關(guān)于圖像內(nèi)容的描述的過程。實現(xiàn)該任務(wù)對于機(jī)器來說具有一定的挑戰(zhàn)性,需要將這一大問題劃分為以下幾個子任務(wù):(1)識別圖中目標(biāo)對象;(2)找到目標(biāo)對象之間的聯(lián)系;(3)用自然語言陳述圖像表達(dá)內(nèi)容。其中理解目標(biāo)對象之間的聯(lián)系,并且用自然語言描述出來是實現(xiàn)圖像描述生成任務(wù)中的重難點。該任務(wù)的應(yīng)用場景非常廣泛,一般是給照片匹配文字,即用戶拍了一張照片,利用圖像描述生成技術(shù)可以匹配到合適的文字,對于用戶來說既方便檢索,又省去了用戶手動配文字的時間。又或者應(yīng)用在幫助視覺障礙者理解圖像內(nèi)容等等。迄今為止,常見的圖像描述生成方法大致可以分為三大類,其中基于神經(jīng)網(wǎng)絡(luò)的是最準(zhǔn)確,研究價值最高的圖像描述生成方法;谏窠(jīng)網(wǎng)絡(luò)的圖像描述生成方法一般采用編碼解碼結(jié)構(gòu),當(dāng)利用解碼器Decoder對中間編碼生成詞序列時,通常僅考慮訓(xùn)練文本的詞分布,假定了在任何主題下的詞分布都是一致的,并沒有考慮主題對詞分布的影響,導(dǎo)致解碼器擬合了一般意義上的詞分布。事實上,不同主題下的詞...
【文章來源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
CNN結(jié)構(gòu)
LSTM結(jié)構(gòu)
GoogleNIC結(jié)構(gòu)
本文編號:2977737
【文章來源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
CNN結(jié)構(gòu)
LSTM結(jié)構(gòu)
GoogleNIC結(jié)構(gòu)
本文編號:2977737
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2977737.html
最近更新
教材專著