基于視覺特征的二維圖像文本描述生成關(guān)鍵算法研究
發(fā)布時(shí)間:2024-02-19 16:09
二維圖像文本描述生成是人工智能領(lǐng)域的一個(gè)熱門研究,是指利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法和技術(shù),生成能夠描述圖像視覺內(nèi)容的文本語言,涉及了計(jì)算機(jī)視覺和自然語言處理。基于視覺特征的二維圖像文本描述生成關(guān)鍵算法研究旨在通過特征提取、特征融合、語言生成等算法和技術(shù),生成完整的、符合語法結(jié)構(gòu)的文本句子,準(zhǔn)確地描述出二維圖像的視覺內(nèi)容。二維圖像文本描述生成對(duì)于場景理解具有重要意義,人類的交流過程大多依賴于自然語言,使計(jì)算機(jī)能夠描述我們的視覺世界將會(huì)導(dǎo)致大量可能的應(yīng)用,如圖像檢索、語義視覺搜索;人機(jī)交互中的視障輔助;智能監(jiān)控中的道路監(jiān)控等。近年來,雖然該領(lǐng)域的研究取得了長足的進(jìn)步;但是仍然存在著一些亟待解決的問題,表現(xiàn)在以下幾個(gè)方面:(1)已有研究中僅考慮使用圖像層次的特征或粗粒度的屬性特征,造成重要判別信息的損失。在基于注意力機(jī)制的二維圖像文本描述生成方法中,注意力機(jī)制作為特征融合算法能夠充分發(fā)揮作用的前提是已提取足夠的視覺特征;而在基于屬性的圖像文本描述生成方法中使用的通常是粗粒度的屬性特征。忽略了目標(biāo)特征和細(xì)粒度屬性信息的互補(bǔ)性。(2)已有研究中未考慮以粗粒度到細(xì)粒度的方式理解二維圖像的視覺內(nèi)容,...
【文章頁數(shù)】:131 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
本文編號(hào):3902969
【文章頁數(shù)】:131 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.3基于檢索的圖像文本描述生成方法示意圖t16]??Fig.?1.3?Diagram?of?Retrieve-based?Method?for?Image?Description?Generatio?
圖1.7稠密文本描述生成示意圖W??Fig.?1.7?Diagram?of?Dense?Descriptions?Generation??
圖1.8基于注意力的圖像文本描述生成示意圖[63]
圖1.10語義概念示意圖[89】??Fig.?1.10?Diagram?of?Semantic?Concepts??
本文編號(hào):3902969
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3902969.html
最近更新
教材專著