視覺(jué)問(wèn)答(VQA)中語(yǔ)言歧義消除方法的研究
發(fā)布時(shí)間:2021-06-06 10:12
隨著多媒體和互聯(lián)網(wǎng)的發(fā)展,如何處理海量的圖像與文本信息成了目前亟需解決的一道難題。因此,對(duì)計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理交叉領(lǐng)域的研究成為學(xué)者們討論的焦點(diǎn)。其中,視覺(jué)問(wèn)答(Visual Question Answering,VQA)任務(wù)就是研究的熱點(diǎn)話題之一。視覺(jué)問(wèn)答任務(wù)是指給定一個(gè)自然語(yǔ)言問(wèn)句和一幅圖像,要求機(jī)器在對(duì)圖像理解的基礎(chǔ)上對(duì)問(wèn)句做出回答。視覺(jué)問(wèn)答涉及了語(yǔ)義理解、圖像檢測(cè)與識(shí)別、知識(shí)推理等相關(guān)技術(shù),要求機(jī)器以人類的方式來(lái)理解圖像,同時(shí)基于語(yǔ)言與用戶進(jìn)行交互,因此對(duì)提升機(jī)器人等人工智能系統(tǒng)的智能程度具有十分重要的作用。在過(guò)去的幾年里,視覺(jué)問(wèn)答得到了廣泛的關(guān)注,因此涌現(xiàn)了大量的相關(guān)工作。通常來(lái)說(shuō),視覺(jué)問(wèn)答任務(wù)需要同時(shí)處理圖像的視覺(jué)信息和問(wèn)句的文本信息,并以特征融合的方式將提取的視覺(jué)特征和文本特征映射到相同高維空間內(nèi),這需要視覺(jué)問(wèn)答模型能正確解析出問(wèn)句的語(yǔ)義,從而結(jié)合視覺(jué)特征給出正確的答案。對(duì)于復(fù)雜的問(wèn)句,由于語(yǔ)言歧義現(xiàn)象的存在,現(xiàn)有的模型往往對(duì)文本信息的捕捉產(chǎn)生偏差,這導(dǎo)致現(xiàn)有的VQA系統(tǒng)難以捕捉問(wèn)句的真實(shí)含義。當(dāng)答案錯(cuò)誤的時(shí)候,人類可以嘗試以其他多種方式理解問(wèn)句,從而得出不同的答案。...
【文章來(lái)源】:天津工業(yè)大學(xué)天津市
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VizWiz數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例2.1.1基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法對(duì)于第一個(gè)類別——基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們?cè)O(shè)計(jì)的模型中,只使用簡(jiǎn)單的詞袋作為文本特征,并使用來(lái)自GoogLeNet[44]提取的深層特征作為視覺(jué)特征。輸入的問(wèn)句首先轉(zhuǎn)換成一個(gè)熱向量(One-hotVector),通過(guò)詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來(lái),組合后的特征被發(fā)送到softmax層來(lái)預(yù)測(cè)答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問(wèn)句中信息詞之間的相關(guān)性,以及視覺(jué)特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例2.1.1基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法對(duì)于第一個(gè)類別——基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們?cè)O(shè)計(jì)的模型中,只使用簡(jiǎn)單的詞袋作為文本特征,并使用來(lái)自GoogLeNet[44]提取的深層特征作為視覺(jué)特征。輸入的問(wèn)句首先轉(zhuǎn)換成一個(gè)熱向量(One-hotVector),通過(guò)詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來(lái),組合后的特征被發(fā)送到softmax層來(lái)預(yù)測(cè)答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問(wèn)句中信息詞之間的相關(guān)性,以及視覺(jué)特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
【參考文獻(xiàn)】:
期刊論文
[1]新的動(dòng)態(tài)記憶網(wǎng)絡(luò)的視覺(jué)問(wèn)答[J]. 王永琦,吳飛,王春媛,江瀟瀟. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的圖像碎片化信息問(wèn)答算法[J]. 王一蕾,卓一帆,吳英杰,陳銘欽. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[3]基于深度學(xué)習(xí)的圖片問(wèn)答系統(tǒng)設(shè)計(jì)研究[J]. 周遠(yuǎn)俠,于津. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[4]基于Spatial-DCTHash動(dòng)態(tài)參數(shù)網(wǎng)絡(luò)的視覺(jué)問(wèn)答算法[J]. 孟祥申,江愛(ài)文,劉長(zhǎng)紅,葉繼華,王明文. 中國(guó)科學(xué):信息科學(xué). 2017(08)
本文編號(hào):3214169
【文章來(lái)源】:天津工業(yè)大學(xué)天津市
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VizWiz數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例2.1.1基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法對(duì)于第一個(gè)類別——基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們?cè)O(shè)計(jì)的模型中,只使用簡(jiǎn)單的詞袋作為文本特征,并使用來(lái)自GoogLeNet[44]提取的深層特征作為視覺(jué)特征。輸入的問(wèn)句首先轉(zhuǎn)換成一個(gè)熱向量(One-hotVector),通過(guò)詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來(lái),組合后的特征被發(fā)送到softmax層來(lái)預(yù)測(cè)答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問(wèn)句中信息詞之間的相關(guān)性,以及視覺(jué)特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
天津工業(yè)大學(xué)碩士學(xué)位論文10圖2-2VQA數(shù)據(jù)集中的圖像-問(wèn)句對(duì)示例2.1.1基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法對(duì)于第一個(gè)類別——基于視覺(jué)文本特征點(diǎn)乘的視覺(jué)問(wèn)答方法,代表性的模型是Zhou等人[43]提出的iBOWIMG(如圖2-3)。在他們?cè)O(shè)計(jì)的模型中,只使用簡(jiǎn)單的詞袋作為文本特征,并使用來(lái)自GoogLeNet[44]提取的深層特征作為視覺(jué)特征。輸入的問(wèn)句首先轉(zhuǎn)換成一個(gè)熱向量(One-hotVector),通過(guò)詞嵌入層轉(zhuǎn)換成單詞特征,然后與CNN提取的圖像特征連接起來(lái),組合后的特征被發(fā)送到softmax層來(lái)預(yù)測(cè)答案類。圖2-3iBOWIMG模型結(jié)構(gòu)從本質(zhì)上講,iBOWIMG模型學(xué)習(xí)的是答案與問(wèn)句中信息詞之間的相關(guān)性,以及視覺(jué)特征之間的相關(guān)性。他們將softmax的學(xué)習(xí)權(quán)值分為兩部分,一部分用
【參考文獻(xiàn)】:
期刊論文
[1]新的動(dòng)態(tài)記憶網(wǎng)絡(luò)的視覺(jué)問(wèn)答[J]. 王永琦,吳飛,王春媛,江瀟瀟. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[2]基于深度神經(jīng)網(wǎng)絡(luò)的圖像碎片化信息問(wèn)答算法[J]. 王一蕾,卓一帆,吳英杰,陳銘欽. 計(jì)算機(jī)研究與發(fā)展. 2018(12)
[3]基于深度學(xué)習(xí)的圖片問(wèn)答系統(tǒng)設(shè)計(jì)研究[J]. 周遠(yuǎn)俠,于津. 計(jì)算機(jī)應(yīng)用與軟件. 2018(12)
[4]基于Spatial-DCTHash動(dòng)態(tài)參數(shù)網(wǎng)絡(luò)的視覺(jué)問(wèn)答算法[J]. 孟祥申,江愛(ài)文,劉長(zhǎng)紅,葉繼華,王明文. 中國(guó)科學(xué):信息科學(xué). 2017(08)
本文編號(hào):3214169
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3214169.html
最近更新
教材專著