天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深層神經(jīng)網(wǎng)絡(luò)推理的圖像問答技術(shù)研究和應(yīng)用

發(fā)布時(shí)間:2024-04-15 20:59
  隨著深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法和泛化能力的改進(jìn),以及高速并行運(yùn)算能力的提升,基于深層神經(jīng)網(wǎng)絡(luò)的技術(shù)在單個(gè)模態(tài)(圖像、語(yǔ)音、文本)已經(jīng)取得了顛覆式的發(fā)展和工業(yè)級(jí)應(yīng)用。但是,多模態(tài)理解和交互等人類高級(jí)認(rèn)知和推理功能還是很弱。針對(duì)這個(gè)問題,本文研究多模態(tài)交互領(lǐng)域一個(gè)極其重要的研究課題——圖像問答任務(wù)。之前相關(guān)研究主要是通過神經(jīng)網(wǎng)絡(luò)在大量數(shù)據(jù)上的暴力擬合,模型設(shè)計(jì)不夠精細(xì)和缺少?gòu)?fù)雜推理能力,也缺少可解釋性和泛化性。本文著力于設(shè)計(jì)和架構(gòu)具有更強(qiáng)融合和推理能力的跨圖像和文本模態(tài)的神經(jīng)網(wǎng)絡(luò)。本文研究的核心是多模態(tài)之間的融合和多階段的問答推理。對(duì)于多模態(tài)之間的融合,首先,本文基于以前研究,提出了聯(lián)合多圖像特征的Global-Local模型,解決多特征增廣和不同粒度特征的融合問題;其次,提出混階注意力機(jī)制模型,結(jié)合一階注意力和二階注意力的優(yōu)點(diǎn),得到一個(gè)更好的注意力機(jī)制。對(duì)于多階段推理,本文基于推理能力在圖像問答任務(wù)中扮演非常重要角色這個(gè)認(rèn)知,從模型的結(jié)構(gòu)角度出發(fā),提出和改進(jìn)多個(gè)具有推理能力的深層網(wǎng)絡(luò)結(jié)構(gòu),包括基于序列視覺動(dòng)態(tài)更新模型、多步混階模型和鏈?zhǔn)疥P(guān)系推理模型。這些模型驗(yàn)證了構(gòu)造顯式推理結(jié)構(gòu)在圖像問答中有...

【文章頁(yè)數(shù)】:77 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1-1.左圖為圖像問答任務(wù)通用框架,右圖為圖像問答的示例??

圖1-1.左圖為圖像問答任務(wù)通用框架,右圖為圖像問答的示例??

圖1-1.左圖為圖像問答任務(wù)通用框架,右圖為圖像問答的示例??1??


圖2-1.可視化在手寫數(shù)字上訓(xùn)練的ConvNet??2.1.3基于目標(biāo)檢測(cè)的Faster-RCNN預(yù)訓(xùn)練網(wǎng)絡(luò)??

圖2-1.可視化在手寫數(shù)字上訓(xùn)練的ConvNet??2.1.3基于目標(biāo)檢測(cè)的Faster-RCNN預(yù)訓(xùn)練網(wǎng)絡(luò)??

目標(biāo)檢測(cè)網(wǎng)絡(luò)則關(guān)注圖片中特定種類的物體目標(biāo),要求得到這個(gè)目標(biāo)的類別信息和??位置信息。??如圖2-2,在左圖中,Faster?R-CNN是一個(gè)簡(jiǎn)單、統(tǒng)一的用于物體檢測(cè)的網(wǎng)絡(luò)。??FasterRCNN已經(jīng)將特征抽取,候選框提取,候選框回歸,分類都整合在了一個(gè)網(wǎng)絡(luò)??中,使得綜合性能....


圖2-5.注意力機(jī)制圖??

圖2-5.注意力機(jī)制圖??

Source??圖2-5.注意力機(jī)制圖??可以這樣來看待Attention機(jī)制,參考圖2-5,把數(shù)據(jù)從Query生成Attention?Value??的過程利用如下公式表達(dá):??L??AUenion{Query,?Source?)=^?Similarity?[Query,?K?e....


圖3-1.?Global-Local?Fusion模型的結(jié)構(gòu)示意圖??特征和Local模塊得到的局部融合特征輸入到分類器,得到最后的預(yù)測(cè)

圖3-1.?Global-Local?Fusion模型的結(jié)構(gòu)示意圖??特征和Local模塊得到的局部融合特征輸入到分類器,得到最后的預(yù)測(cè)

特征和Local模塊得到的局部融合特征輸入到分類器,得到最后的預(yù)測(cè)。??3.1.2模型的總體架構(gòu)??圖3-1中,是Global-Local?Fusion模型的總體架構(gòu)圖。它主要分為三部分,左邊??的特征提取和模態(tài)融合網(wǎng)絡(luò)是Global模塊,右邊的特征抽取和融合是Local模塊,下....



本文編號(hào):3955942

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3955942.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a825c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com