基于深層神經(jīng)網(wǎng)絡(luò)推理的圖像問答技術(shù)研究和應(yīng)用
【文章頁(yè)數(shù)】:77 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1.左圖為圖像問答任務(wù)通用框架,右圖為圖像問答的示例??
圖1-1.左圖為圖像問答任務(wù)通用框架,右圖為圖像問答的示例??1??
圖2-1.可視化在手寫數(shù)字上訓(xùn)練的ConvNet??2.1.3基于目標(biāo)檢測(cè)的Faster-RCNN預(yù)訓(xùn)練網(wǎng)絡(luò)??
目標(biāo)檢測(cè)網(wǎng)絡(luò)則關(guān)注圖片中特定種類的物體目標(biāo),要求得到這個(gè)目標(biāo)的類別信息和??位置信息。??如圖2-2,在左圖中,Faster?R-CNN是一個(gè)簡(jiǎn)單、統(tǒng)一的用于物體檢測(cè)的網(wǎng)絡(luò)。??FasterRCNN已經(jīng)將特征抽取,候選框提取,候選框回歸,分類都整合在了一個(gè)網(wǎng)絡(luò)??中,使得綜合性能....
圖2-5.注意力機(jī)制圖??
Source??圖2-5.注意力機(jī)制圖??可以這樣來看待Attention機(jī)制,參考圖2-5,把數(shù)據(jù)從Query生成Attention?Value??的過程利用如下公式表達(dá):??L??AUenion{Query,?Source?)=^?Similarity?[Query,?K?e....
圖3-1.?Global-Local?Fusion模型的結(jié)構(gòu)示意圖??特征和Local模塊得到的局部融合特征輸入到分類器,得到最后的預(yù)測(cè)
特征和Local模塊得到的局部融合特征輸入到分類器,得到最后的預(yù)測(cè)。??3.1.2模型的總體架構(gòu)??圖3-1中,是Global-Local?Fusion模型的總體架構(gòu)圖。它主要分為三部分,左邊??的特征提取和模態(tài)融合網(wǎng)絡(luò)是Global模塊,右邊的特征抽取和融合是Local模塊,下....
本文編號(hào):3955942
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3955942.html