基于對象注意力模型的圖像描述研究
【文章頁數(shù)】:48 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1圖像描述基礎(chǔ)結(jié)構(gòu)
在訓(xùn)練時候,(S,I)是一組輸入對,模型的目標(biāo)是使用隨機梯度下降的方法使得所有訓(xùn)練集的輸入概率的log取值之和達到最大。經(jīng)典描述[37]模型如圖2-1所示。LSTM模型、CNN預(yù)訓(xùn)練模型和詞嵌入模型構(gòu)成了圖像描述。彩色框是預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),它不參與訓(xùn)練。圖中未展開的循環(huán)神經(jīng)網(wǎng)絡(luò)部....
圖3-1門控神經(jīng)網(wǎng)絡(luò)流程
其中X∈RN*M*C表示輸入的特征圖。X,N,M表示維度,C表示通道數(shù)目。W,V表示權(quán)重,其維度W,V∈R(N*M*C)。b和c是偏執(zhí)項,且b,c∈Rn。σ是sigmoid激活函數(shù),控制著輸出特征。門控神經(jīng)網(wǎng)絡(luò)如圖3-1所示:圖3-1輸入矩陣E分別與權(quán)重向量W、V相乘,得到處理后....
圖3-2特征選擇網(wǎng)絡(luò)模型
模型將掩膜與特征圖的乘積,送入解碼模塊。這種辦法優(yōu)點是保留了特征的空間位置信息。特征選擇網(wǎng)絡(luò)如圖3-2所示:圖中綠色部分代表輸入原圖像。其經(jīng)過處理,送到已經(jīng)在大數(shù)據(jù)集如ImageNet上已經(jīng)訓(xùn)練過的模型,如圖中白色固定層所示。固定層的輸出即為編碼結(jié)果。實驗中保持模型原有權(quán)重不變。....
圖4-1注意力模型
傳統(tǒng)圖像描述注意力模型[22]能夠自動學(xué)習(xí)圖像顯著區(qū)域的特征,這類似于對象檢測當(dāng)中選擇前景部分區(qū)域的位置,而忽略背景區(qū)域。注意力模型如圖4-1所示:圖中紅黃藍(lán)彩色部分表示圖像不同特征層,其上的每一點在每一個時間步都會輸入注意力模型。這種方法的優(yōu)點是,模型保留了特征之間的相對關(guān)系,....
本文編號:3891886
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3891886.html