圖像語義理解是計(jì)算機(jī)視覺,自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)基礎(chǔ)問題。目的是將圖片轉(zhuǎn)換成一句能描述圖片中對象及對象之間關(guān)系的句子。將復(fù)雜的圖像特征轉(zhuǎn)化為簡單的語言描述在圖像分類、圖像檢索、圖像動(dòng)作識(shí)別等領(lǐng)域中有較廣泛的應(yīng)用前景。近來,許多方法采用編碼-解碼框架,在訓(xùn)練階段,使用當(dāng)前時(shí)刻狀態(tài)和前一時(shí)刻的目標(biāo)單詞預(yù)測當(dāng)前的目標(biāo)單詞。在預(yù)測階段,由于上一時(shí)刻的目標(biāo)單詞并不確定,而使用上一時(shí)刻模型輸出的單詞作為當(dāng)前時(shí)刻的輸入,造成了訓(xùn)練與預(yù)測階段的不一致。當(dāng)某一時(shí)刻生成的單詞不夠準(zhǔn)確時(shí),可能導(dǎo)致之后生成的單詞有所偏差。因此,本文主要進(jìn)行以下內(nèi)容的研究:(1)由于編碼-解碼框架中存在訓(xùn)練和預(yù)測過程不一致的問題,本文分析了該問題對循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制產(chǎn)生的影響,并提出了自動(dòng)限制損失方法。該方法不同于將循環(huán)神經(jīng)網(wǎng)絡(luò)中每個(gè)時(shí)刻的損失簡單相加,而是為每個(gè)時(shí)刻的損失設(shè)置了權(quán)重,使當(dāng)前時(shí)刻的損失權(quán)重隨著之前時(shí)刻單詞錯(cuò)誤率的減小而增加,從而減小了訓(xùn)練階段和預(yù)測階段的差異。(2)在自動(dòng)限制損失方法中,采用之前時(shí)刻單詞的準(zhǔn)確率控制之后時(shí)刻單詞的損失權(quán)重,可能會(huì)忽略之前時(shí)刻目標(biāo)單詞的近義詞或同義詞對損失權(quán)重更新產(chǎn)...
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:

圖2.1圖像語義理解步驟
圖像語義理解的主要步驟包括:數(shù)據(jù)預(yù)處理、提取圖像特征、設(shè)計(jì)生成模型、生成結(jié)果的評價(jià)與分析,如圖2.1所示:(1)數(shù)據(jù)預(yù)處理。

圖2.2人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在圖像語義理解模型中,常用作編碼器的卷積神經(jīng)網(wǎng)絡(luò)有Alexnet[33]、VGGnet[12]、GoogleNet[13]、Resnet[11]等。(1)Alexnet

圖2.3幾種不同的inception結(jié)構(gòu)
2015年,微軟研究員的KaimingHe等人成功訓(xùn)練了152層深的神經(jīng)網(wǎng)絡(luò),在ILSVRC2015比賽中獲得了冠軍,取得了3.57%的top-5錯(cuò)誤率。ResNet的參數(shù)量比VGGNet更低,效果卻非常突出。該文章發(fā)現(xiàn),隨著網(wǎng)絡(luò)的加深,出現(xiàn)了訓(xùn)練集準(zhǔn)確率下降的現(xiàn)象,且這不是由....

圖2.4殘差結(jié)構(gòu)
在用3×3的卷積核計(jì)算前后,用1×1的卷積核對輸入和輸出進(jìn)行升降維,保持維度一直。該結(jié)構(gòu)能在梯度反向傳播時(shí)更快的到達(dá)更淺的層,解決了網(wǎng)絡(luò)層次較深無法訓(xùn)練的問題,并取得了非常好的效果。該模型側(cè)面反應(yīng)了,在深度學(xué)習(xí)中,更深比更寬重要。2.2.2解碼器
本文編號(hào):
4037402
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4037402.html