天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力長短時記憶網(wǎng)絡(luò)的圖像描述算法研究

發(fā)布時間:2022-02-15 07:24
  圖像描述旨在把一幅圖像的內(nèi)容翻譯為人類能夠理解的自然語句,這與圖像分類、目標(biāo)檢測等粗粒度的圖像理解任務(wù)有一定的區(qū)別。圖像描述任務(wù)不僅需要模型識別出圖像中的目標(biāo)、場景、屬性等信息,還需要模型能夠理解它們之間的關(guān)系,因此具有很大的挑戰(zhàn)性,在嬰幼兒早期教育、圖像檢索、輔助視覺障礙人士等方面具有極為廣闊的應(yīng)用。近年來,由于深度學(xué)習(xí)的發(fā)展及編碼器-解碼器框架在機(jī)器翻譯領(lǐng)域中的有效應(yīng)用,基于編碼器-解碼器框架下的圖像描述任務(wù)得到快速發(fā)展。本文的主要工作如下:(1)提出了基于注意力長短時記憶網(wǎng)絡(luò)的圖像描述算法。針對長短時記憶網(wǎng)絡(luò)中各個時刻獲取信息不準(zhǔn)確的問題,我們提出了注意力長短時記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)使用上一時刻隱藏層的信息控制當(dāng)前時刻的輸入信息;同時我們將注意力長短時記憶網(wǎng)絡(luò)與四種經(jīng)典圖像描述模型框架相結(jié)合并在圖像描述數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了注意力長短時記憶網(wǎng)絡(luò)對圖像描述任務(wù)的有效性。(2)提出了基于目標(biāo)區(qū)域注意力機(jī)制的圖像描述算法。通過研究圖像描述算法,我們發(fā)現(xiàn)圖像各個子區(qū)域中包含清晰的語義目標(biāo)信息更能提升圖像描述的準(zhǔn)確性,因此能否正確獲取圖像中的目標(biāo)區(qū)域信息是圖像描述的關(guān)鍵。在基于注意力長短時記憶... 

【文章來源】:湘潭大學(xué)湖南省

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于注意力長短時記憶網(wǎng)絡(luò)的圖像描述算法研究


戴著運(yùn)動帽的小女孩正在球場上打網(wǎng)球

結(jié)構(gòu)圖,神經(jīng)元,結(jié)構(gòu)圖,卷積


7第2章基于深度學(xué)習(xí)的圖像描述算法的理論基礎(chǔ)基于深度學(xué)習(xí)方法的圖像描述算法主要包括圖像編碼和文本生成兩個部分。圖像編碼主要利用深度卷積神經(jīng)網(wǎng)絡(luò),生成文本時主要利用循環(huán)神經(jīng)網(wǎng)絡(luò)。下面主要介紹其基本原理,同時也將介紹圖像描述任務(wù)使用的數(shù)據(jù)集及評價(jià)指標(biāo)。2.1深度卷積神經(jīng)網(wǎng)絡(luò)2.1.1深度神經(jīng)網(wǎng)絡(luò)基本理論深度學(xué)習(xí)是在1958年人們對人工神經(jīng)網(wǎng)絡(luò)的探究發(fā)展而來的,人工神經(jīng)網(wǎng)絡(luò)由多個神經(jīng)元組合而成。圖2.1所示為單個神經(jīng)元的結(jié)構(gòu)圖:圖2.1單個神經(jīng)元結(jié)構(gòu)圖其中1nxx代表輸入向量值,b代表單個神經(jīng)元的偏置值,1nwwD代表輸入向量的權(quán)重值,h是輸出向量,計(jì)算公式為:()ThfWxb(2.1)圖2.1中y代表“感知器”即計(jì)算單元,神經(jīng)元首先對輸入向量和輸入向量對應(yīng)的權(quán)重進(jìn)行點(diǎn)積運(yùn)算,然后通過激活函數(shù)輸出計(jì)算結(jié)果,人工神經(jīng)網(wǎng)絡(luò)是由多個這樣的神經(jīng)元結(jié)構(gòu)組成的。DCNN網(wǎng)絡(luò)是由人工神經(jīng)網(wǎng)絡(luò)改進(jìn)得到的,DCNN網(wǎng)絡(luò)主要將人工神經(jīng)網(wǎng)絡(luò)的隱藏層分為多個卷積層和池化層。DCNN網(wǎng)絡(luò)有著強(qiáng)大的圖像表征能力,在許多領(lǐng)域都有廣泛的應(yīng)用。(1)卷積層在DCNN網(wǎng)絡(luò)中,卷積層主要是利用多種卷積核在圖像上實(shí)行平移計(jì)算操作獲得圖像的視覺特征,卷積層的操作主要是兩個矩陣的乘加運(yùn)算。如下圖2.2所示為卷積層的操作的過程,圖像最左側(cè)的矩陣是輸入矩陣,中間矩陣代表的是卷積核(過濾器),卷積核的步長是1,卷積后的結(jié)果為圖中最右側(cè)的矩陣。

示意圖,卷積,示意圖,卷積核


8圖2.2卷積層的操作示意圖卷積核的作用是獲取表征圖像的特征,為獲取到豐富的圖像特征,在DCNN網(wǎng)絡(luò)中通常會使用多個卷積核提取圖像的特征,每個卷積核都會輸出與之對應(yīng)的特征圖。卷積層的兩大特性是:局部感受野與權(quán)值共享。局部感受野的主要作用是獲取表征圖像的初級特征,權(quán)值共享的作用是減少參數(shù)量,縮小DCNN網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)時間。(2)池化層池化操作是DCNN網(wǎng)絡(luò)的重要構(gòu)成部分,池化的作用為降采樣。池化層用在卷積層之后,主要是對卷積層的輸出進(jìn)行降采樣。池化操作第一步是將卷積層輸出的特征劃分為對應(yīng)大小區(qū)域,然后再對每個區(qū)域單獨(dú)進(jìn)行池化。池化操作使用的非線性池化函數(shù)有多種形式,最常用的為“最大池化(MaxPooling)”,即求相應(yīng)區(qū)域的最大值。池化操作的作用除降維外,其另一個主要作用為防止過擬合。圖2.3展示了某一深度上的特征在步長大小為2,通過2*2大小的過濾器并采用“最大池化”函數(shù)得到降維的特征的過程:圖2.3最大池化過程示意圖(3)激活函數(shù)激活函數(shù)的功能是讓DCNN網(wǎng)絡(luò)擁有非線性建模的本領(lǐng),使模型可以擬合任何函數(shù)映射,它是DCNN網(wǎng)絡(luò)處理非線性問題不可或缺的操作。DCNN網(wǎng)絡(luò)中卷積操

【參考文獻(xiàn)】:
期刊論文
[1]基于多注意力多尺度特征融合的圖像描述生成算法[J]. 陳龍杰,張鈺,張玉梅,吳曉軍.  計(jì)算機(jī)應(yīng)用. 2019(02)

碩士論文
[1]基于區(qū)域注意力機(jī)制的圖像描述算法[D]. 吳黃子桑.武漢大學(xué) 2018



本文編號:3626189

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3626189.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc126***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
中文字幕亚洲精品乱码加勒比| 粗暴蹂躏中文一区二区三区| 国产肥女老熟女激情视频一区| 亚洲男女性生活免费视频| 91免费一区二区三区| 午夜福利国产精品不卡| 欧美一本在线免费观看| 国产精品国产亚洲看不卡 | 欧美日韩综合在线第一页| 区一区二区三中文字幕| 国产一区国产二区在线视频| 九九热九九热九九热九九热| 91麻豆精品欧美视频| 日韩精品区欧美在线一区| 国产传媒免费观看视频| 国产精品一区二区三区日韩av| 久久人妻人人澡人人妻| 国产精品激情在线观看| 极品少妇一区二区三区精品视频 | 成人精品日韩专区在线观看| 国产偷拍盗摄一区二区| 果冻传媒精选麻豆白晶晶| 国产福利一区二区久久| 欧美性高清一区二区三区视频| 国产激情一区二区三区不卡| 日韩色婷婷综合在线观看| 午夜国产精品福利在线观看| 国产三级黄片在线免费看| 久久精品福利在线观看| 国产一级片内射视频免费播放| 日本淫片一区二区三区| 污污黄黄的成年亚洲毛片| 国产超碰在线观看免费| 超薄丝袜足一区二区三区| 国产精品日韩欧美第一页| 日本三区不卡高清更新二区| 日本av在线不卡一区| 亚洲日本韩国一区二区三区| 国产日本欧美特黄在线观看| 国产午夜精品久久福利| 在线观看国产成人av天堂野外|