天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于密集卷積神經(jīng)網(wǎng)絡特征提取的圖像描述模型研究

發(fā)布時間:2021-10-14 06:25
  近年來,Graphic Processing Unit(GPU)計算功能的提升促進了人工智能和深度學習的興起。其中,計算機視覺,虛擬現(xiàn)實,自然語言處理,增強現(xiàn)實,語音識別等一系列領域的興起,直接對我們對生活產(chǎn)生了深遠的影響。在計算機視覺領域中,ImageNet,COCO,VOC等數(shù)據(jù)集的出現(xiàn)以及AlexNet,VGG,ResNet,Inception,DenseNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)模型的提出,極大的促進了許多計算機視覺工作(圖像分類,目標檢測,目標跟蹤,圖像語義分割,圖像描述等)的深度研究;在自然語言處理中,Encoder-Decoder模型,Seq2Seq模型以及Attention機制的引入使得機器翻譯,文本挖掘,情感分析,系統(tǒng)問答等都有顯著的發(fā)展;同時在語音識別中,語音特征提取,文本模式匹配等等一系列工作都得到了廣泛的研究。圖像描述是人工智能中一個非常熱門的研究課題,它集合了計算機視覺和自然語言處理兩大領域,而且應用也是非常廣泛,例如,圖像翻譯,圖像檢索,兒童早教等等各個方面。本文通過密集卷積神經(jīng)網(wǎng)絡(Dens... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:77 頁

【學位級別】:碩士

【部分圖文】:

基于密集卷積神經(jīng)網(wǎng)絡特征提取的圖像描述模型研究


圖3-1?DenseNetM結構圖??

網(wǎng)絡結構模型


?3.2.1網(wǎng)絡結構圖??下面是網(wǎng)絡模型的結構圖,圖像描述模型的結構如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進行抽象表示,Decoder主要是LSTM,將Encoder的??結果(圖像特征圖)轉換為對應的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結構如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉換到對應??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡結構模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖

結構圖,視覺注意,結構圖


?3.2.1網(wǎng)絡結構圖??下面是網(wǎng)絡模型的結構圖,圖像描述模型的結構如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進行抽象表示,Decoder主要是LSTM,將Encoder的??結果(圖像特征圖)轉換為對應的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結構如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉換到對應??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡結構模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖


本文編號:3435617

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3435617.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶51872***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com