天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的圖像描述模型研究及應(yīng)用

發(fā)布時(shí)間:2021-03-30 23:57
  近年來(lái)圖像描述生成技術(shù)逐漸成為一個(gè)新的研究熱點(diǎn)。圖像描述主要是研究通過(guò)機(jī)器理解圖像內(nèi)容并生成描述文本的方法。然而,圖像的機(jī)器解讀常常會(huì)受到圖像自身背景等非顯著性信息干擾,使得圖像描述容易產(chǎn)生偏差。本文提出了一種多重注意力的圖像描述模型,采用Faster rcnn提取圖像特征作為編碼層,用多重的注意力模型LSTM-Attend進(jìn)行解碼,生成描述文本,并采用強(qiáng)化學(xué)習(xí)中的策略梯度優(yōu)化來(lái)對(duì)模型中的參數(shù)進(jìn)行優(yōu)化,模型在常規(guī)圖像數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果驗(yàn)證了模型具有很好的圖像理解和描述文本生成能力,生成文本效果優(yōu)于目前流行的同類模型。此外,針對(duì)醫(yī)學(xué)圖像診斷文本生成領(lǐng)域中的深度學(xué)習(xí)訓(xùn)練過(guò)程中容易出現(xiàn)信息遺忘和損失的情況,本論文搭建了一個(gè)多模態(tài)匯聚層有效地將醫(yī)學(xué)圖像信息和文本信息進(jìn)行融合,并在此基礎(chǔ)上提出一種反復(fù)回看的圖像描述方法,在encoder-decoder框架上,將醫(yī)療圖像抽象為向量化的表達(dá),作為解碼層LSTM的初始向量,同時(shí)在解碼的過(guò)程中,采用多模匯聚方式,該模型在X射線醫(yī)療影像數(shù)據(jù)集上驗(yàn)證了模型的有效性,與當(dāng)前同類模型相比,具有更好的性能。本文所提出的兩個(gè)基于圖像描述生成的深度學(xué)習(xí)模型,分別在常規(guī)... 

【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】:76 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的圖像描述模型研究及應(yīng)用


AttentionMechanism模塊圖解

示意圖,示意圖,類別,分?jǐn)?shù)


圖 3-2 anchor 提取示意圖0*40 的 map 進(jìn)行滑窗時(shí),以中心像素為基點(diǎn)構(gòu)造600 圖像中,映射比例為 16 倍。那么總共可以得因?yàn)橛泻芏嘀丿B的框。文章通過(guò)非極大值抑制的方nion)為 0.7 的閾值,即僅保留覆蓋率不超過(guò) 0.7 的最后留下大約 2000 個(gè) anchor,然后再取前 N 個(gè) 的輸出候選區(qū)域作為檢測(cè)網(wǎng)絡(luò)的輸入。具體而言選框截取原圖像,并將截取后的圖像通過(guò)幾次 cg和FC再輸出兩條支路,一條是目標(biāo)分類softmax, 將輸出 300 個(gè)判定類別及其 box,對(duì)類別分?jǐn)?shù)采用篩),并僅取分?jǐn)?shù)大于某個(gè)分?jǐn)?shù)的目標(biāo)結(jié)果。具

圖像,數(shù)據(jù)集,中文


r 數(shù)據(jù)集kr 數(shù)據(jù)集包含 Flickr8K 和 Flickr30K 兩種。Flickr30K 數(shù)據(jù)集的圖像數(shù)的相冊(cè)網(wǎng)站 Flickr,數(shù)據(jù)集中圖像的數(shù)量分別是 8,000 張和 31,783 張庫(kù)中的圖像大多展示的是人類在參與到某項(xiàng)活動(dòng)中的情景。每張圖標(biāo)注依舊是 5 句話。這兩個(gè)數(shù)據(jù)庫(kù)是采用同種方式收集和標(biāo)注的,語(yǔ)法比較類似。數(shù)據(jù)庫(kù)也是按照標(biāo)準(zhǔn)的訓(xùn)練集、驗(yàn)證集合測(cè)試集來(lái)相較于 MS COCO Caption 數(shù)據(jù)集,F(xiàn)lickr8K 和 Flickr30K 數(shù)據(jù)集的明其數(shù)據(jù)量不足。但是最早也被用于圖像描述的相關(guān)研究中。hallenge 中文數(shù)據(jù)集challenge 比賽構(gòu)建了圖像中文描述數(shù)據(jù)庫(kù),便于參賽者可以構(gòu)建 模型。這個(gè)中文數(shù)據(jù)集包括了訓(xùn)練數(shù)據(jù)集,共有 210,000 張圖像和其述,驗(yàn)證數(shù)據(jù)集包括了 30,000 張圖像和其對(duì)應(yīng)的中文描述。每一張5 個(gè)相近語(yǔ)義的中文描述,用一句話描述給定圖像中的主要信息,挑的圖像理解問(wèn)題。嘗試自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)技術(shù)結(jié)合的力量可由圖 5-1 為例:


本文編號(hào):3110381

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3110381.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c9165***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com