基于深度學(xué)習(xí)的圖像描述模型研究及應(yīng)用

發(fā)布時間：2021-03-30 23:57

　　近年來圖像描述生成技術(shù)逐漸成為一個新的研究熱點。圖像描述主要是研究通過機(jī)器理解圖像內(nèi)容并生成描述文本的方法。然而,圖像的機(jī)器解讀常常會受到圖像自身背景等非顯著性信息干擾,使得圖像描述容易產(chǎn)生偏差。本文提出了一種多重注意力的圖像描述模型,采用Faster rcnn提取圖像特征作為編碼層,用多重的注意力模型LSTM-Attend進(jìn)行解碼,生成描述文本,并采用強(qiáng)化學(xué)習(xí)中的策略梯度優(yōu)化來對模型中的參數(shù)進(jìn)行優(yōu)化,模型在常規(guī)圖像數(shù)據(jù)集的實驗結(jié)果驗證了模型具有很好的圖像理解和描述文本生成能力,生成文本效果優(yōu)于目前流行的同類模型。此外,針對醫(yī)學(xué)圖像診斷文本生成領(lǐng)域中的深度學(xué)習(xí)訓(xùn)練過程中容易出現(xiàn)信息遺忘和損失的情況,本論文搭建了一個多模態(tài)匯聚層有效地將醫(yī)學(xué)圖像信息和文本信息進(jìn)行融合,并在此基礎(chǔ)上提出一種反復(fù)回看的圖像描述方法,在encoder-decoder框架上,將醫(yī)療圖像抽象為向量化的表達(dá),作為解碼層LSTM的初始向量,同時在解碼的過程中,采用多模匯聚方式,該模型在X射線醫(yī)療影像數(shù)據(jù)集上驗證了模型的有效性,與當(dāng)前同類模型相比,具有更好的性能。本文所提出的兩個基于圖像描述生成的深度學(xué)習(xí)模型,分別在常規(guī)...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：76 頁

【學(xué)位級別】：碩士

【部分圖文】：

AttentionMechanism模塊圖解

示意圖,示意圖,類別,分?jǐn)?shù)

圖 3-2 anchor 提取示意圖0*40 的 map 進(jìn)行滑窗時，以中心像素為基點構(gòu)造600 圖像中，映射比例為 16 倍。那么總共可以得因為有很多重疊的框。文章通過非極大值抑制的方nion)為 0.7 的閾值，即僅保留覆蓋率不超過 0.7 的最后留下大約 2000 個 anchor，然后再取前 N 個的輸出候選區(qū)域作為檢測網(wǎng)絡(luò)的輸入。具體而言選框截取原圖像，并將截取后的圖像通過幾次 cg和FC再輸出兩條支路，一條是目標(biāo)分類softmax，將輸出 300 個判定類別及其 box，對類別分?jǐn)?shù)采用篩），并僅取分?jǐn)?shù)大于某個分?jǐn)?shù)的目標(biāo)結(jié)果。具

圖像,數(shù)據(jù)集,中文

r 數(shù)據(jù)集kr 數(shù)據(jù)集包含 Flickr8K 和 Flickr30K 兩種。Flickr30K 數(shù)據(jù)集的圖像數(shù)的相冊網(wǎng)站 Flickr，數(shù)據(jù)集中圖像的數(shù)量分別是 8,000 張和 31,783 張庫中的圖像大多展示的是人類在參與到某項活動中的情景。每張圖標(biāo)注依舊是 5 句話。這兩個數(shù)據(jù)庫是采用同種方式收集和標(biāo)注的，語法比較類似。數(shù)據(jù)庫也是按照標(biāo)準(zhǔn)的訓(xùn)練集、驗證集合測試集來相較于 MS COCO Caption 數(shù)據(jù)集，F(xiàn)lickr8K 和 Flickr30K 數(shù)據(jù)集的明其數(shù)據(jù)量不足。但是最早也被用于圖像描述的相關(guān)研究中。hallenge 中文數(shù)據(jù)集challenge 比賽構(gòu)建了圖像中文描述數(shù)據(jù)庫，便于參賽者可以構(gòu)建模型。這個中文數(shù)據(jù)集包括了訓(xùn)練數(shù)據(jù)集，共有 210,000 張圖像和其述，驗證數(shù)據(jù)集包括了 30,000 張圖像和其對應(yīng)的中文描述。每一張5 個相近語義的中文描述，用一句話描述給定圖像中的主要信息，挑的圖像理解問題。嘗試自然語言處理與計算機(jī)視覺技術(shù)結(jié)合的力量可由圖 5-1 為例：

本文編號：3110381

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3110381.html

上一篇：非完整約束移動機(jī)器人運動控制研究
下一篇：波前曲率探測自適應(yīng)光學(xué)控制技術(shù)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的圖像描述模型研究及應(yīng)用