天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的圖像描述模型的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-11-23 04:01
  圖像描述問題同時(shí)涉及計(jì)算機(jī)視覺和自然語言處理,是近年來深度學(xué)習(xí)領(lǐng)域一個(gè)熱門的研究問題。目前,主流的圖像描述模型的研究重點(diǎn)在于如何設(shè)計(jì)更加有效的視覺注意力機(jī)制,使得模型能夠在生成圖像描述語句的過程中更好地提取和利用圖像特征。但是,它們?cè)谏擅枋稣Z句時(shí)傾向于采用固定的語言結(jié)構(gòu)模式,即它們生成的描述語句會(huì)偏向于由數(shù)據(jù)集中頻繁出現(xiàn)的詞匯短語組成的這樣一種固定的形式,而不能依據(jù)圖像中的某些獨(dú)特的特征,生成更加豐富多樣化而且正確描述圖像內(nèi)容的描述語句。本文經(jīng)過分析,總結(jié)出造成上述問題的主要原因:傳統(tǒng)的模型普遍采用了長短期記憶網(wǎng)絡(luò)來生成圖像描述語句,從而導(dǎo)致模型未能夠?qū)W習(xí)和利用自然語句內(nèi)部的句法特征。針對(duì)于此,本文提出一個(gè)基于自注意力機(jī)制和空間注意力機(jī)制的圖像描述模型。該模型在設(shè)計(jì)上采用了流行的Encoder-Decoder框架結(jié)構(gòu),Encoder模塊中利用了卷積神經(jīng)網(wǎng)絡(luò)來提取圖像特征,Decoder中使用了多個(gè)由多頭空間注意力子層、多頭自注意力子層和全連接前饋網(wǎng)絡(luò)子層堆疊而成的子模塊替代傳統(tǒng)模型中的長短期記憶網(wǎng)絡(luò)。其中,多頭空間注意力子層是應(yīng)用空間注意力機(jī)制來選取和利用圖像特征;多頭自注意力子層則... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:61 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的圖像描述模型的設(shè)計(jì)與實(shí)現(xiàn)


所有詞向量降維后可視化圖

數(shù)據(jù)集中,圖片,示例,描述語句


5.1.1 訓(xùn)練數(shù)據(jù)集設(shè)計(jì)與處理本次課題所使用的數(shù)據(jù)集是 MSCOCO(2014) [33],該數(shù)據(jù)集中總共包括超過 120,000 張圖片數(shù)據(jù)。這個(gè)數(shù)據(jù)集是微軟公開的大規(guī)模標(biāo)注數(shù)據(jù)集,并且可以用于深度學(xué)習(xí)領(lǐng)域的目標(biāo)識(shí)別、目標(biāo)分割、人體關(guān)鍵點(diǎn)檢測(cè)(人體姿態(tài)估計(jì))和圖像描述的任務(wù)中。MSCOCO2014 數(shù)據(jù)集中的用于圖像描述任務(wù)的標(biāo)注數(shù)據(jù)是使用亞馬遜公司的“土耳其機(jī)器人(Mechanical Turk)”服務(wù),人工地為其中“train”部分和“val”部分的圖像都生成了 5 句描述語句。之所以為每張圖片生成 5 句描述語句,而不是一句,主要是考慮到人類自然語言的靈活性。畢竟,對(duì)于同一張圖片,不同的人可能因?yàn)槊枋龅慕嵌炔煌刹煌那叶颊_的描述語句。圖5-1 給出了數(shù)據(jù)集中的圖像示例。同時(shí),數(shù)據(jù)集中圖片的標(biāo)注數(shù)據(jù)采用了key-value 的方式進(jìn)行記錄。其中,每張圖片標(biāo)注數(shù)據(jù)里的 key 包括“image_id”、“id”和“caption”,例如:{“image_id”: 47720, “id”: 829317 , “caption”: “a cup ofcoffe sits next to panini sandwich on a counter”}。

曲線,模型訓(xùn)練,誤差,曲線


-92β =0.98, ε=10;學(xué)習(xí)率初始值設(shè)置為 0.01,并且每當(dāng)模型訓(xùn)練按照一定比例降低;模型描述語句的最大長度(max-length)設(shè)使用的損失函數(shù)(loss function)是交叉熵(cross-entropy)損為了防止過擬合(over-fitting),提高模型的泛化能力,模型中的數(shù)是帶 l2 正則(權(quán)重衰減)的損失函數(shù)。損失函數(shù),又被稱為誤 function)或者代價(jià)函數(shù)(cost function),可以看作是模型的目的是模型的輸出與真實(shí)標(biāo)注數(shù)據(jù)之間的差異或者距離,表示模型程度。我們訓(xùn)練模型的目標(biāo)是使模型的輸出與真是標(biāo)注數(shù)據(jù)盡可而通常損失函數(shù)的值越小表示模型性能越好。模型在訓(xùn)練數(shù)據(jù)集值被稱為訓(xùn)練誤差(training error),而在驗(yàn)證集和測(cè)試集上的值為驗(yàn)證誤差(validation error)和測(cè)試誤差(test error)。5-2 展示了由 tensorbard 生成的模型訓(xùn)練過程中隨著訓(xùn)練總步數(shù)變誤差的變化曲線。該圖的縱坐標(biāo)表示的是模型訓(xùn)練過程中的訓(xùn)練是訓(xùn)練總步數(shù)。從圖中可以看出,訓(xùn)練誤差總體來說呈現(xiàn)不斷下化軌跡。這表明模型的訓(xùn)練朝著正確的方向進(jìn)行。

【參考文獻(xiàn)】:
碩士論文
[1]基于深度學(xué)習(xí)的圖像語義標(biāo)注與描述研究[D]. 鄭永哲.廣西師范大學(xué) 2017



本文編號(hào):3513083

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3513083.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d2fc***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com