天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于對抗學(xué)習(xí)的圖像字幕生成關(guān)鍵問題研究

發(fā)布時(shí)間:2021-11-07 14:04
  圖像字幕生成就是根據(jù)輸入圖像生成一段內(nèi)容描述語句,該任務(wù)涉及圖像處理方法和自然語言處理方法。近年來隨著互聯(lián)網(wǎng)的發(fā)展和大規(guī)模數(shù)據(jù)的出現(xiàn),深度神經(jīng)網(wǎng)絡(luò)憑借著強(qiáng)大的數(shù)據(jù)擬合能力在多個(gè)研究領(lǐng)域獲得了巨大的成功。在此背景下,將深度學(xué)習(xí)方法應(yīng)用于字幕生成任務(wù)逐漸成為圖像字幕生成研究領(lǐng)域中主流的方法。在已經(jīng)提出的方法中,算法優(yōu)化的重點(diǎn)大多集中于對圖像特征的處理,然而僅僅通過優(yōu)化圖像特征質(zhì)量只能提升生成文本與圖像關(guān)鍵信息的緊密度,而缺乏了對生成文本本身的優(yōu)化,無法讓生成的文本更加符合自然語言的使用標(biāo)準(zhǔn)。一方面,對于圖像字幕生成過程中存在的文本準(zhǔn)確性和連貫性不足的問題,本文提出一種基于長短時(shí)間隔優(yōu)化的圖像字幕生成方法。該方法使用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征,將圖像關(guān)鍵信息以特征矩陣的形式表示并結(jié)合圖像標(biāo)注字幕作為LSTM循環(huán)單元的輸入。在字幕生成過程中,使用長時(shí)間隔優(yōu)化模塊和短時(shí)間隔優(yōu)化模塊共同優(yōu)化生成文本的質(zhì)量。其中長時(shí)間隔優(yōu)化模塊由長時(shí)間隔優(yōu)化器和激勵(lì)判別器兩部分組成,通過對抗訓(xùn)練的方式對生成文本的質(zhì)量進(jìn)行優(yōu)化。短時(shí)間隔優(yōu)化模塊則以監(jiān)督學(xué)習(xí)的方式對生成文本進(jìn)行優(yōu)化,通過約束生成文本在短語和單詞上的使用使... 

【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:60 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于對抗學(xué)習(xí)的圖像字幕生成關(guān)鍵問題研究


中每個(gè)輸入根據(jù)不同的權(quán)重輸入神經(jīng)單元,結(jié)合偏置計(jì)算輸出,計(jì)算公式見式(2.1),其中b為偏置項(xiàng)

矩陣圖,卷積核,卷積,矩陣


第二章圖像字幕生成基本知識介紹9矩陣,該矩陣就是卷積層對輸入矩陣的卷積計(jì)算結(jié)果。圖2.2所示的輸入矩陣是單通道的簡單矩陣,而圖像在計(jì)算機(jī)中一般使用RGB三通道的矩陣表示,對于多通道的圖像數(shù)據(jù)卷積層的操作如圖2.3。圖2.3中卷積核分別對三個(gè)通道的矩陣執(zhí)行卷積操作,然后在將同位置的結(jié)果取均值,最終得到輸出結(jié)果。圖像矩陣在卷積后將不同通道的信息合并為一,由于實(shí)際圖像所攜帶的信息量非常大,單個(gè)卷積核組成的卷積層無法有效的提取圖像多方面的屬性信息。因此在單個(gè)卷積層中使用多個(gè)參數(shù)不同的卷積核對同一副圖像進(jìn)行卷積處理并得到多通道的輸出結(jié)果是常用的方法。卷積操作除了卷積核中的計(jì)算參數(shù)需要設(shè)置外,卷積核在輸入矩陣上的移動(dòng)方式、每次移動(dòng)的幅度以及輸入矩陣的填充方式也需要通過參數(shù)來控制?紤]到卷積核是有一定大小的,其中心無法移動(dòng)到輸入矩陣的邊緣,因此為了增強(qiáng)卷積層對輸入矩陣邊緣的處理,計(jì)算中可以選擇使用“零值填充”的方式填充輸入矩陣的外圍以便于卷積核的中心可以移動(dòng)到邊緣進(jìn)行計(jì)算。移動(dòng)幅度參數(shù)則影響到卷積計(jì)算的精細(xì)度、輸出矩陣的尺寸和計(jì)算的復(fù)雜度,移動(dòng)幅度越大,計(jì)算速度越快,計(jì)圖2.2卷積計(jì)算過程Fig2.2Theprocessofconvolution圖2.3三通道圖像卷積計(jì)算Fig2.3Theconvolutionofthreechannelimage

矩陣圖,矩陣,范圍,卷積


合肥工業(yè)大學(xué)學(xué)術(shù)碩士研究生學(xué)位論文10算量越小,計(jì)算的精細(xì)度越差。2.4.1.2采樣層在卷積操作中為了保證計(jì)算結(jié)果能夠有效反映圖像中的多種特征,一般會在網(wǎng)絡(luò)中設(shè)置多層卷積層且每個(gè)卷積層中包含多個(gè)不同的卷積核,而這就會產(chǎn)生一些問題。一方面,大量的卷積計(jì)算使得模型的計(jì)算量過大,神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度減慢并且神經(jīng)網(wǎng)絡(luò)對計(jì)算機(jī)的硬件環(huán)境提出了更高的要求。另一方面,大量卷積核的應(yīng)用可能會使神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)過度擬合,降低網(wǎng)絡(luò)的擴(kuò)展性能。采樣層就是為了解決計(jì)算量過大和網(wǎng)絡(luò)過擬合問題而提出的。在多層卷積神經(jīng)網(wǎng)絡(luò)中,一般在每一層的卷積層后緊跟著采樣操作,從采樣方式上可以分為極大值采樣和均值采樣兩類。極大值采樣的計(jì)算過程如圖2.4。采樣首先需要確定采樣范圍,圖2.4中選取2×2矩陣為采樣范圍。接著與卷積計(jì)算過程類似,2×2大小的矩陣在輸入矩陣上移動(dòng)。每次從采樣矩陣范圍內(nèi)選取極大值進(jìn)行采樣,當(dāng)采樣矩陣遍歷輸入矩陣后得到的輸出矩陣即為采樣結(jié)果。采樣的另一種方式為均值采樣,和極大值采樣不同的是均值采樣在每個(gè)采樣范圍內(nèi)取圖2.4極大值采樣計(jì)算過程Fig2.4Theprocessofmaximumsampling圖2.5均值采樣計(jì)算過程Fig2.5Theprocessofmeansampling

【參考文獻(xiàn)】:
期刊論文
[1]融合約束學(xué)習(xí)的圖像字幕生成方法[J]. 杜海駿,劉學(xué)亮.  中國圖象圖形學(xué)報(bào). 2020(02)



本文編號:3481987

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3481987.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶11876***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com