天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于生成式對抗網(wǎng)絡(luò)圖片生成文字的研究

發(fā)布時(shí)間:2021-03-10 04:37
  近年來,隨著深度學(xué)習(xí)的發(fā)展,以及硬件設(shè)備技術(shù)的不斷突破,基于人工智能的應(yīng)用遍地開花,大量研究人員對這項(xiàng)技術(shù)都產(chǎn)生了濃厚興趣。例如人臉識別、人臉生成、換臉技術(shù)、目標(biāo)檢測與跟蹤、場景分割、自動(dòng)駕駛、行人重識別、語音識別等等。而圖像理解Image Caption是一個(gè)綜合類問題。它不僅需要自然語言處理技術(shù),還需要計(jì)算機(jī)視覺方向的圖像處理技術(shù)。具體來說這項(xiàng)技術(shù)需要同時(shí)處理圖像數(shù)據(jù)和文本數(shù)據(jù)。圖像理解算法既要用計(jì)算機(jī)視覺方法來提取圖像特征及其相關(guān)關(guān)系,而且還需要生成文本描述出來。更關(guān)鍵的是,模型還要能夠抓住圖像中的語義內(nèi)容,生成真實(shí)的、自然的文本描述。圖像理解方法普遍是基于編碼器-解碼器結(jié)構(gòu),其中編碼器大多由提取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。解碼器則通過循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,它的作用是生成描述性的文本。本文針對當(dāng)前基于圖像理解研究存在的主要問題進(jìn)行了下列主要工作:(1)由于RNN存在梯度消失的問題,而通過對RNN進(jìn)行改進(jìn)得到一種特殊結(jié)構(gòu)的長短時(shí)記憶網(wǎng)絡(luò)LSTM,這種網(wǎng)絡(luò)通過其自身的門控結(jié)構(gòu),能有效解決RNN引起的梯度消失問題,所以本文在解碼端使用LSTM長短時(shí)期記憶網(wǎng)絡(luò)的方法生成文本描述。但是基于該方... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于生成式對抗網(wǎng)絡(luò)圖片生成文字的研究


基于CNN-RNN圖像生成文字的方法

函數(shù)圖像,函數(shù)圖,導(dǎo)數(shù),梯度


第二章圖像理解的基礎(chǔ)92.1.3梯度消失和梯度膨脹神經(jīng)網(wǎng)絡(luò)訓(xùn)練經(jīng)常出現(xiàn)的問題有梯度消失和梯度爆炸,出現(xiàn)梯度消失時(shí),會導(dǎo)致梯度更新緩慢,模型無法從訓(xùn)練數(shù)據(jù)中獲得更新,損失幾乎保持不變。而出現(xiàn)梯度爆炸時(shí),會導(dǎo)致模型無法收斂,不穩(wěn)定,更新過程中的損失會出現(xiàn)顯著變化,訓(xùn)練過程中,模型損失變?yōu)镹aN。梯度消失經(jīng)常出現(xiàn)在深層網(wǎng)絡(luò)中,另一種是采用了不合適的損失函數(shù),比如sigmoid激活函數(shù)。梯度爆炸一般出現(xiàn)在深層網(wǎng)絡(luò)中以及權(quán)值初始化太大的情況下,下面分別從這兩個(gè)方面分析梯度消失和爆炸的原因。梯度爆炸是對激活函數(shù)進(jìn)行求導(dǎo),當(dāng)網(wǎng)絡(luò)層數(shù)增多時(shí),如果導(dǎo)數(shù)部分大于1,梯度更新將以指數(shù)形式增加。梯度消失時(shí),對激活函數(shù)求導(dǎo),其值小于1,當(dāng)層數(shù)很深時(shí),梯度將以指數(shù)形式衰減。解決梯度消失和梯度爆炸的主要方案是使用別的激活函數(shù),例如relu以及l(fā)eakyrelu等激活函數(shù)。使用Relu時(shí),激活函數(shù)的導(dǎo)數(shù)為1,那么就不存在梯度消失爆炸的問題了,每層的網(wǎng)絡(luò)都可以得到相同的更新速度,relu就這樣應(yīng)運(yùn)而生。公式(2-1)為relu的數(shù)學(xué)表達(dá)式:0,0,0),0max()(eluxxxxxR(2-1)其函數(shù)圖像及其導(dǎo)數(shù)圖像如圖2-1所示:圖2-1Relu的函數(shù)圖及其導(dǎo)數(shù)圖像可以很容易看出,relu函數(shù)的導(dǎo)數(shù)在正數(shù)部分是恒等于1的。在深層網(wǎng)絡(luò)中使用relu激活函數(shù)就不會導(dǎo)致梯度消失和爆炸的問題。relu的主要貢獻(xiàn)在于:(1).解決了梯度消失、爆炸的問題。(2).計(jì)算方便,計(jì)算速度快。(3).加速了網(wǎng)絡(luò)的訓(xùn)練。同時(shí)relu也存在一些缺點(diǎn):由于負(fù)數(shù)部分恒為0,會導(dǎo)致一些神經(jīng)元無法激活(可通過設(shè)置小學(xué)習(xí)率部分解決)。另外一種激活函數(shù)Leakyrelu為了解決relu的0區(qū)間帶來的影響,其數(shù)學(xué)表達(dá)

殘差圖,殘差,單元,卷積


電子科技大學(xué)碩士學(xué)位論文10為:leakrelu=max(kx,x),其中k是leaky系數(shù),一般選擇0.01或者0.02,或者通過學(xué)習(xí)而來,Leakyrelu解決了0區(qū)間帶來的影響,而且包含了relu的所有優(yōu)點(diǎn),其表達(dá)式為公式(2-2)所示:otherwisexexxlu),1(0,x)(re(2-2)其函數(shù)圖像如下圖2-2所示:圖2-2leakyrelu函數(shù)圖及其導(dǎo)數(shù)圖另一種方法是使用殘差結(jié)構(gòu),其中殘差單元如下圖2-3所示:圖2-3殘差網(wǎng)絡(luò)的單元結(jié)構(gòu)以上就是卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中比較常用到的方法,通過卷積神經(jīng)網(wǎng)絡(luò)我們可以有效地進(jìn)行訓(xùn)練,提取需要的圖像特征,將獲得的向量輸入到自然語言處理的算法中來完成圖像理解的過程。2.2生成式對抗網(wǎng)絡(luò)的介紹生成式對抗網(wǎng)絡(luò)是由蒙特利爾大學(xué)的IanGoodFellow提出來的一種基于零和博弈論的方法。原始的生成式對抗網(wǎng)絡(luò)主要是用于逼真圖片的生成。而在本文中,

【參考文獻(xiàn)】:
博士論文
[1]基于深度學(xué)習(xí)的圖像描述算法研究[D]. 朱欣鑫.北京郵電大學(xué) 2019

碩士論文
[1]基于深度學(xué)習(xí)的內(nèi)容自動(dòng)生成[D]. 韓易.華東師范大學(xué) 2019
[2]基于深度學(xué)習(xí)的圖像語義理解研究[D]. 梁歡.重慶大學(xué) 2016



本文編號:3074063

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3074063.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ec3da***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com