基于GAN的圖像數(shù)據(jù)增強(qiáng)方法研究
發(fā)布時(shí)間:2022-02-08 16:18
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)的需求引起了爆發(fā)式的增長(zhǎng),而圖像數(shù)據(jù)又是一種重要的表達(dá)方式。雖然在互聯(lián)網(wǎng)上產(chǎn)生的圖像數(shù)據(jù)總量不斷增長(zhǎng),獲取圖像數(shù)據(jù)的方式便利,但圖像數(shù)據(jù)的質(zhì)量卻不一定都有保證,如圖像數(shù)據(jù)樣本數(shù)量少、樣本類別稀少或樣本類別不平衡等問(wèn)題都會(huì)給數(shù)據(jù)生成工作帶來(lái)難度,并且目前圖像數(shù)據(jù)的生成依然高度依賴人工要素,導(dǎo)致成本高昂且效率低下。數(shù)據(jù)增強(qiáng)技術(shù)針對(duì)圖像這種高維數(shù)據(jù),傳統(tǒng)的方法雖然一定程度上可以增加圖像樣本數(shù)量,但大規(guī)模的生成圖像樣本則會(huì)增加過(guò)擬合的風(fēng)險(xiǎn),往往效果有限。本文受到生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)近期成果的啟發(fā),提出了兩種數(shù)據(jù)增強(qiáng)方法。所做的主要研究工作如下:(1)本文首先詳細(xì)闡述傳統(tǒng)的數(shù)據(jù)增強(qiáng)相關(guān)方法,其次深入研究卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、GAN的相關(guān)基礎(chǔ)理論及圖像數(shù)據(jù)增強(qiáng)領(lǐng)域的研究難點(diǎn)。(2)提出了一種基于監(jiān)督學(xué)習(xí)的條件自我注意生成對(duì)抗網(wǎng)絡(luò)數(shù)據(jù)增強(qiáng)方法。針對(duì)生成指定類別的圖像問(wèn)題,該網(wǎng)絡(luò)模型受條件生成對(duì)抗網(wǎng)絡(luò)(Conditions GAN,CGAN)監(jiān)督思想的啟...
【文章來(lái)源】:西安郵電大學(xué)陜西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)
西安郵電大學(xué)碩士學(xué)位論文102.2.1網(wǎng)絡(luò)結(jié)構(gòu)CNN是一種多層次神經(jīng)網(wǎng)絡(luò),其主要由卷積層、池化層和全連接層排列組合構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的核心模塊是隱藏層的卷積層和池化層。此模型利用梯度下降法使網(wǎng)絡(luò)的目標(biāo)函數(shù)損失最小化,從而逐層反向調(diào)節(jié)網(wǎng)絡(luò)中的權(quán)重參數(shù)。卷積層和子采樣層提取到的圖像特征在池化層之后是第一個(gè)全連接層。網(wǎng)絡(luò)模型最后的輸出層是一個(gè)分類器,可以采用邏輯回歸和支持向量機(jī)[36]對(duì)輸入圖像進(jìn)行分類。網(wǎng)絡(luò)結(jié)構(gòu)如下圖2.1所示:圖2.1卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)卷積層:通過(guò)卷積運(yùn)算可以提取出圖像的特征,將卷積核提取的特征進(jìn)行疊加形成特征圖輸入到下層。常用的二維卷積操作如圖2.2所示:圖2.2步長(zhǎng)為1的二維卷積卷積層輸出的圖像尺寸一般小于或等于輸入層的尺寸,卷積層的輸入輸出圖像大小的關(guān)系如下公式表示:
為卷積步長(zhǎng),P為padding填充的像素值(P=1表示在卷積區(qū)域外進(jìn)行1層填充)。池化層:對(duì)圖像進(jìn)行下采樣,可以減少數(shù)據(jù)處理量的同時(shí)保留有用的信息,但在采樣的時(shí)候圖像特征的具體位置會(huì)混亂,原因是特征的位置在特征被遍歷出來(lái)后,就變得不重要了,只要有這個(gè)特征和其它特征的相對(duì)位置,就能夠應(yīng)對(duì)同類物體在形變和扭曲后的變化。常用的方法有兩種,一種是最大值池化(max-pooling),對(duì)領(lǐng)域內(nèi)特征點(diǎn)取最大值,作用是保留圖像背景;另一種是平均值池化(mean-pooling),對(duì)領(lǐng)域內(nèi)特征點(diǎn)求平均值,作用是保留圖像的紋理信息。如圖2.3所示:圖2.3最大池化和平均池化示例全連接層:利用softmax全連接,提取到的圖像特征。在整個(gè)CNN中起到分類器的作用。本質(zhì)是將一個(gè)特征空間線性變換到另一個(gè)特征空間。近年來(lái)學(xué)者們對(duì)CNN做出了許多優(yōu)化改良,從2012年AlexNet被提出之后,引爆了神經(jīng)網(wǎng)絡(luò)的應(yīng)用熱潮。再到后來(lái)設(shè)計(jì)出了深層的深度卷積網(wǎng)絡(luò)VGGNet,構(gòu)建密集的塊結(jié)構(gòu)的GoogleNet,防止梯度消失的殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet[37]。雖然提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度和寬度,但會(huì)產(chǎn)生巨量的參數(shù),容易導(dǎo)致過(guò)擬合、梯度消失等問(wèn)題。因此設(shè)計(jì)網(wǎng)絡(luò)時(shí)取消全連接層、池化層或使用1×1卷積[38]等方式降低參數(shù)量,減少特征數(shù)量[39],使得神經(jīng)網(wǎng)絡(luò)提升網(wǎng)絡(luò)性能,容易訓(xùn)練。2.2.2激活函數(shù)神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元節(jié)點(diǎn),輸入的值經(jīng)過(guò)加權(quán),傳遞給下一層,求和后被應(yīng)用于一個(gè)函數(shù)。在深層神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)是將上層節(jié)點(diǎn)的輸出和下層節(jié)點(diǎn)的輸入之間關(guān)聯(lián)起來(lái)。激活函數(shù)的好處就是給卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的計(jì)算能力引入了非線性特性,使得深層神經(jīng)網(wǎng)絡(luò)的表達(dá)能力更加強(qiáng)大。卷積神經(jīng)網(wǎng)絡(luò)中有很多經(jīng)典的函數(shù),主要介紹以下四種常見(jiàn)的激活函數(shù)。(1)Sigmoid函數(shù)Sigm
【參考文獻(xiàn)】:
期刊論文
[1]利用層級(jí)交互注意力的文本摘要方法[J]. 黃于欣,余正濤,相艷,高盛祥,郭軍軍. 計(jì)算機(jī)科學(xué)與探索. 2020(10)
本文編號(hào):3615370
【文章來(lái)源】:西安郵電大學(xué)陜西省
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)
西安郵電大學(xué)碩士學(xué)位論文102.2.1網(wǎng)絡(luò)結(jié)構(gòu)CNN是一種多層次神經(jīng)網(wǎng)絡(luò),其主要由卷積層、池化層和全連接層排列組合構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的核心模塊是隱藏層的卷積層和池化層。此模型利用梯度下降法使網(wǎng)絡(luò)的目標(biāo)函數(shù)損失最小化,從而逐層反向調(diào)節(jié)網(wǎng)絡(luò)中的權(quán)重參數(shù)。卷積層和子采樣層提取到的圖像特征在池化層之后是第一個(gè)全連接層。網(wǎng)絡(luò)模型最后的輸出層是一個(gè)分類器,可以采用邏輯回歸和支持向量機(jī)[36]對(duì)輸入圖像進(jìn)行分類。網(wǎng)絡(luò)結(jié)構(gòu)如下圖2.1所示:圖2.1卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)卷積層:通過(guò)卷積運(yùn)算可以提取出圖像的特征,將卷積核提取的特征進(jìn)行疊加形成特征圖輸入到下層。常用的二維卷積操作如圖2.2所示:圖2.2步長(zhǎng)為1的二維卷積卷積層輸出的圖像尺寸一般小于或等于輸入層的尺寸,卷積層的輸入輸出圖像大小的關(guān)系如下公式表示:
為卷積步長(zhǎng),P為padding填充的像素值(P=1表示在卷積區(qū)域外進(jìn)行1層填充)。池化層:對(duì)圖像進(jìn)行下采樣,可以減少數(shù)據(jù)處理量的同時(shí)保留有用的信息,但在采樣的時(shí)候圖像特征的具體位置會(huì)混亂,原因是特征的位置在特征被遍歷出來(lái)后,就變得不重要了,只要有這個(gè)特征和其它特征的相對(duì)位置,就能夠應(yīng)對(duì)同類物體在形變和扭曲后的變化。常用的方法有兩種,一種是最大值池化(max-pooling),對(duì)領(lǐng)域內(nèi)特征點(diǎn)取最大值,作用是保留圖像背景;另一種是平均值池化(mean-pooling),對(duì)領(lǐng)域內(nèi)特征點(diǎn)求平均值,作用是保留圖像的紋理信息。如圖2.3所示:圖2.3最大池化和平均池化示例全連接層:利用softmax全連接,提取到的圖像特征。在整個(gè)CNN中起到分類器的作用。本質(zhì)是將一個(gè)特征空間線性變換到另一個(gè)特征空間。近年來(lái)學(xué)者們對(duì)CNN做出了許多優(yōu)化改良,從2012年AlexNet被提出之后,引爆了神經(jīng)網(wǎng)絡(luò)的應(yīng)用熱潮。再到后來(lái)設(shè)計(jì)出了深層的深度卷積網(wǎng)絡(luò)VGGNet,構(gòu)建密集的塊結(jié)構(gòu)的GoogleNet,防止梯度消失的殘差卷積神經(jīng)網(wǎng)絡(luò)ResNet[37]。雖然提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度和寬度,但會(huì)產(chǎn)生巨量的參數(shù),容易導(dǎo)致過(guò)擬合、梯度消失等問(wèn)題。因此設(shè)計(jì)網(wǎng)絡(luò)時(shí)取消全連接層、池化層或使用1×1卷積[38]等方式降低參數(shù)量,減少特征數(shù)量[39],使得神經(jīng)網(wǎng)絡(luò)提升網(wǎng)絡(luò)性能,容易訓(xùn)練。2.2.2激活函數(shù)神經(jīng)網(wǎng)絡(luò)中的每個(gè)神經(jīng)元節(jié)點(diǎn),輸入的值經(jīng)過(guò)加權(quán),傳遞給下一層,求和后被應(yīng)用于一個(gè)函數(shù)。在深層神經(jīng)網(wǎng)絡(luò)中,激活函數(shù)是將上層節(jié)點(diǎn)的輸出和下層節(jié)點(diǎn)的輸入之間關(guān)聯(lián)起來(lái)。激活函數(shù)的好處就是給卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的計(jì)算能力引入了非線性特性,使得深層神經(jīng)網(wǎng)絡(luò)的表達(dá)能力更加強(qiáng)大。卷積神經(jīng)網(wǎng)絡(luò)中有很多經(jīng)典的函數(shù),主要介紹以下四種常見(jiàn)的激活函數(shù)。(1)Sigmoid函數(shù)Sigm
【參考文獻(xiàn)】:
期刊論文
[1]利用層級(jí)交互注意力的文本摘要方法[J]. 黃于欣,余正濤,相艷,高盛祥,郭軍軍. 計(jì)算機(jī)科學(xué)與探索. 2020(10)
本文編號(hào):3615370
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3615370.html
最近更新
教材專著