基于場(chǎng)景圖的細(xì)粒度圖像生成模型
發(fā)布時(shí)間:2021-06-28 19:45
在早期的文本生成圖像的研究中,可變分自動(dòng)編碼器VAE是最常用的方法,它可以通過編碼文本然后解碼來生成相應(yīng)的圖像。但是由于可變分自動(dòng)編碼器VAE模型本身存在局限,導(dǎo)致生成圖像質(zhì)量一般。當(dāng)前文本生成圖像主要使用生成對(duì)抗網(wǎng)絡(luò)GAN的方法,生成對(duì)抗網(wǎng)絡(luò)GAN恰好能解決圖像生成質(zhì)量不好的問題,為了解決VAE模型的局限,生成器訓(xùn)練生成圖像的數(shù)據(jù)分布來欺騙鑒別器,同時(shí)對(duì)鑒別器進(jìn)行優(yōu)化以區(qū)分真實(shí)的樣本和由生成器產(chǎn)生的錯(cuò)誤樣本。目前為止,大多數(shù)文本生成圖像的論文都僅針對(duì)生成單個(gè)物體的圖像,對(duì)于單物體的生成效果有較大的進(jìn)步。但是對(duì)于在一幅圖像中生成多個(gè)物體的圖像研究較少,雖然使用場(chǎng)景圖能夠解決在一個(gè)圖像中生成多個(gè)物體的問題,但網(wǎng)絡(luò)并沒有很好的處理圖像中物體的細(xì)節(jié)。并且在模型的訓(xùn)練過程中,圖像生成的穩(wěn)定性不夠,造成圖像質(zhì)量有所下降。為了解決圖像中物體缺乏細(xì)節(jié)的效果,本文提出在掩碼回歸網(wǎng)絡(luò)中增加自注意力機(jī)制的方法對(duì)物體細(xì)節(jié)進(jìn)行填充。由于大多數(shù)文本生成圖像的模型都采用的是卷積GAN,卷積GAN中的卷積操作會(huì)受到局部感受域的影響,如果一個(gè)物體在圖像中所占用區(qū)域過大,卷積核則無法提取該物體所占用的整個(gè)區(qū)域,導(dǎo)致提取...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單個(gè)圖卷積層的計(jì)算圖[5]
第2章基于場(chǎng)景圖的圖像生成模型-16-(()))的期望最小化。固定生成器,調(diào)整鑒別器的參數(shù)使log()+log(1(()))的期望最大化。這種相互學(xué)習(xí)的過程可以看作是“二元極小極大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)雖然不需要一個(gè)假設(shè)的數(shù)據(jù)分布是GAN最大的優(yōu)勢(shì),但是這種不需要一個(gè)假設(shè)的數(shù)據(jù)分布的方式太自由,相對(duì)分辨率較高的圖像,傳統(tǒng)的GAN就不太可控。CGAN[31]是傳統(tǒng)GAN的一個(gè)改進(jìn)版,通過給GAN添加一些約束,在生成器和鑒別器的建模中通過引入條件變量y引導(dǎo)數(shù)據(jù)的生成,其中,條件變量可以是類別數(shù)據(jù),也可以是不同模式的數(shù)據(jù)。CGAN的生成器中,將噪聲分布和條件數(shù)據(jù)組成隱層變量。在鑒別器中,真實(shí)圖像或者生成圖像和條件數(shù)據(jù)作為鑒別器的輸入。條件GAN的具體如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的計(jì)算圖如圖2-5所示。圖2-5條件生成對(duì)抗網(wǎng)絡(luò)的計(jì)算圖[31]2.4圖像生成模型的損失函數(shù)在該實(shí)驗(yàn)中,本文通過使用一對(duì)鑒別器和訓(xùn)練圖像生成網(wǎng)絡(luò)f來生成逼
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-20-由于大多數(shù)文本到圖像模型都基于深度卷積GAN[3,16,18],因此GAN善于生成具有較少結(jié)構(gòu)約束的圖像,比如草地,云,山等。但是GAN很難捕捉物體中出現(xiàn)的幾何特征,例如通常具有明確定義的腳和逼真的羽毛紋理的鳥類。出現(xiàn)這樣的問題是因?yàn)榫矸e操作會(huì)受到局部感受域的影響,在卷積運(yùn)算的過程中,左上角卷積出來結(jié)果和右下角卷積出來的結(jié)果之間沒有任何聯(lián)系。圖3-1卷積操作示例圖如圖3-1所示,左上角輸出的‘3’和特征圖的其他區(qū)域沒有聯(lián)系。同樣在計(jì)算特征圖的任何部分的時(shí)候,除了計(jì)算輸出的圖像中的小局部區(qū)域之外,它和任何的其它部分都沒有直接的聯(lián)系。當(dāng)然我們也可以通過使用更大的卷積來捕獲更大的空間,但是這樣會(huì)較低卷積操作的計(jì)算效率,并且使得操作變慢;或者我們也可以使用更深的網(wǎng)絡(luò)把各個(gè)區(qū)域聯(lián)系起來,但是網(wǎng)絡(luò)結(jié)構(gòu)太深會(huì)意味著太多的參數(shù),會(huì)使得GAN的訓(xùn)練愈加不穩(wěn)定。之前的模型[11,17]在較大程度上依賴于卷積來學(xué)習(xí)圖像中不同區(qū)域的特征。由于卷積算子在局部感受野上操作,因而僅能在通過多個(gè)卷積層后解決長(zhǎng)距離依賴性。為了解決遠(yuǎn)程依賴的能力,本文借用了自注意力機(jī)制生成對(duì)抗網(wǎng)絡(luò)(SAGAN)[33]的思想,并將自注意力機(jī)制添加到掩碼回歸網(wǎng)絡(luò)中以改進(jìn)物體掩碼的細(xì)節(jié)。自注意力機(jī)制模塊是卷積的補(bǔ)充,有助于建?鐖D像區(qū)域的遠(yuǎn)程,多級(jí)依賴關(guān)系。借助自注意力機(jī)制,生成器能夠繪制圖像,其中每個(gè)區(qū)域的信息都和圖像中遠(yuǎn)處區(qū)域的信息有關(guān)。此外,由于自注意力機(jī)制能有效的找到全局的,長(zhǎng)期的依賴關(guān)系,鑒別器能更好的對(duì)圖像中每個(gè)物體實(shí)行復(fù)雜的幾何約束。
【參考文獻(xiàn)】:
碩士論文
[1]基于DCGAN算法的圖像生成技術(shù)研究[D]. 蔡曉龍.青島理工大學(xué) 2018
本文編號(hào):3254937
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
單個(gè)圖卷積層的計(jì)算圖[5]
第2章基于場(chǎng)景圖的圖像生成模型-16-(()))的期望最小化。固定生成器,調(diào)整鑒別器的參數(shù)使log()+log(1(()))的期望最大化。這種相互學(xué)習(xí)的過程可以看作是“二元極小極大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)雖然不需要一個(gè)假設(shè)的數(shù)據(jù)分布是GAN最大的優(yōu)勢(shì),但是這種不需要一個(gè)假設(shè)的數(shù)據(jù)分布的方式太自由,相對(duì)分辨率較高的圖像,傳統(tǒng)的GAN就不太可控。CGAN[31]是傳統(tǒng)GAN的一個(gè)改進(jìn)版,通過給GAN添加一些約束,在生成器和鑒別器的建模中通過引入條件變量y引導(dǎo)數(shù)據(jù)的生成,其中,條件變量可以是類別數(shù)據(jù),也可以是不同模式的數(shù)據(jù)。CGAN的生成器中,將噪聲分布和條件數(shù)據(jù)組成隱層變量。在鑒別器中,真實(shí)圖像或者生成圖像和條件數(shù)據(jù)作為鑒別器的輸入。條件GAN的具體如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的計(jì)算圖如圖2-5所示。圖2-5條件生成對(duì)抗網(wǎng)絡(luò)的計(jì)算圖[31]2.4圖像生成模型的損失函數(shù)在該實(shí)驗(yàn)中,本文通過使用一對(duì)鑒別器和訓(xùn)練圖像生成網(wǎng)絡(luò)f來生成逼
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-20-由于大多數(shù)文本到圖像模型都基于深度卷積GAN[3,16,18],因此GAN善于生成具有較少結(jié)構(gòu)約束的圖像,比如草地,云,山等。但是GAN很難捕捉物體中出現(xiàn)的幾何特征,例如通常具有明確定義的腳和逼真的羽毛紋理的鳥類。出現(xiàn)這樣的問題是因?yàn)榫矸e操作會(huì)受到局部感受域的影響,在卷積運(yùn)算的過程中,左上角卷積出來結(jié)果和右下角卷積出來的結(jié)果之間沒有任何聯(lián)系。圖3-1卷積操作示例圖如圖3-1所示,左上角輸出的‘3’和特征圖的其他區(qū)域沒有聯(lián)系。同樣在計(jì)算特征圖的任何部分的時(shí)候,除了計(jì)算輸出的圖像中的小局部區(qū)域之外,它和任何的其它部分都沒有直接的聯(lián)系。當(dāng)然我們也可以通過使用更大的卷積來捕獲更大的空間,但是這樣會(huì)較低卷積操作的計(jì)算效率,并且使得操作變慢;或者我們也可以使用更深的網(wǎng)絡(luò)把各個(gè)區(qū)域聯(lián)系起來,但是網(wǎng)絡(luò)結(jié)構(gòu)太深會(huì)意味著太多的參數(shù),會(huì)使得GAN的訓(xùn)練愈加不穩(wěn)定。之前的模型[11,17]在較大程度上依賴于卷積來學(xué)習(xí)圖像中不同區(qū)域的特征。由于卷積算子在局部感受野上操作,因而僅能在通過多個(gè)卷積層后解決長(zhǎng)距離依賴性。為了解決遠(yuǎn)程依賴的能力,本文借用了自注意力機(jī)制生成對(duì)抗網(wǎng)絡(luò)(SAGAN)[33]的思想,并將自注意力機(jī)制添加到掩碼回歸網(wǎng)絡(luò)中以改進(jìn)物體掩碼的細(xì)節(jié)。自注意力機(jī)制模塊是卷積的補(bǔ)充,有助于建?鐖D像區(qū)域的遠(yuǎn)程,多級(jí)依賴關(guān)系。借助自注意力機(jī)制,生成器能夠繪制圖像,其中每個(gè)區(qū)域的信息都和圖像中遠(yuǎn)處區(qū)域的信息有關(guān)。此外,由于自注意力機(jī)制能有效的找到全局的,長(zhǎng)期的依賴關(guān)系,鑒別器能更好的對(duì)圖像中每個(gè)物體實(shí)行復(fù)雜的幾何約束。
【參考文獻(xiàn)】:
碩士論文
[1]基于DCGAN算法的圖像生成技術(shù)研究[D]. 蔡曉龍.青島理工大學(xué) 2018
本文編號(hào):3254937
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3254937.html
最近更新
教材專著