基于場景圖的細粒度圖像生成模型
發(fā)布時間:2021-06-28 19:45
在早期的文本生成圖像的研究中,可變分自動編碼器VAE是最常用的方法,它可以通過編碼文本然后解碼來生成相應(yīng)的圖像。但是由于可變分自動編碼器VAE模型本身存在局限,導(dǎo)致生成圖像質(zhì)量一般。當(dāng)前文本生成圖像主要使用生成對抗網(wǎng)絡(luò)GAN的方法,生成對抗網(wǎng)絡(luò)GAN恰好能解決圖像生成質(zhì)量不好的問題,為了解決VAE模型的局限,生成器訓(xùn)練生成圖像的數(shù)據(jù)分布來欺騙鑒別器,同時對鑒別器進行優(yōu)化以區(qū)分真實的樣本和由生成器產(chǎn)生的錯誤樣本。目前為止,大多數(shù)文本生成圖像的論文都僅針對生成單個物體的圖像,對于單物體的生成效果有較大的進步。但是對于在一幅圖像中生成多個物體的圖像研究較少,雖然使用場景圖能夠解決在一個圖像中生成多個物體的問題,但網(wǎng)絡(luò)并沒有很好的處理圖像中物體的細節(jié)。并且在模型的訓(xùn)練過程中,圖像生成的穩(wěn)定性不夠,造成圖像質(zhì)量有所下降。為了解決圖像中物體缺乏細節(jié)的效果,本文提出在掩碼回歸網(wǎng)絡(luò)中增加自注意力機制的方法對物體細節(jié)進行填充。由于大多數(shù)文本生成圖像的模型都采用的是卷積GAN,卷積GAN中的卷積操作會受到局部感受域的影響,如果一個物體在圖像中所占用區(qū)域過大,卷積核則無法提取該物體所占用的整個區(qū)域,導(dǎo)致提取...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
單個圖卷積層的計算圖[5]
第2章基于場景圖的圖像生成模型-16-(()))的期望最小化。固定生成器,調(diào)整鑒別器的參數(shù)使log()+log(1(()))的期望最大化。這種相互學(xué)習(xí)的過程可以看作是“二元極小極大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)雖然不需要一個假設(shè)的數(shù)據(jù)分布是GAN最大的優(yōu)勢,但是這種不需要一個假設(shè)的數(shù)據(jù)分布的方式太自由,相對分辨率較高的圖像,傳統(tǒng)的GAN就不太可控。CGAN[31]是傳統(tǒng)GAN的一個改進版,通過給GAN添加一些約束,在生成器和鑒別器的建模中通過引入條件變量y引導(dǎo)數(shù)據(jù)的生成,其中,條件變量可以是類別數(shù)據(jù),也可以是不同模式的數(shù)據(jù)。CGAN的生成器中,將噪聲分布和條件數(shù)據(jù)組成隱層變量。在鑒別器中,真實圖像或者生成圖像和條件數(shù)據(jù)作為鑒別器的輸入。條件GAN的具體如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的計算圖如圖2-5所示。圖2-5條件生成對抗網(wǎng)絡(luò)的計算圖[31]2.4圖像生成模型的損失函數(shù)在該實驗中,本文通過使用一對鑒別器和訓(xùn)練圖像生成網(wǎng)絡(luò)f來生成逼
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-20-由于大多數(shù)文本到圖像模型都基于深度卷積GAN[3,16,18],因此GAN善于生成具有較少結(jié)構(gòu)約束的圖像,比如草地,云,山等。但是GAN很難捕捉物體中出現(xiàn)的幾何特征,例如通常具有明確定義的腳和逼真的羽毛紋理的鳥類。出現(xiàn)這樣的問題是因為卷積操作會受到局部感受域的影響,在卷積運算的過程中,左上角卷積出來結(jié)果和右下角卷積出來的結(jié)果之間沒有任何聯(lián)系。圖3-1卷積操作示例圖如圖3-1所示,左上角輸出的‘3’和特征圖的其他區(qū)域沒有聯(lián)系。同樣在計算特征圖的任何部分的時候,除了計算輸出的圖像中的小局部區(qū)域之外,它和任何的其它部分都沒有直接的聯(lián)系。當(dāng)然我們也可以通過使用更大的卷積來捕獲更大的空間,但是這樣會較低卷積操作的計算效率,并且使得操作變慢;或者我們也可以使用更深的網(wǎng)絡(luò)把各個區(qū)域聯(lián)系起來,但是網(wǎng)絡(luò)結(jié)構(gòu)太深會意味著太多的參數(shù),會使得GAN的訓(xùn)練愈加不穩(wěn)定。之前的模型[11,17]在較大程度上依賴于卷積來學(xué)習(xí)圖像中不同區(qū)域的特征。由于卷積算子在局部感受野上操作,因而僅能在通過多個卷積層后解決長距離依賴性。為了解決遠程依賴的能力,本文借用了自注意力機制生成對抗網(wǎng)絡(luò)(SAGAN)[33]的思想,并將自注意力機制添加到掩碼回歸網(wǎng)絡(luò)中以改進物體掩碼的細節(jié)。自注意力機制模塊是卷積的補充,有助于建模跨圖像區(qū)域的遠程,多級依賴關(guān)系。借助自注意力機制,生成器能夠繪制圖像,其中每個區(qū)域的信息都和圖像中遠處區(qū)域的信息有關(guān)。此外,由于自注意力機制能有效的找到全局的,長期的依賴關(guān)系,鑒別器能更好的對圖像中每個物體實行復(fù)雜的幾何約束。
【參考文獻】:
碩士論文
[1]基于DCGAN算法的圖像生成技術(shù)研究[D]. 蔡曉龍.青島理工大學(xué) 2018
本文編號:3254937
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
單個圖卷積層的計算圖[5]
第2章基于場景圖的圖像生成模型-16-(()))的期望最小化。固定生成器,調(diào)整鑒別器的參數(shù)使log()+log(1(()))的期望最大化。這種相互學(xué)習(xí)的過程可以看作是“二元極小極大博弈”的方式,公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)雖然不需要一個假設(shè)的數(shù)據(jù)分布是GAN最大的優(yōu)勢,但是這種不需要一個假設(shè)的數(shù)據(jù)分布的方式太自由,相對分辨率較高的圖像,傳統(tǒng)的GAN就不太可控。CGAN[31]是傳統(tǒng)GAN的一個改進版,通過給GAN添加一些約束,在生成器和鑒別器的建模中通過引入條件變量y引導(dǎo)數(shù)據(jù)的生成,其中,條件變量可以是類別數(shù)據(jù),也可以是不同模式的數(shù)據(jù)。CGAN的生成器中,將噪聲分布和條件數(shù)據(jù)組成隱層變量。在鑒別器中,真實圖像或者生成圖像和條件數(shù)據(jù)作為鑒別器的輸入。條件GAN的具體如公式2-6:minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的計算圖如圖2-5所示。圖2-5條件生成對抗網(wǎng)絡(luò)的計算圖[31]2.4圖像生成模型的損失函數(shù)在該實驗中,本文通過使用一對鑒別器和訓(xùn)練圖像生成網(wǎng)絡(luò)f來生成逼
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-20-由于大多數(shù)文本到圖像模型都基于深度卷積GAN[3,16,18],因此GAN善于生成具有較少結(jié)構(gòu)約束的圖像,比如草地,云,山等。但是GAN很難捕捉物體中出現(xiàn)的幾何特征,例如通常具有明確定義的腳和逼真的羽毛紋理的鳥類。出現(xiàn)這樣的問題是因為卷積操作會受到局部感受域的影響,在卷積運算的過程中,左上角卷積出來結(jié)果和右下角卷積出來的結(jié)果之間沒有任何聯(lián)系。圖3-1卷積操作示例圖如圖3-1所示,左上角輸出的‘3’和特征圖的其他區(qū)域沒有聯(lián)系。同樣在計算特征圖的任何部分的時候,除了計算輸出的圖像中的小局部區(qū)域之外,它和任何的其它部分都沒有直接的聯(lián)系。當(dāng)然我們也可以通過使用更大的卷積來捕獲更大的空間,但是這樣會較低卷積操作的計算效率,并且使得操作變慢;或者我們也可以使用更深的網(wǎng)絡(luò)把各個區(qū)域聯(lián)系起來,但是網(wǎng)絡(luò)結(jié)構(gòu)太深會意味著太多的參數(shù),會使得GAN的訓(xùn)練愈加不穩(wěn)定。之前的模型[11,17]在較大程度上依賴于卷積來學(xué)習(xí)圖像中不同區(qū)域的特征。由于卷積算子在局部感受野上操作,因而僅能在通過多個卷積層后解決長距離依賴性。為了解決遠程依賴的能力,本文借用了自注意力機制生成對抗網(wǎng)絡(luò)(SAGAN)[33]的思想,并將自注意力機制添加到掩碼回歸網(wǎng)絡(luò)中以改進物體掩碼的細節(jié)。自注意力機制模塊是卷積的補充,有助于建模跨圖像區(qū)域的遠程,多級依賴關(guān)系。借助自注意力機制,生成器能夠繪制圖像,其中每個區(qū)域的信息都和圖像中遠處區(qū)域的信息有關(guān)。此外,由于自注意力機制能有效的找到全局的,長期的依賴關(guān)系,鑒別器能更好的對圖像中每個物體實行復(fù)雜的幾何約束。
【參考文獻】:
碩士論文
[1]基于DCGAN算法的圖像生成技術(shù)研究[D]. 蔡曉龍.青島理工大學(xué) 2018
本文編號:3254937
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3254937.html
最近更新
教材專著