基于場景圖的細粒度圖像生成模型

發(fā)布時間：2021-06-28 19:45

　　在早期的文本生成圖像的研究中,可變分自動編碼器VAE是最常用的方法,它可以通過編碼文本然后解碼來生成相應(yīng)的圖像。但是由于可變分自動編碼器VAE模型本身存在局限,導(dǎo)致生成圖像質(zhì)量一般。當(dāng)前文本生成圖像主要使用生成對抗網(wǎng)絡(luò)GAN的方法,生成對抗網(wǎng)絡(luò)GAN恰好能解決圖像生成質(zhì)量不好的問題,為了解決VAE模型的局限,生成器訓(xùn)練生成圖像的數(shù)據(jù)分布來欺騙鑒別器,同時對鑒別器進行優(yōu)化以區(qū)分真實的樣本和由生成器產(chǎn)生的錯誤樣本。目前為止,大多數(shù)文本生成圖像的論文都僅針對生成單個物體的圖像,對于單物體的生成效果有較大的進步。但是對于在一幅圖像中生成多個物體的圖像研究較少,雖然使用場景圖能夠解決在一個圖像中生成多個物體的問題,但網(wǎng)絡(luò)并沒有很好的處理圖像中物體的細節(jié)。并且在模型的訓(xùn)練過程中,圖像生成的穩(wěn)定性不夠,造成圖像質(zhì)量有所下降。為了解決圖像中物體缺乏細節(jié)的效果,本文提出在掩碼回歸網(wǎng)絡(luò)中增加自注意力機制的方法對物體細節(jié)進行填充。由于大多數(shù)文本生成圖像的模型都采用的是卷積GAN,卷積GAN中的卷積操作會受到局部感受域的影響,如果一個物體在圖像中所占用區(qū)域過大,卷積核則無法提取該物體所占用的整個區(qū)域,導(dǎo)致提取...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：63 頁

【學(xué)位級別】：碩士

【部分圖文】：

基于場景圖的細粒度圖像生成模型

單個圖卷積層的計算圖[5]

計算圖,計算圖,條件,鑒別器

第2章基于場景圖的圖像生成模型-16-(()))的期望最小化。固定生成器，調(diào)整鑒別器的參數(shù)使log()+log(1(()))的期望最大化。這種相互學(xué)習(xí)的過程可以看作是“二元極小極大博弈”的方式，公式如2-5所示。minmax(,)=~log()+~log(1(()))(2-5)雖然不需要一個假設(shè)的數(shù)據(jù)分布是GAN最大的優(yōu)勢，但是這種不需要一個假設(shè)的數(shù)據(jù)分布的方式太自由，相對分辨率較高的圖像，傳統(tǒng)的GAN就不太可控。CGAN[31]是傳統(tǒng)GAN的一個改進版，通過給GAN添加一些約束，在生成器和鑒別器的建模中通過引入條件變量y引導(dǎo)數(shù)據(jù)的生成，其中，條件變量可以是類別數(shù)據(jù)，也可以是不同模式的數(shù)據(jù)。CGAN的生成器中，將噪聲分布和條件數(shù)據(jù)組成隱層變量。在鑒別器中，真實圖像或者生成圖像和條件數(shù)據(jù)作為鑒別器的輸入。條件GAN的具體如公式2-6：minmax(,)=~log(|)+~log(1((|)))(2-6)CGAN的計算圖如圖2-5所示。圖2-5條件生成對抗網(wǎng)絡(luò)的計算圖[31]2.4圖像生成模型的損失函數(shù)在該實驗中，本文通過使用一對鑒別器和訓(xùn)練圖像生成網(wǎng)絡(luò)f來生成逼

特征圖,卷積,示例

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-20-由于大多數(shù)文本到圖像模型都基于深度卷積GAN[3,16,18]，因此GAN善于生成具有較少結(jié)構(gòu)約束的圖像，比如草地，云，山等。但是GAN很難捕捉物體中出現(xiàn)的幾何特征，例如通常具有明確定義的腳和逼真的羽毛紋理的鳥類。出現(xiàn)這樣的問題是因為卷積操作會受到局部感受域的影響，在卷積運算的過程中，左上角卷積出來結(jié)果和右下角卷積出來的結(jié)果之間沒有任何聯(lián)系。圖3-1卷積操作示例圖如圖3-1所示，左上角輸出的‘3’和特征圖的其他區(qū)域沒有聯(lián)系。同樣在計算特征圖的任何部分的時候，除了計算輸出的圖像中的小局部區(qū)域之外，它和任何的其它部分都沒有直接的聯(lián)系。當(dāng)然我們也可以通過使用更大的卷積來捕獲更大的空間，但是這樣會較低卷積操作的計算效率，并且使得操作變慢；或者我們也可以使用更深的網(wǎng)絡(luò)把各個區(qū)域聯(lián)系起來，但是網(wǎng)絡(luò)結(jié)構(gòu)太深會意味著太多的參數(shù)，會使得GAN的訓(xùn)練愈加不穩(wěn)定。之前的模型[11,17]在較大程度上依賴于卷積來學(xué)習(xí)圖像中不同區(qū)域的特征。由于卷積算子在局部感受野上操作，因而僅能在通過多個卷積層后解決長距離依賴性。為了解決遠程依賴的能力，本文借用了自注意力機制生成對抗網(wǎng)絡(luò)（SAGAN）[33]的思想，并將自注意力機制添加到掩碼回歸網(wǎng)絡(luò)中以改進物體掩碼的細節(jié)。自注意力機制模塊是卷積的補充，有助于建模跨圖像區(qū)域的遠程，多級依賴關(guān)系。借助自注意力機制，生成器能夠繪制圖像，其中每個區(qū)域的信息都和圖像中遠處區(qū)域的信息有關(guān)。此外，由于自注意力機制能有效的找到全局的，長期的依賴關(guān)系，鑒別器能更好的對圖像中每個物體實行復(fù)雜的幾何約束。

【參考文獻】：
碩士論文
[1]基于DCGAN算法的圖像生成技術(shù)研究[D]. 蔡曉龍.青島理工大學(xué) 2018

本文編號：3254937

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3254937.html

上一篇：基于非剛性配準和卷積神經(jīng)網(wǎng)絡(luò)的宮頸MR圖像分割
下一篇：基于圖像處理的鋼球計數(shù)與尺寸識別系統(tǒng)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于場景圖的細粒度圖像生成模型