基于注意力機制的圖像生成研究
發(fā)布時間:2021-05-07 17:14
深度學(xué)習(xí)理論的提出和發(fā)展極大地推動了對圖像生成的研究。在基于深度學(xué)習(xí)的傳統(tǒng)圖像生成任務(wù)中,由于卷積神經(jīng)網(wǎng)絡(luò)內(nèi)部存在局部連接,通過學(xué)習(xí)局部特征,模型能夠較好地生成圖像中淺層神經(jīng)網(wǎng)絡(luò)提取的紋理風(fēng)格信息,但是對深層神經(jīng)網(wǎng)絡(luò)提取的高級語義特征的學(xué)習(xí)能力較差,導(dǎo)致生成圖像中語義目標(biāo)出現(xiàn)模糊失真的現(xiàn)象。為提高神經(jīng)網(wǎng)絡(luò)的全局特征處理能力,使生成圖像中的語義目標(biāo)更清晰、真實,本文在級聯(lián)細(xì)化網(wǎng)絡(luò)圖像生成模型中引入注意力機制,加強網(wǎng)絡(luò)內(nèi)部多維特征之間的全局一致性,提高了由語義標(biāo)簽和復(fù)雜文本描述生成真實感圖像的質(zhì)量。本文的主要研究內(nèi)容及成果如下:(1)通過在級聯(lián)細(xì)化網(wǎng)絡(luò)內(nèi)部引入自注意力機制,對第一級精細(xì)化模塊輸出的多維特征圖做特征融合,輸出帶有全局信息的自注意力特征,克服了卷積神經(jīng)網(wǎng)絡(luò)局部連接帶來的局部性特征缺陷,得到自注意力級聯(lián)細(xì)化網(wǎng)絡(luò),提升了由語義標(biāo)簽生成真實感圖像中語義目標(biāo)的清晰度和真實性。通過對Cityscapes驗證集語義標(biāo)簽生成圖像的語義分割,自注意力模型生成圖像的平均像素精度相比原始模型提升了6.2%,mIoU精度提升了22.3%。(2)在自注意力機制的基礎(chǔ)上,結(jié)合級聯(lián)細(xì)化網(wǎng)絡(luò)自身輸入特性,對...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 圖像生成研究背景及現(xiàn)狀
1.1.1 圖像到圖像生成
1.1.2 語義標(biāo)簽到圖像生成
1.1.3 文本信息到圖像生成
1.2 注意力機制研究背景及現(xiàn)狀
1.3 研究內(nèi)容與工作
1.3.1 研究工作
1.3.2 章節(jié)安排
1.4 本章小結(jié)
第2章 圖像生成方法
2.1 傳統(tǒng)圖像生成方法
2.1.1 變分自動編碼器
2.1.2 生成對抗網(wǎng)絡(luò)
2.2 級聯(lián)細(xì)化網(wǎng)絡(luò)
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
2.2.2 損失函數(shù)與優(yōu)化
2.3 本章小結(jié)
第3章 自注意力級聯(lián)細(xì)化網(wǎng)絡(luò)
3.1 網(wǎng)絡(luò)設(shè)計
3.1.1 局部特征與全局特征
3.1.2 自注意力模型設(shè)計
3.2 圖像生成實驗及分析
3.2.1 數(shù)據(jù)集簡介
3.2.2 實驗設(shè)計及評估標(biāo)準(zhǔn)
3.2.3 實驗結(jié)果及分析
3.3 本章小結(jié)
第4章 監(jiān)督注意力級聯(lián)細(xì)化網(wǎng)絡(luò)
4.1 監(jiān)督注意力模型
4.1.1 維度匹配
4.1.2 模型設(shè)計
4.1.3 同Pix2pix HD模型對比
4.2 圖像生成實驗及分析
4.2.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
4.2.2 實驗結(jié)果及分析
4.3 本章小結(jié)
第5章 生成圖像實例分割
5.1 改進Mask Scoring R-CNN實例分割模型
5.1.1 語義分割與實例分割
5.1.2 自適配歸一化改進Mask Scoring R-CNN
5.2 實例分割實驗
5.2.1 真實圖像的實例分割
5.2.2 生成圖像的實例分割
5.3 本章小結(jié)
第6章 基于監(jiān)督注意力的文本到圖像生成
6.1 場景圖生成圖像
6.1.1 基于圖卷積和級聯(lián)細(xì)化網(wǎng)絡(luò)的Sg2im模型
6.1.2 引入監(jiān)督注意力的Sg2im模型
6.2 文本生成圖像實驗
6.2.1 實驗設(shè)計及評估
6.2.2 實驗結(jié)果與分析
6.3 本章小結(jié)
第7章 總結(jié)與展望
7.1 論文總結(jié)
7.2 研究展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]一種融合AutoEncoder與CNN的混合算法用于圖像特征提取[J]. 劉興旺,王江晴,徐科. 計算機應(yīng)用研究. 2017(12)
[2]博弈論與納什均衡[J]. 郭鵬,楊曉琴. 哈爾濱師范大學(xué)自然科學(xué)學(xué)報. 2006(04)
碩士論文
[1]基于生成對抗網(wǎng)絡(luò)的文本生成圖像技術(shù)研究[D]. 陳鑫晶.華僑大學(xué) 2019
[2]目標(biāo)識別技術(shù)在機器人視覺系統(tǒng)中的應(yīng)用研究[D]. 江彤彤.齊魯工業(yè)大學(xué) 2018
本文編號:3173771
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 圖像生成研究背景及現(xiàn)狀
1.1.1 圖像到圖像生成
1.1.2 語義標(biāo)簽到圖像生成
1.1.3 文本信息到圖像生成
1.2 注意力機制研究背景及現(xiàn)狀
1.3 研究內(nèi)容與工作
1.3.1 研究工作
1.3.2 章節(jié)安排
1.4 本章小結(jié)
第2章 圖像生成方法
2.1 傳統(tǒng)圖像生成方法
2.1.1 變分自動編碼器
2.1.2 生成對抗網(wǎng)絡(luò)
2.2 級聯(lián)細(xì)化網(wǎng)絡(luò)
2.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
2.2.2 損失函數(shù)與優(yōu)化
2.3 本章小結(jié)
第3章 自注意力級聯(lián)細(xì)化網(wǎng)絡(luò)
3.1 網(wǎng)絡(luò)設(shè)計
3.1.1 局部特征與全局特征
3.1.2 自注意力模型設(shè)計
3.2 圖像生成實驗及分析
3.2.1 數(shù)據(jù)集簡介
3.2.2 實驗設(shè)計及評估標(biāo)準(zhǔn)
3.2.3 實驗結(jié)果及分析
3.3 本章小結(jié)
第4章 監(jiān)督注意力級聯(lián)細(xì)化網(wǎng)絡(luò)
4.1 監(jiān)督注意力模型
4.1.1 維度匹配
4.1.2 模型設(shè)計
4.1.3 同Pix2pix HD模型對比
4.2 圖像生成實驗及分析
4.2.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
4.2.2 實驗結(jié)果及分析
4.3 本章小結(jié)
第5章 生成圖像實例分割
5.1 改進Mask Scoring R-CNN實例分割模型
5.1.1 語義分割與實例分割
5.1.2 自適配歸一化改進Mask Scoring R-CNN
5.2 實例分割實驗
5.2.1 真實圖像的實例分割
5.2.2 生成圖像的實例分割
5.3 本章小結(jié)
第6章 基于監(jiān)督注意力的文本到圖像生成
6.1 場景圖生成圖像
6.1.1 基于圖卷積和級聯(lián)細(xì)化網(wǎng)絡(luò)的Sg2im模型
6.1.2 引入監(jiān)督注意力的Sg2im模型
6.2 文本生成圖像實驗
6.2.1 實驗設(shè)計及評估
6.2.2 實驗結(jié)果與分析
6.3 本章小結(jié)
第7章 總結(jié)與展望
7.1 論文總結(jié)
7.2 研究展望
參考文獻
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
【參考文獻】:
期刊論文
[1]一種融合AutoEncoder與CNN的混合算法用于圖像特征提取[J]. 劉興旺,王江晴,徐科. 計算機應(yīng)用研究. 2017(12)
[2]博弈論與納什均衡[J]. 郭鵬,楊曉琴. 哈爾濱師范大學(xué)自然科學(xué)學(xué)報. 2006(04)
碩士論文
[1]基于生成對抗網(wǎng)絡(luò)的文本生成圖像技術(shù)研究[D]. 陳鑫晶.華僑大學(xué) 2019
[2]目標(biāo)識別技術(shù)在機器人視覺系統(tǒng)中的應(yīng)用研究[D]. 江彤彤.齊魯工業(yè)大學(xué) 2018
本文編號:3173771
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3173771.html
最近更新
教材專著