基于自注意力生成對抗網(wǎng)絡的文本生成圖像研究
發(fā)布時間:2023-12-11 18:39
目前,人工智能領域的發(fā)展備受人們的關注,這都歸功于深度學習技術在近幾年來取得的突破性進展,特別是與神經(jīng)網(wǎng)絡技術相關的研究取得的重大突破。在計算機視覺領域,深度學習技術已經(jīng)在圖像識別、圖像分類、圖像分割以及圖像的語義描述等方向大放異彩,并展現(xiàn)出高于機器學習技術數(shù)倍的性能。然而,計算機視覺中的圖像生成問題時至今日仍是一項艱巨的挑戰(zhàn),這是由于早期生成式模型的研究一直鮮有突破,利用圖像類別甚至是文本描述作為條件來控制神經(jīng)網(wǎng)絡模型進行圖像的生成則更是難上加難。令人振奮的是,生成對抗網(wǎng)絡技術的提出為利用文本生成圖像這一問題提供了很好的解決方案,并且生成對抗網(wǎng)絡技術本身在近幾年之間也不斷被改進與優(yōu)化,性能得到了大幅度的提升。眾所周知,生成對抗網(wǎng)絡在圖像生成領域有著極佳的表現(xiàn),模型本身具有易理解、易實現(xiàn)的架構優(yōu)勢,并且還能夠生成原有方案無可比擬的真實性的圖像。然而,生成對抗網(wǎng)絡得益于其獨特的訓練方式的同時,也被其訓練方式所約束,許多研究學者在實驗中均發(fā)現(xiàn)原始生成對抗網(wǎng)絡存在訓練不穩(wěn)定以及模式坍塌等問題。即便是最新的基于生成對抗網(wǎng)絡的文本生成圖像的工作當中,其模型仍存在這一問題,從而導致模型生成圖像的能...
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 研究問題與主要挑戰(zhàn)
1.2.1 研究的主要問題
1.2.2 研究的主要挑戰(zhàn)
1.3 生成對抗網(wǎng)絡研究現(xiàn)狀
1.4 本文工作及主要貢獻
1.5 本文組織結構
2 生成對抗網(wǎng)絡與文本生成圖像相關理論
2.1 神經(jīng)網(wǎng)絡理論
2.1.1 人工神經(jīng)網(wǎng)絡
2.1.2 卷積神經(jīng)網(wǎng)絡
2.1.3 反卷積神經(jīng)網(wǎng)絡
2.2 生成對抗網(wǎng)絡相關理論
2.3 文本生成圖像相關理論
2.3.1 文本描述的向量化
2.4 數(shù)據(jù)集的選取以及實驗結果評估標準
2.4.1 數(shù)據(jù)集的選取
2.4.2 實驗結果評估標準
2.5 本章小結
3 基于GAN-CLS算法的文本到圖像生成方法及其改進
3.1 引言
3.2 相關工作
3.3 基于GAN-CLS算法的文本生成圖像方法
3.4 GAN-CLS文本到圖像生成方法的改進
3.4.1 GAN-CLS中 DCGAN網(wǎng)絡的局限性
3.4.2 EM距離近似方法
3.4.3 GAN-CLS文本生成圖像算法損失函數(shù)的改進
3.5 實驗結果及分析
3.6 本章小結
4 基于自注意力機制的文本生成圖像方法
4.1 文本生成圖像中的注意力機制
4.2 注意力與自注意力機制相關理論
4.3 在文本生成圖像方案中引入自注意力機制
4.4 實驗結果及分析
4.4.1 實驗設置與細節(jié)
4.4.2 實驗結果與分析
4.5 本章小結
5 總結與展望
5.1 本文總結
5.2 未來展望
參考文獻
附錄
A 作者在攻讀學位期間發(fā)表的論文目錄
B 作者在攻讀學位期間發(fā)表的專利目錄
C 學位論文數(shù)據(jù)集
致謝
本文編號:3873135
【文章頁數(shù)】:78 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 研究問題與主要挑戰(zhàn)
1.2.1 研究的主要問題
1.2.2 研究的主要挑戰(zhàn)
1.3 生成對抗網(wǎng)絡研究現(xiàn)狀
1.4 本文工作及主要貢獻
1.5 本文組織結構
2 生成對抗網(wǎng)絡與文本生成圖像相關理論
2.1 神經(jīng)網(wǎng)絡理論
2.1.1 人工神經(jīng)網(wǎng)絡
2.1.2 卷積神經(jīng)網(wǎng)絡
2.1.3 反卷積神經(jīng)網(wǎng)絡
2.2 生成對抗網(wǎng)絡相關理論
2.3 文本生成圖像相關理論
2.3.1 文本描述的向量化
2.4 數(shù)據(jù)集的選取以及實驗結果評估標準
2.4.1 數(shù)據(jù)集的選取
2.4.2 實驗結果評估標準
2.5 本章小結
3 基于GAN-CLS算法的文本到圖像生成方法及其改進
3.1 引言
3.2 相關工作
3.3 基于GAN-CLS算法的文本生成圖像方法
3.4 GAN-CLS文本到圖像生成方法的改進
3.4.1 GAN-CLS中 DCGAN網(wǎng)絡的局限性
3.4.2 EM距離近似方法
3.4.3 GAN-CLS文本生成圖像算法損失函數(shù)的改進
3.5 實驗結果及分析
3.6 本章小結
4 基于自注意力機制的文本生成圖像方法
4.1 文本生成圖像中的注意力機制
4.2 注意力與自注意力機制相關理論
4.3 在文本生成圖像方案中引入自注意力機制
4.4 實驗結果及分析
4.4.1 實驗設置與細節(jié)
4.4.2 實驗結果與分析
4.5 本章小結
5 總結與展望
5.1 本文總結
5.2 未來展望
參考文獻
附錄
A 作者在攻讀學位期間發(fā)表的論文目錄
B 作者在攻讀學位期間發(fā)表的專利目錄
C 學位論文數(shù)據(jù)集
致謝
本文編號:3873135
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3873135.html
最近更新
教材專著