基于生成對抗網(wǎng)絡(luò)的自監(jiān)督表示學習研究及應(yīng)用
發(fā)布時間:2020-10-10 16:47
信息處理任務(wù)的難易程度取決于信息被呈現(xiàn)的方式,這一原則無論對日常生活還是對計算機科學都適用。機器學習方法的性能更是重度依賴于數(shù)據(jù)表示(或特征表示)根據(jù)應(yīng)用場景的選擇。表示學習嘗試學習一種數(shù)據(jù)表示,它抽取有用信息,即尋找從高維形式到潛向量這種低維形式的映射。表示學習是一種提取樣本特征的特殊降維,這種降維使得分類器或其它預(yù)測模型更為有效。學習有效的表示映射及其逆映射在圖像處理和圖像理解研究中都是極為重要的問題。本文基于深度卷積神經(jīng)網(wǎng)絡(luò)框架和生成對抗網(wǎng)絡(luò)理論,主要關(guān)注和討論了表示學習領(lǐng)域的一些挑戰(zhàn)性問題。本文的創(chuàng)新性成果主要包括如下內(nèi)容:1.針對表示學習方法中常見的信息丟失和語義不明確等問題,利用數(shù)據(jù)流形的自然聚類性質(zhì),提出了基于生成對抗網(wǎng)絡(luò)的表示學習方法。學習有效的表示映射及其逆映射是一個極為重要的問題,然而大多數(shù)表示學習算法都需要在盡可能多地保留與輸入相關(guān)的信息和追求良好的性質(zhì)(如獨立性)之間作出權(quán)衡。表示學習中較為常見的信息丟失的難題在圖像層面體現(xiàn)為經(jīng)過表示映射和逆映射的重構(gòu)過程后不可避免的局部模糊。為了解決這一問題,本文在自編碼器的結(jié)構(gòu)中創(chuàng)新性地引入了生成對抗網(wǎng)絡(luò)的結(jié)構(gòu),構(gòu)造了一種新型的生成對抗自編碼器(generative adversarial auto-encoder,GAAE)。考慮到卷積神經(jīng)網(wǎng)絡(luò)在圖像表示學習中表現(xiàn)出的優(yōu)異性質(zhì),本文在生成對抗自編碼器的模型中大量采用了卷積結(jié)構(gòu)以高效地完成圖片樣本的表示學習任務(wù)。通過樣本融合實驗和生成分布的連續(xù)性實驗,驗證了模型學習到的表示的連續(xù)性,即生成對抗自編碼器學習到的映射的像空間是一個接近訓練集分布的連續(xù)流形。2.針對圖像到圖像的轉(zhuǎn)換問題中成對樣本難以獲取的問題,提出了基于特征保持條件生成對抗網(wǎng)絡(luò)(identity preserving conditional generative adversarial networks,IPcGAN)的圖像翻譯模型。圖像到圖像的轉(zhuǎn)換(image-to-imagetranslation)是計算機視覺的一類問題,該問題嘗試利用成對的訓練集樣本來學習從源域(source-domain)到目標域(target-domain)的映射。然而,對于大部分任務(wù)而言,收集成對訓練樣本的代價極大,為了解決這一難題,本文引入了生成對抗網(wǎng)絡(luò)和分步訓練,通過“訓練條件生成對抗網(wǎng)絡(luò)”、“生成數(shù)據(jù)集”、“訓練編碼器”的步驟,在缺少成對樣本的前提下學習像素空間中從源域Ds到目標域Dt的變換映射G。對抗損失函數(shù)(adversarial loss)的引入保證了學習到的映射G滿足條件:G(Ds)中的樣本構(gòu)成的分布趨近于目標域Dt的分布。3.針對圖像到圖像的轉(zhuǎn)換過程中樣本身份特征難以保持的問題,提出了兩種可選的后置處理過程。為了解決圖像到圖像的轉(zhuǎn)換過程中樣本身份信息丟失的問題,引入了兩種可選的后置處理過程:用聯(lián)合損失函數(shù)對網(wǎng)絡(luò)參數(shù)進行微調(diào)(fine-tune)或用掩模(masking)技術(shù)對圖片進行后置處理,兩種后置處理都能在盡可能保持樣本身份信息的同時修改樣本的其他屬性。其次,用定性和定量的多組實驗來評估算法,用潛空間上的向量插值實驗驗證了生成分布的連續(xù)性;在重構(gòu)任務(wù)上將模型與變分自編碼生成對抗網(wǎng)絡(luò)(variational auto-encoder generative adversarial networks,VAE-GAN)進行了比較,重構(gòu)結(jié)果明顯優(yōu)于后者;用開源的人臉識別軟件Openface[1]檢驗了修改屬性后人臉身份信息的完整性;用 Inception Score(IS)和 Frechet Inception Distance(FID)[3]檢測了生成樣本的質(zhì)量并與其它主流生成模型進行了比較,驗證了模型在人臉屬性修改任務(wù)中可以生成質(zhì)量良好的人臉圖片。
【學位單位】:浙江大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP391.41;TP18
【部分圖文】:
遷移學習是一種挖掘并利用不同學習任務(wù)間的共性的學習算法,這些學習任務(wù)間可以??通過遷移學習來共享統(tǒng)計信息。表示學習在遷移學習場景中的潛力已經(jīng)被很多的經(jīng)驗性結(jié)??果所驗證。如圖1-1所示,表示學習模型學習到一些可解釋因子(中間的隱藏層),其中一??些子集可以解釋輸入數(shù)據(jù),一些子集可以解釋不同任務(wù)的目標,因為這些子集是部分重疊??的,所以會共享部分統(tǒng)計信息,有利于泛化。??遷移學習問題廣泛存在于各種實際應(yīng)用中,如計算機視覺l27-3Q】、自然語言處理[31]和??情感分析【32,33】等。4.2節(jié)更詳細地介紹了遷移學習的概念和研究現(xiàn)狀。??表示學習在遷移學習(transfer?learning)的挑戰(zhàn)賽中表現(xiàn)優(yōu)異134,35],在域自適應(yīng)??(domainadaptation)方面3,表示學習也取得了很多成功的應(yīng)用125,36]。在多任務(wù)學習(multi-??tasklearning)方面,由于可以在任務(wù)間共享信息,表示學習表現(xiàn)出了其獨特的優(yōu)越性??3域自適應(yīng)指目標分布保持不變
將公式(2-1)中的閾值0記為u,0,令.t〇?=?—1,公式(2-1)即簡化成(2-2)。感知機模型可??以利用有監(jiān)督學習實現(xiàn)權(quán)重項和偏置項的自動調(diào)整,這種學習能力成為了很多復(fù)雜算法??的基礎(chǔ)。如圖2-1所示,人工神經(jīng)網(wǎng)絡(luò)就是包含一個或者多個隱含層的多層感知機。圖??中x,:(i?=?表示輸入信號,叫(?'?=?l,...,n)表示各輸入信號的連接權(quán)重,6表示偏置??項,c=X^=1u;,.x2?+?b,a為激活函數(shù),y?=?a(c)?=?a(E丨+?為輸出信號。??X1?\?f?1??x??xm?b?'???J??n??圖2-1人工神經(jīng)網(wǎng)絡(luò)模型。3"辦=1.....n)表示輸入信號,叫(i?=?1,....n)表示各輸入信號的連接??權(quán)重,6表示偏置項,+6,?〇為激活函數(shù),以:咖卜^乙二叫心+^為輸出信號。??1986年,為了解決多層神經(jīng)網(wǎng)絡(luò)中計算量過于復(fù)雜的問題,Rumelhar等人提出了反向??傳播算法[38】。反向傳播算法分兩步進行,即(1)正向傳播:輸入的信號x?士??=?1.....m)經(jīng)??過隱含層神經(jīng)元傳向輸出層。在傳播過程中,每層神經(jīng)元狀態(tài)只受上一層神經(jīng)元影響,即??相鄰兩層神經(jīng)元構(gòu)成一個基本單元。輸出層信號與期望信號比較后得到誤差信號
經(jīng)網(wǎng)絡(luò)層級聯(lián)而成,每層神經(jīng)網(wǎng)絡(luò)由簡單細胞單元(S-cell)?(7S及復(fù)雜細胞單元(C-cell)??隊相間分布而成,這種交替分布的形式是模仿生物簡單細胞中的處理機制而設(shè)計的,其結(jié)??構(gòu)示意圖如圖2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??圖2-3神經(jīng)感知器示意圖。%表示輸入層,其后簡單細胞單元及復(fù)雜細胞單元(C-cell)?%相??間分布。??卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的人工神經(jīng)網(wǎng)絡(luò),它通過局部連接和權(quán)值共享大大減少了網(wǎng)??絡(luò)參數(shù),同時又保留了網(wǎng)絡(luò)的深層結(jié)構(gòu),這種類似生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)降低了訓練難度,??又提高了泛化能力。這種網(wǎng)絡(luò)結(jié)構(gòu)對圖像的平移、縮放、旋轉(zhuǎn)都具有高度魯棒性,且三維??圖像可以直接作為網(wǎng)絡(luò)的輸入。??有兩大關(guān)鍵的設(shè)計思想推動了卷積結(jié)構(gòu)在計算機視覺領(lǐng)域的成功。第一,卷積神經(jīng)網(wǎng)??絡(luò)利用了圖像的2D結(jié)構(gòu),并且利用了圖像相鄰區(qū)域內(nèi)的像素通常高度相關(guān)這一特性。因??此,區(qū)別于大多數(shù)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)無需使用所有像素單元之間的一對一連接,而??。??
【參考文獻】
本文編號:2835329
【學位單位】:浙江大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP391.41;TP18
【部分圖文】:
遷移學習是一種挖掘并利用不同學習任務(wù)間的共性的學習算法,這些學習任務(wù)間可以??通過遷移學習來共享統(tǒng)計信息。表示學習在遷移學習場景中的潛力已經(jīng)被很多的經(jīng)驗性結(jié)??果所驗證。如圖1-1所示,表示學習模型學習到一些可解釋因子(中間的隱藏層),其中一??些子集可以解釋輸入數(shù)據(jù),一些子集可以解釋不同任務(wù)的目標,因為這些子集是部分重疊??的,所以會共享部分統(tǒng)計信息,有利于泛化。??遷移學習問題廣泛存在于各種實際應(yīng)用中,如計算機視覺l27-3Q】、自然語言處理[31]和??情感分析【32,33】等。4.2節(jié)更詳細地介紹了遷移學習的概念和研究現(xiàn)狀。??表示學習在遷移學習(transfer?learning)的挑戰(zhàn)賽中表現(xiàn)優(yōu)異134,35],在域自適應(yīng)??(domainadaptation)方面3,表示學習也取得了很多成功的應(yīng)用125,36]。在多任務(wù)學習(multi-??tasklearning)方面,由于可以在任務(wù)間共享信息,表示學習表現(xiàn)出了其獨特的優(yōu)越性??3域自適應(yīng)指目標分布保持不變
將公式(2-1)中的閾值0記為u,0,令.t〇?=?—1,公式(2-1)即簡化成(2-2)。感知機模型可??以利用有監(jiān)督學習實現(xiàn)權(quán)重項和偏置項的自動調(diào)整,這種學習能力成為了很多復(fù)雜算法??的基礎(chǔ)。如圖2-1所示,人工神經(jīng)網(wǎng)絡(luò)就是包含一個或者多個隱含層的多層感知機。圖??中x,:(i?=?表示輸入信號,叫(?'?=?l,...,n)表示各輸入信號的連接權(quán)重,6表示偏置??項,c=X^=1u;,.x2?+?b,a為激活函數(shù),y?=?a(c)?=?a(E丨+?為輸出信號。??X1?\?f?1??x??xm?b?'???J??n??圖2-1人工神經(jīng)網(wǎng)絡(luò)模型。3"辦=1.....n)表示輸入信號,叫(i?=?1,....n)表示各輸入信號的連接??權(quán)重,6表示偏置項,+6,?〇為激活函數(shù),以:咖卜^乙二叫心+^為輸出信號。??1986年,為了解決多層神經(jīng)網(wǎng)絡(luò)中計算量過于復(fù)雜的問題,Rumelhar等人提出了反向??傳播算法[38】。反向傳播算法分兩步進行,即(1)正向傳播:輸入的信號x?士??=?1.....m)經(jīng)??過隱含層神經(jīng)元傳向輸出層。在傳播過程中,每層神經(jīng)元狀態(tài)只受上一層神經(jīng)元影響,即??相鄰兩層神經(jīng)元構(gòu)成一個基本單元。輸出層信號與期望信號比較后得到誤差信號
經(jīng)網(wǎng)絡(luò)層級聯(lián)而成,每層神經(jīng)網(wǎng)絡(luò)由簡單細胞單元(S-cell)?(7S及復(fù)雜細胞單元(C-cell)??隊相間分布而成,這種交替分布的形式是模仿生物簡單細胞中的處理機制而設(shè)計的,其結(jié)??構(gòu)示意圖如圖2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??圖2-3神經(jīng)感知器示意圖。%表示輸入層,其后簡單細胞單元及復(fù)雜細胞單元(C-cell)?%相??間分布。??卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的人工神經(jīng)網(wǎng)絡(luò),它通過局部連接和權(quán)值共享大大減少了網(wǎng)??絡(luò)參數(shù),同時又保留了網(wǎng)絡(luò)的深層結(jié)構(gòu),這種類似生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)降低了訓練難度,??又提高了泛化能力。這種網(wǎng)絡(luò)結(jié)構(gòu)對圖像的平移、縮放、旋轉(zhuǎn)都具有高度魯棒性,且三維??圖像可以直接作為網(wǎng)絡(luò)的輸入。??有兩大關(guān)鍵的設(shè)計思想推動了卷積結(jié)構(gòu)在計算機視覺領(lǐng)域的成功。第一,卷積神經(jīng)網(wǎng)??絡(luò)利用了圖像的2D結(jié)構(gòu),并且利用了圖像相鄰區(qū)域內(nèi)的像素通常高度相關(guān)這一特性。因??此,區(qū)別于大多數(shù)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)無需使用所有像素單元之間的一對一連接,而??。??
【參考文獻】
相關(guān)期刊論文 前1條
1 黃凱奇;任偉強;譚鐵牛;;圖像物體分類與檢測算法綜述[J];計算機學報;2014年06期
本文編號:2835329
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2835329.html
最近更新
教材專著