基于生成對(duì)抗網(wǎng)絡(luò)的自監(jiān)督表示學(xué)習(xí)研究及應(yīng)用
發(fā)布時(shí)間:2020-10-10 16:47
信息處理任務(wù)的難易程度取決于信息被呈現(xiàn)的方式,這一原則無論對(duì)日常生活還是對(duì)計(jì)算機(jī)科學(xué)都適用。機(jī)器學(xué)習(xí)方法的性能更是重度依賴于數(shù)據(jù)表示(或特征表示)根據(jù)應(yīng)用場(chǎng)景的選擇。表示學(xué)習(xí)嘗試學(xué)習(xí)一種數(shù)據(jù)表示,它抽取有用信息,即尋找從高維形式到潛向量這種低維形式的映射。表示學(xué)習(xí)是一種提取樣本特征的特殊降維,這種降維使得分類器或其它預(yù)測(cè)模型更為有效。學(xué)習(xí)有效的表示映射及其逆映射在圖像處理和圖像理解研究中都是極為重要的問題。本文基于深度卷積神經(jīng)網(wǎng)絡(luò)框架和生成對(duì)抗網(wǎng)絡(luò)理論,主要關(guān)注和討論了表示學(xué)習(xí)領(lǐng)域的一些挑戰(zhàn)性問題。本文的創(chuàng)新性成果主要包括如下內(nèi)容:1.針對(duì)表示學(xué)習(xí)方法中常見的信息丟失和語義不明確等問題,利用數(shù)據(jù)流形的自然聚類性質(zhì),提出了基于生成對(duì)抗網(wǎng)絡(luò)的表示學(xué)習(xí)方法。學(xué)習(xí)有效的表示映射及其逆映射是一個(gè)極為重要的問題,然而大多數(shù)表示學(xué)習(xí)算法都需要在盡可能多地保留與輸入相關(guān)的信息和追求良好的性質(zhì)(如獨(dú)立性)之間作出權(quán)衡。表示學(xué)習(xí)中較為常見的信息丟失的難題在圖像層面體現(xiàn)為經(jīng)過表示映射和逆映射的重構(gòu)過程后不可避免的局部模糊。為了解決這一問題,本文在自編碼器的結(jié)構(gòu)中創(chuàng)新性地引入了生成對(duì)抗網(wǎng)絡(luò)的結(jié)構(gòu),構(gòu)造了一種新型的生成對(duì)抗自編碼器(generative adversarial auto-encoder,GAAE)?紤]到卷積神經(jīng)網(wǎng)絡(luò)在圖像表示學(xué)習(xí)中表現(xiàn)出的優(yōu)異性質(zhì),本文在生成對(duì)抗自編碼器的模型中大量采用了卷積結(jié)構(gòu)以高效地完成圖片樣本的表示學(xué)習(xí)任務(wù)。通過樣本融合實(shí)驗(yàn)和生成分布的連續(xù)性實(shí)驗(yàn),驗(yàn)證了模型學(xué)習(xí)到的表示的連續(xù)性,即生成對(duì)抗自編碼器學(xué)習(xí)到的映射的像空間是一個(gè)接近訓(xùn)練集分布的連續(xù)流形。2.針對(duì)圖像到圖像的轉(zhuǎn)換問題中成對(duì)樣本難以獲取的問題,提出了基于特征保持條件生成對(duì)抗網(wǎng)絡(luò)(identity preserving conditional generative adversarial networks,IPcGAN)的圖像翻譯模型。圖像到圖像的轉(zhuǎn)換(image-to-imagetranslation)是計(jì)算機(jī)視覺的一類問題,該問題嘗試?yán)贸蓪?duì)的訓(xùn)練集樣本來學(xué)習(xí)從源域(source-domain)到目標(biāo)域(target-domain)的映射。然而,對(duì)于大部分任務(wù)而言,收集成對(duì)訓(xùn)練樣本的代價(jià)極大,為了解決這一難題,本文引入了生成對(duì)抗網(wǎng)絡(luò)和分步訓(xùn)練,通過“訓(xùn)練條件生成對(duì)抗網(wǎng)絡(luò)”、“生成數(shù)據(jù)集”、“訓(xùn)練編碼器”的步驟,在缺少成對(duì)樣本的前提下學(xué)習(xí)像素空間中從源域Ds到目標(biāo)域Dt的變換映射G。對(duì)抗損失函數(shù)(adversarial loss)的引入保證了學(xué)習(xí)到的映射G滿足條件:G(Ds)中的樣本構(gòu)成的分布趨近于目標(biāo)域Dt的分布。3.針對(duì)圖像到圖像的轉(zhuǎn)換過程中樣本身份特征難以保持的問題,提出了兩種可選的后置處理過程。為了解決圖像到圖像的轉(zhuǎn)換過程中樣本身份信息丟失的問題,引入了兩種可選的后置處理過程:用聯(lián)合損失函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)(fine-tune)或用掩模(masking)技術(shù)對(duì)圖片進(jìn)行后置處理,兩種后置處理都能在盡可能保持樣本身份信息的同時(shí)修改樣本的其他屬性。其次,用定性和定量的多組實(shí)驗(yàn)來評(píng)估算法,用潛空間上的向量插值實(shí)驗(yàn)驗(yàn)證了生成分布的連續(xù)性;在重構(gòu)任務(wù)上將模型與變分自編碼生成對(duì)抗網(wǎng)絡(luò)(variational auto-encoder generative adversarial networks,VAE-GAN)進(jìn)行了比較,重構(gòu)結(jié)果明顯優(yōu)于后者;用開源的人臉識(shí)別軟件Openface[1]檢驗(yàn)了修改屬性后人臉身份信息的完整性;用 Inception Score(IS)和 Frechet Inception Distance(FID)[3]檢測(cè)了生成樣本的質(zhì)量并與其它主流生成模型進(jìn)行了比較,驗(yàn)證了模型在人臉屬性修改任務(wù)中可以生成質(zhì)量良好的人臉圖片。
【學(xué)位單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;TP18
【部分圖文】:
遷移學(xué)習(xí)是一種挖掘并利用不同學(xué)習(xí)任務(wù)間的共性的學(xué)習(xí)算法,這些學(xué)習(xí)任務(wù)間可以??通過遷移學(xué)習(xí)來共享統(tǒng)計(jì)信息。表示學(xué)習(xí)在遷移學(xué)習(xí)場(chǎng)景中的潛力已經(jīng)被很多的經(jīng)驗(yàn)性結(jié)??果所驗(yàn)證。如圖1-1所示,表示學(xué)習(xí)模型學(xué)習(xí)到一些可解釋因子(中間的隱藏層),其中一??些子集可以解釋輸入數(shù)據(jù),一些子集可以解釋不同任務(wù)的目標(biāo),因?yàn)檫@些子集是部分重疊??的,所以會(huì)共享部分統(tǒng)計(jì)信息,有利于泛化。??遷移學(xué)習(xí)問題廣泛存在于各種實(shí)際應(yīng)用中,如計(jì)算機(jī)視覺l27-3Q】、自然語言處理[31]和??情感分析【32,33】等。4.2節(jié)更詳細(xì)地介紹了遷移學(xué)習(xí)的概念和研究現(xiàn)狀。??表示學(xué)習(xí)在遷移學(xué)習(xí)(transfer?learning)的挑戰(zhàn)賽中表現(xiàn)優(yōu)異134,35],在域自適應(yīng)??(domainadaptation)方面3,表示學(xué)習(xí)也取得了很多成功的應(yīng)用125,36]。在多任務(wù)學(xué)習(xí)(multi-??tasklearning)方面,由于可以在任務(wù)間共享信息,表示學(xué)習(xí)表現(xiàn)出了其獨(dú)特的優(yōu)越性??3域自適應(yīng)指目標(biāo)分布保持不變
將公式(2-1)中的閾值0記為u,0,令.t〇?=?—1,公式(2-1)即簡(jiǎn)化成(2-2)。感知機(jī)模型可??以利用有監(jiān)督學(xué)習(xí)實(shí)現(xiàn)權(quán)重項(xiàng)和偏置項(xiàng)的自動(dòng)調(diào)整,這種學(xué)習(xí)能力成為了很多復(fù)雜算法??的基礎(chǔ)。如圖2-1所示,人工神經(jīng)網(wǎng)絡(luò)就是包含一個(gè)或者多個(gè)隱含層的多層感知機(jī)。圖??中x,:(i?=?表示輸入信號(hào),叫(?'?=?l,...,n)表示各輸入信號(hào)的連接權(quán)重,6表示偏置??項(xiàng),c=X^=1u;,.x2?+?b,a為激活函數(shù),y?=?a(c)?=?a(E丨+?為輸出信號(hào)。??X1?\?f?1??x??xm?b?'???J??n??圖2-1人工神經(jīng)網(wǎng)絡(luò)模型。3"辦=1.....n)表示輸入信號(hào),叫(i?=?1,....n)表示各輸入信號(hào)的連接??權(quán)重,6表示偏置項(xiàng),+6,?〇為激活函數(shù),以:咖卜^乙二叫心+^為輸出信號(hào)。??1986年,為了解決多層神經(jīng)網(wǎng)絡(luò)中計(jì)算量過于復(fù)雜的問題,Rumelhar等人提出了反向??傳播算法[38】。反向傳播算法分兩步進(jìn)行,即(1)正向傳播:輸入的信號(hào)x?士??=?1.....m)經(jīng)??過隱含層神經(jīng)元傳向輸出層。在傳播過程中,每層神經(jīng)元狀態(tài)只受上一層神經(jīng)元影響,即??相鄰兩層神經(jīng)元構(gòu)成一個(gè)基本單元。輸出層信號(hào)與期望信號(hào)比較后得到誤差信號(hào)
經(jīng)網(wǎng)絡(luò)層級(jí)聯(lián)而成,每層神經(jīng)網(wǎng)絡(luò)由簡(jiǎn)單細(xì)胞單元(S-cell)?(7S及復(fù)雜細(xì)胞單元(C-cell)??隊(duì)相間分布而成,這種交替分布的形式是模仿生物簡(jiǎn)單細(xì)胞中的處理機(jī)制而設(shè)計(jì)的,其結(jié)??構(gòu)示意圖如圖2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??圖2-3神經(jīng)感知器示意圖。%表示輸入層,其后簡(jiǎn)單細(xì)胞單元及復(fù)雜細(xì)胞單元(C-cell)?%相??間分布。??卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的人工神經(jīng)網(wǎng)絡(luò),它通過局部連接和權(quán)值共享大大減少了網(wǎng)??絡(luò)參數(shù),同時(shí)又保留了網(wǎng)絡(luò)的深層結(jié)構(gòu),這種類似生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)降低了訓(xùn)練難度,??又提高了泛化能力。這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像的平移、縮放、旋轉(zhuǎn)都具有高度魯棒性,且三維??圖像可以直接作為網(wǎng)絡(luò)的輸入。??有兩大關(guān)鍵的設(shè)計(jì)思想推動(dòng)了卷積結(jié)構(gòu)在計(jì)算機(jī)視覺領(lǐng)域的成功。第一,卷積神經(jīng)網(wǎng)??絡(luò)利用了圖像的2D結(jié)構(gòu),并且利用了圖像相鄰區(qū)域內(nèi)的像素通常高度相關(guān)這一特性。因??此,區(qū)別于大多數(shù)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)無需使用所有像素單元之間的一對(duì)一連接,而??。??
【參考文獻(xiàn)】
本文編號(hào):2835329
【學(xué)位單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;TP18
【部分圖文】:
遷移學(xué)習(xí)是一種挖掘并利用不同學(xué)習(xí)任務(wù)間的共性的學(xué)習(xí)算法,這些學(xué)習(xí)任務(wù)間可以??通過遷移學(xué)習(xí)來共享統(tǒng)計(jì)信息。表示學(xué)習(xí)在遷移學(xué)習(xí)場(chǎng)景中的潛力已經(jīng)被很多的經(jīng)驗(yàn)性結(jié)??果所驗(yàn)證。如圖1-1所示,表示學(xué)習(xí)模型學(xué)習(xí)到一些可解釋因子(中間的隱藏層),其中一??些子集可以解釋輸入數(shù)據(jù),一些子集可以解釋不同任務(wù)的目標(biāo),因?yàn)檫@些子集是部分重疊??的,所以會(huì)共享部分統(tǒng)計(jì)信息,有利于泛化。??遷移學(xué)習(xí)問題廣泛存在于各種實(shí)際應(yīng)用中,如計(jì)算機(jī)視覺l27-3Q】、自然語言處理[31]和??情感分析【32,33】等。4.2節(jié)更詳細(xì)地介紹了遷移學(xué)習(xí)的概念和研究現(xiàn)狀。??表示學(xué)習(xí)在遷移學(xué)習(xí)(transfer?learning)的挑戰(zhàn)賽中表現(xiàn)優(yōu)異134,35],在域自適應(yīng)??(domainadaptation)方面3,表示學(xué)習(xí)也取得了很多成功的應(yīng)用125,36]。在多任務(wù)學(xué)習(xí)(multi-??tasklearning)方面,由于可以在任務(wù)間共享信息,表示學(xué)習(xí)表現(xiàn)出了其獨(dú)特的優(yōu)越性??3域自適應(yīng)指目標(biāo)分布保持不變
將公式(2-1)中的閾值0記為u,0,令.t〇?=?—1,公式(2-1)即簡(jiǎn)化成(2-2)。感知機(jī)模型可??以利用有監(jiān)督學(xué)習(xí)實(shí)現(xiàn)權(quán)重項(xiàng)和偏置項(xiàng)的自動(dòng)調(diào)整,這種學(xué)習(xí)能力成為了很多復(fù)雜算法??的基礎(chǔ)。如圖2-1所示,人工神經(jīng)網(wǎng)絡(luò)就是包含一個(gè)或者多個(gè)隱含層的多層感知機(jī)。圖??中x,:(i?=?表示輸入信號(hào),叫(?'?=?l,...,n)表示各輸入信號(hào)的連接權(quán)重,6表示偏置??項(xiàng),c=X^=1u;,.x2?+?b,a為激活函數(shù),y?=?a(c)?=?a(E丨+?為輸出信號(hào)。??X1?\?f?1??x??xm?b?'???J??n??圖2-1人工神經(jīng)網(wǎng)絡(luò)模型。3"辦=1.....n)表示輸入信號(hào),叫(i?=?1,....n)表示各輸入信號(hào)的連接??權(quán)重,6表示偏置項(xiàng),+6,?〇為激活函數(shù),以:咖卜^乙二叫心+^為輸出信號(hào)。??1986年,為了解決多層神經(jīng)網(wǎng)絡(luò)中計(jì)算量過于復(fù)雜的問題,Rumelhar等人提出了反向??傳播算法[38】。反向傳播算法分兩步進(jìn)行,即(1)正向傳播:輸入的信號(hào)x?士??=?1.....m)經(jīng)??過隱含層神經(jīng)元傳向輸出層。在傳播過程中,每層神經(jīng)元狀態(tài)只受上一層神經(jīng)元影響,即??相鄰兩層神經(jīng)元構(gòu)成一個(gè)基本單元。輸出層信號(hào)與期望信號(hào)比較后得到誤差信號(hào)
經(jīng)網(wǎng)絡(luò)層級(jí)聯(lián)而成,每層神經(jīng)網(wǎng)絡(luò)由簡(jiǎn)單細(xì)胞單元(S-cell)?(7S及復(fù)雜細(xì)胞單元(C-cell)??隊(duì)相間分布而成,這種交替分布的形式是模仿生物簡(jiǎn)單細(xì)胞中的處理機(jī)制而設(shè)計(jì)的,其結(jié)??構(gòu)示意圖如圖2-3所示。??>J\?;?:?W?M1?!?\V/?;:;:??圖2-3神經(jīng)感知器示意圖。%表示輸入層,其后簡(jiǎn)單細(xì)胞單元及復(fù)雜細(xì)胞單元(C-cell)?%相??間分布。??卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的人工神經(jīng)網(wǎng)絡(luò),它通過局部連接和權(quán)值共享大大減少了網(wǎng)??絡(luò)參數(shù),同時(shí)又保留了網(wǎng)絡(luò)的深層結(jié)構(gòu),這種類似生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)降低了訓(xùn)練難度,??又提高了泛化能力。這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)圖像的平移、縮放、旋轉(zhuǎn)都具有高度魯棒性,且三維??圖像可以直接作為網(wǎng)絡(luò)的輸入。??有兩大關(guān)鍵的設(shè)計(jì)思想推動(dòng)了卷積結(jié)構(gòu)在計(jì)算機(jī)視覺領(lǐng)域的成功。第一,卷積神經(jīng)網(wǎng)??絡(luò)利用了圖像的2D結(jié)構(gòu),并且利用了圖像相鄰區(qū)域內(nèi)的像素通常高度相關(guān)這一特性。因??此,區(qū)別于大多數(shù)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)無需使用所有像素單元之間的一對(duì)一連接,而??。??
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 黃凱奇;任偉強(qiáng);譚鐵牛;;圖像物體分類與檢測(cè)算法綜述[J];計(jì)算機(jī)學(xué)報(bào);2014年06期
本文編號(hào):2835329
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2835329.html
最近更新
教材專著