基于對(duì)抗網(wǎng)絡(luò)的跨模態(tài)檢索方法研究
發(fā)布時(shí)間:2021-06-16 15:15
隨著通信和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,多模態(tài)數(shù)據(jù)急劇增加。海量的多模態(tài)數(shù)據(jù)在方便用戶的同時(shí),也對(duì)信息檢索技術(shù)提出了新的挑戰(zhàn)。為了更好的滿足用戶對(duì)模態(tài)數(shù)據(jù)檢索的需求,同時(shí)使計(jì)算機(jī)具有模擬人腦對(duì)海量的多模態(tài)數(shù)據(jù)進(jìn)行認(rèn)知、學(xué)習(xí)以及推理決策的能力,跨模態(tài)檢索技術(shù)應(yīng)時(shí)而生。深度神經(jīng)網(wǎng)絡(luò)類似于多層非線性投影,擁有比淺層方法更強(qiáng)的映射能力,可以充分提取不同模態(tài)的多階抽象表示。其中,生成對(duì)抗網(wǎng)絡(luò)能有效擬合多模態(tài)數(shù)據(jù)的分布,更好地學(xué)習(xí)多模態(tài)數(shù)據(jù)的共同表示。本文在對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上,融合了字典學(xué)習(xí)、度量學(xué)習(xí)和對(duì)偶子空間的思想,有效捕捉多模態(tài)數(shù)據(jù)的結(jié)構(gòu)信息和語義信息,較好地消除了異構(gòu)鴻溝和語義鴻溝。本文工作和創(chuàng)新點(diǎn)如下:1.提出一種基于秩約束的語義一致性跨模態(tài)字典學(xué)習(xí)(Semantic Consistency cross-modal Dictionary learning algorithm with rank Constraint,SCDC)方法。該方法將l21范數(shù)和秩范數(shù)約束引入到字典學(xué)習(xí)中。隨后,我們引入生成對(duì)抗機(jī)制,提出一種基于字典學(xué)習(xí)的對(duì)抗跨模態(tài)檢索(Adversarial Cros...
【文章來源】:山東師范大學(xué)山東省
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
社交網(wǎng)絡(luò)上的圖像和文本資源
山東師范大學(xué)碩士學(xué)位論文7第二章生成對(duì)抗網(wǎng)絡(luò)概述近年來,隨著計(jì)算機(jī)硬件性能的提升和價(jià)格的下降,人工智能領(lǐng)域發(fā)展迅猛,生成模型作為該領(lǐng)域重要的分支,極具研究意義。尤其是生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),將生成模型的探索逐漸推向高潮。GAN可以估計(jì)數(shù)據(jù)樣本的潛在分布,構(gòu)建出符合該分布的模型,生成符合要求的多種數(shù)據(jù)類型的新樣本,并使得模型具有較好的自學(xué)習(xí)能力。相比于擬合數(shù)據(jù)的能力,GAN所提出的生成對(duì)抗的相關(guān)思想意義重大、成果矚目。本章將從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練機(jī)制三個(gè)方面詳細(xì)闡述GAN的博弈對(duì)抗思想,并探究其在跨模態(tài)檢索領(lǐng)域的應(yīng)用。2.1經(jīng)典的生成對(duì)抗網(wǎng)絡(luò)2.1.1網(wǎng)絡(luò)結(jié)構(gòu)GAN將博弈論作為理論基礎(chǔ),構(gòu)造了生成器(Generator,G)和判別器(Discriminator,D)兩個(gè)對(duì)抗者。其中,生成器G把服從先驗(yàn)概率分布的噪聲z作為輸入,盡可能擬合出一個(gè)類似于真實(shí)數(shù)據(jù)分布的新數(shù)據(jù)分布,用來欺騙D。判別器D把真實(shí)樣本x和G生成的樣本G(z;q)作為輸入,q代表網(wǎng)絡(luò)中的參數(shù),并盡可能的將兩種數(shù)據(jù)區(qū)分開。G和D相互對(duì)抗不斷迭代,直至達(dá)到納什均衡。以統(tǒng)計(jì)學(xué)的角度來看,G和D分布相當(dāng)于生成模型及判別模型。G利用最大似然估計(jì)對(duì)模型參數(shù)進(jìn)行訓(xùn)練,迫使G在構(gòu)造生成樣本時(shí)按指定的目標(biāo)進(jìn)行訓(xùn)練。而D類似于一個(gè)二分類器,辨別輸入數(shù)據(jù)來源于生成的還是真實(shí)的數(shù)據(jù)分布。圖2-1GAN的結(jié)構(gòu)示意圖
山東師范大學(xué)碩士學(xué)位論文10因?yàn)镴S散度具有非負(fù)性,當(dāng)且僅當(dāng)()()datagpx=px,上式的全局最小值為-log4。所以當(dāng)使得G的分布滿足()()gdatapx=px時(shí),尋得最優(yōu)生成器*G。2.1.3訓(xùn)練機(jī)制GAN的訓(xùn)練是一個(gè)交替迭代優(yōu)化的過程,具體來說,是在優(yōu)化k次D網(wǎng)絡(luò)參數(shù)和優(yōu)化一次G網(wǎng)絡(luò)參數(shù)之間交替進(jìn)行,從而保證G和D相互對(duì)抗,同步提升。工作機(jī)制如下:圖2-2GAN的工作機(jī)制示意圖。x和z分別表示數(shù)據(jù)空間和隱變量空間,兩者之間的箭頭表示映射x=G(z)。藍(lán)色虛線代表D,黑色虛線代表真實(shí)數(shù)據(jù)分布,綠色實(shí)線代表G生成樣本的數(shù)據(jù)分布。圖2-2(a)中,D是部分精準(zhǔn)分類器,可以部分辨別生成數(shù)據(jù)和真實(shí)數(shù)據(jù)。圖2-2(b)中,通過固定G優(yōu)化D,使得D的判別能力大幅度提升。圖2-2(c)中,固定D優(yōu)化G,生成數(shù)據(jù)的分布逐漸向真實(shí)數(shù)據(jù)分布靠近,G試圖混淆D辨別兩種數(shù)據(jù)。最終收斂于圖2-2(d),藍(lán)色虛線逐漸變?yōu)樗骄,D失去其判別能力,此時(shí),黑色虛線和綠色實(shí)線完全重合,網(wǎng)絡(luò)收斂。2.2GAN的改進(jìn)模型GAN自提出以來備受廣大研究者青睞,其應(yīng)用也滲透到了計(jì)算機(jī)視覺、生物醫(yī)療和信息安全等領(lǐng)域。如何訓(xùn)練GAN也成為極具挑戰(zhàn)的話題。GAN的訓(xùn)練主要存在以下兩個(gè)難點(diǎn):訓(xùn)練過程過于自由和原始目標(biāo)函數(shù)沒意義。理論上說,我們只要有一個(gè)滿足高斯分布的噪音輸入,一個(gè)真實(shí)的訓(xùn)練樣本集,兩個(gè)可以逼近函數(shù)的神經(jīng)網(wǎng)絡(luò)就可以構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]跨媒體深層細(xì)粒度關(guān)聯(lián)學(xué)習(xí)方法[J]. 卓昀侃,綦金瑋,彭宇新. 軟件學(xué)報(bào). 2019(04)
[2]多媒體內(nèi)容理解的研究現(xiàn)狀與展望[J]. 彭宇新,綦金瑋,黃鑫. 計(jì)算機(jī)研究與發(fā)展. 2019(01)
[3]An Angle Structure Descriptor for Image Retrieval[J]. Meng Zhao,Huaxiang Zhang,Lili Meng. 中國通信. 2016(08)
本文編號(hào):3233306
【文章來源】:山東師范大學(xué)山東省
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
社交網(wǎng)絡(luò)上的圖像和文本資源
山東師范大學(xué)碩士學(xué)位論文7第二章生成對(duì)抗網(wǎng)絡(luò)概述近年來,隨著計(jì)算機(jī)硬件性能的提升和價(jià)格的下降,人工智能領(lǐng)域發(fā)展迅猛,生成模型作為該領(lǐng)域重要的分支,極具研究意義。尤其是生成對(duì)抗網(wǎng)絡(luò)(GAN)的出現(xiàn),將生成模型的探索逐漸推向高潮。GAN可以估計(jì)數(shù)據(jù)樣本的潛在分布,構(gòu)建出符合該分布的模型,生成符合要求的多種數(shù)據(jù)類型的新樣本,并使得模型具有較好的自學(xué)習(xí)能力。相比于擬合數(shù)據(jù)的能力,GAN所提出的生成對(duì)抗的相關(guān)思想意義重大、成果矚目。本章將從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)和訓(xùn)練機(jī)制三個(gè)方面詳細(xì)闡述GAN的博弈對(duì)抗思想,并探究其在跨模態(tài)檢索領(lǐng)域的應(yīng)用。2.1經(jīng)典的生成對(duì)抗網(wǎng)絡(luò)2.1.1網(wǎng)絡(luò)結(jié)構(gòu)GAN將博弈論作為理論基礎(chǔ),構(gòu)造了生成器(Generator,G)和判別器(Discriminator,D)兩個(gè)對(duì)抗者。其中,生成器G把服從先驗(yàn)概率分布的噪聲z作為輸入,盡可能擬合出一個(gè)類似于真實(shí)數(shù)據(jù)分布的新數(shù)據(jù)分布,用來欺騙D。判別器D把真實(shí)樣本x和G生成的樣本G(z;q)作為輸入,q代表網(wǎng)絡(luò)中的參數(shù),并盡可能的將兩種數(shù)據(jù)區(qū)分開。G和D相互對(duì)抗不斷迭代,直至達(dá)到納什均衡。以統(tǒng)計(jì)學(xué)的角度來看,G和D分布相當(dāng)于生成模型及判別模型。G利用最大似然估計(jì)對(duì)模型參數(shù)進(jìn)行訓(xùn)練,迫使G在構(gòu)造生成樣本時(shí)按指定的目標(biāo)進(jìn)行訓(xùn)練。而D類似于一個(gè)二分類器,辨別輸入數(shù)據(jù)來源于生成的還是真實(shí)的數(shù)據(jù)分布。圖2-1GAN的結(jié)構(gòu)示意圖
山東師范大學(xué)碩士學(xué)位論文10因?yàn)镴S散度具有非負(fù)性,當(dāng)且僅當(dāng)()()datagpx=px,上式的全局最小值為-log4。所以當(dāng)使得G的分布滿足()()gdatapx=px時(shí),尋得最優(yōu)生成器*G。2.1.3訓(xùn)練機(jī)制GAN的訓(xùn)練是一個(gè)交替迭代優(yōu)化的過程,具體來說,是在優(yōu)化k次D網(wǎng)絡(luò)參數(shù)和優(yōu)化一次G網(wǎng)絡(luò)參數(shù)之間交替進(jìn)行,從而保證G和D相互對(duì)抗,同步提升。工作機(jī)制如下:圖2-2GAN的工作機(jī)制示意圖。x和z分別表示數(shù)據(jù)空間和隱變量空間,兩者之間的箭頭表示映射x=G(z)。藍(lán)色虛線代表D,黑色虛線代表真實(shí)數(shù)據(jù)分布,綠色實(shí)線代表G生成樣本的數(shù)據(jù)分布。圖2-2(a)中,D是部分精準(zhǔn)分類器,可以部分辨別生成數(shù)據(jù)和真實(shí)數(shù)據(jù)。圖2-2(b)中,通過固定G優(yōu)化D,使得D的判別能力大幅度提升。圖2-2(c)中,固定D優(yōu)化G,生成數(shù)據(jù)的分布逐漸向真實(shí)數(shù)據(jù)分布靠近,G試圖混淆D辨別兩種數(shù)據(jù)。最終收斂于圖2-2(d),藍(lán)色虛線逐漸變?yōu)樗骄,D失去其判別能力,此時(shí),黑色虛線和綠色實(shí)線完全重合,網(wǎng)絡(luò)收斂。2.2GAN的改進(jìn)模型GAN自提出以來備受廣大研究者青睞,其應(yīng)用也滲透到了計(jì)算機(jī)視覺、生物醫(yī)療和信息安全等領(lǐng)域。如何訓(xùn)練GAN也成為極具挑戰(zhàn)的話題。GAN的訓(xùn)練主要存在以下兩個(gè)難點(diǎn):訓(xùn)練過程過于自由和原始目標(biāo)函數(shù)沒意義。理論上說,我們只要有一個(gè)滿足高斯分布的噪音輸入,一個(gè)真實(shí)的訓(xùn)練樣本集,兩個(gè)可以逼近函數(shù)的神經(jīng)網(wǎng)絡(luò)就可以構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]跨媒體深層細(xì)粒度關(guān)聯(lián)學(xué)習(xí)方法[J]. 卓昀侃,綦金瑋,彭宇新. 軟件學(xué)報(bào). 2019(04)
[2]多媒體內(nèi)容理解的研究現(xiàn)狀與展望[J]. 彭宇新,綦金瑋,黃鑫. 計(jì)算機(jī)研究與發(fā)展. 2019(01)
[3]An Angle Structure Descriptor for Image Retrieval[J]. Meng Zhao,Huaxiang Zhang,Lili Meng. 中國通信. 2016(08)
本文編號(hào):3233306
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3233306.html
最近更新
教材專著