基于注意力網(wǎng)絡(luò)的度量學(xué)習(xí)研究及應(yīng)用
發(fā)布時間:2021-01-04 00:38
當下,人們對于多媒體數(shù)據(jù)的需求日益增加,對多媒體數(shù)據(jù)精準、有效的檢索也隨之成為重要的研究方向。傳統(tǒng)的基于關(guān)鍵詞匹配的檢索方法較為粗略,且隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆發(fā)式增加,為數(shù)據(jù)人為添加標簽也變得成本極高,難以實現(xiàn)。而基于內(nèi)容的多媒體數(shù)據(jù)檢索方法因為其便利性、準確性等優(yōu)點,被越來越多地采用、研究。該系統(tǒng)的要點在于對輸入數(shù)據(jù)進行內(nèi)容分析,現(xiàn)在大多是采用深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行特征提取來實現(xiàn)。本文要解決的主要問題就是多媒體數(shù)據(jù)檢索,方法是利用度量學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)作為映射函數(shù),映射多媒體數(shù)據(jù)到公共特征空間中,且具有相似內(nèi)容的樣本在空間中距離接近,F(xiàn)有的基于深度學(xué)習(xí)的檢索模型多是將樣本直接輸入神經(jīng)網(wǎng)絡(luò)提取特征,但是通常來說,輸入樣本的不同部分并不都是有利于檢索的,如圖像的背景和遮擋。如何識別并提取輸入樣本的重要部分,免受噪聲區(qū)域的影響,是所有檢索系統(tǒng)面臨的挑戰(zhàn)。本文我們采用注意力模型來提升特征提取的效果。具體而言,本文構(gòu)建了兩個基于神經(jīng)網(wǎng)絡(luò)利用特征度量關(guān)系進行檢索的系統(tǒng):基于注意力的服裝圖像檢索系統(tǒng),能很好地完成服裝圖像的同域和跨域檢索任務(wù);基于通用性注意力的跨模態(tài)檢索系統(tǒng),主要解決圖像和文本兩種模態(tài)間...
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級別】:碩士
【部分圖文】:
–3學(xué)習(xí)圖像和文本度量關(guān)系的兩支網(wǎng)絡(luò)[27]
在循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)生成目標語言的過程中,每一個時序中,神經(jīng)網(wǎng)絡(luò)都對輸入文本的不同區(qū)域給予了不同的關(guān)注權(quán)重,從而有注意力的關(guān)注下進行當前詞語的生成。模型實際效果如圖1–41所示。在文本摘要生成領(lǐng)域,[29] 除了加入了注意力模型輔助模型的識別外,還專門針對輸入的長文本將識別模型轉(zhuǎn)換為長短期記憶網(wǎng)絡(luò),使得模型能夠在迭代的過程中不丟失早期的輸入信息。在圖像處理領(lǐng)域,[10] 設(shè)計了一個視覺注意力模型來幫助提升物體識別的準確率,該注意力模型是基于一個被訓(xùn)練用來關(guān)注輸入圖像最重要區(qū)域的循環(huán)神經(jīng)網(wǎng)絡(luò),最終能夠識別和定位輸入圖像中的多個物體,其性能超越了同期的無注意力卷積神經(jīng)網(wǎng)絡(luò)。在視覺注意領(lǐng)域,最經(jīng)典的工作 [11] 提出了一個基于注意力模型的圖像標注生成模型
之后會依次對自己感興趣的區(qū)域進行更細致的觀察,從而得到對于圖片的整體理解。像這類有持續(xù)性的信息在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中是很難有效處理的,[37] 提出了基于網(wǎng)絡(luò)內(nèi)部循環(huán)的 RNN,使得神經(jīng)網(wǎng)絡(luò)可以處理時序信息。如圖2–4所示1,右圖是RNN 在時序上的展開形式,可以視為一個網(wǎng)絡(luò)的多階段復(fù)制,這種鏈式的結(jié)構(gòu)是 RNN能夠處理連續(xù)序列類型數(shù)據(jù)的基礎(chǔ),而 RNN 在自然語言處理、語音識別、翻譯、圖片描述、視頻描述等領(lǐng)域的廣泛應(yīng)用也證明了這一結(jié)構(gòu)的有效性。1http://colah.github.io/posts/2015-08-Understanding-LSTMs— 11 —
本文編號:2955797
【文章來源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級別】:碩士
【部分圖文】:
–3學(xué)習(xí)圖像和文本度量關(guān)系的兩支網(wǎng)絡(luò)[27]
在循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)生成目標語言的過程中,每一個時序中,神經(jīng)網(wǎng)絡(luò)都對輸入文本的不同區(qū)域給予了不同的關(guān)注權(quán)重,從而有注意力的關(guān)注下進行當前詞語的生成。模型實際效果如圖1–41所示。在文本摘要生成領(lǐng)域,[29] 除了加入了注意力模型輔助模型的識別外,還專門針對輸入的長文本將識別模型轉(zhuǎn)換為長短期記憶網(wǎng)絡(luò),使得模型能夠在迭代的過程中不丟失早期的輸入信息。在圖像處理領(lǐng)域,[10] 設(shè)計了一個視覺注意力模型來幫助提升物體識別的準確率,該注意力模型是基于一個被訓(xùn)練用來關(guān)注輸入圖像最重要區(qū)域的循環(huán)神經(jīng)網(wǎng)絡(luò),最終能夠識別和定位輸入圖像中的多個物體,其性能超越了同期的無注意力卷積神經(jīng)網(wǎng)絡(luò)。在視覺注意領(lǐng)域,最經(jīng)典的工作 [11] 提出了一個基于注意力模型的圖像標注生成模型
之后會依次對自己感興趣的區(qū)域進行更細致的觀察,從而得到對于圖片的整體理解。像這類有持續(xù)性的信息在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中是很難有效處理的,[37] 提出了基于網(wǎng)絡(luò)內(nèi)部循環(huán)的 RNN,使得神經(jīng)網(wǎng)絡(luò)可以處理時序信息。如圖2–4所示1,右圖是RNN 在時序上的展開形式,可以視為一個網(wǎng)絡(luò)的多階段復(fù)制,這種鏈式的結(jié)構(gòu)是 RNN能夠處理連續(xù)序列類型數(shù)據(jù)的基礎(chǔ),而 RNN 在自然語言處理、語音識別、翻譯、圖片描述、視頻描述等領(lǐng)域的廣泛應(yīng)用也證明了這一結(jié)構(gòu)的有效性。1http://colah.github.io/posts/2015-08-Understanding-LSTMs— 11 —
本文編號:2955797
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2955797.html
最近更新
教材專著