基于深度學(xué)習(xí)的圖像描述自動(dòng)生成的研究
發(fā)布時(shí)間:2021-08-22 08:41
隨著互聯(lián)網(wǎng)存儲(chǔ)水平的提高和智能設(shè)備的普及,越來(lái)越多的人們習(xí)慣用拍照來(lái)記錄自己的生活,每天都會(huì)有大量的圖像通過(guò)智能手機(jī),PC機(jī)等智能設(shè)備產(chǎn)生并在互聯(lián)網(wǎng)上共享,圖像數(shù)據(jù)出現(xiàn)了爆炸式的增長(zhǎng)。計(jì)算機(jī)理解圖像,對(duì)圖像進(jìn)行標(biāo)注,可以方便管理平臺(tái)對(duì)圖片進(jìn)行分類,也可幫助用戶快速準(zhǔn)確地檢索圖像,對(duì)有效地整合網(wǎng)絡(luò)上龐大的圖片資源有著重要的意義。傳統(tǒng)的圖像理解關(guān)注的是較為低層次的視覺(jué)特征,如色彩特征、紋理特征以及形狀特征等。近年來(lái),隨著計(jì)算機(jī)運(yùn)算能力的重大飛躍,深度學(xué)習(xí)得到了快速發(fā)展,網(wǎng)絡(luò)上結(jié)合視覺(jué)信息與自然語(yǔ)言的數(shù)據(jù)也為深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了數(shù)據(jù)需求,基于深度學(xué)習(xí)實(shí)現(xiàn)圖像描述自動(dòng)生成成為了計(jì)算機(jī)圖像理解的前沿和熱點(diǎn)。本文對(duì)基于深度學(xué)習(xí)的圖像描述自動(dòng)生成進(jìn)行了深入研究,設(shè)計(jì)了端到端的圖像描述生成模型。基于深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像語(yǔ)義特征,分別用深度可分離卷積神經(jīng)網(wǎng)絡(luò)和標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,用特征金字塔網(wǎng)絡(luò)進(jìn)行特征融合,用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)將語(yǔ)義特征轉(zhuǎn)換為自然語(yǔ)言,設(shè)計(jì)并構(gòu)建了端到端的圖像描述自動(dòng)生成模型(Feature pyramid networks-Neural Image Caption,F...
【文章來(lái)源】:深圳大學(xué)廣東省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
基于深度學(xué)習(xí)的圖像描述自動(dòng)生成的研究9的記憶,在處理序列類數(shù)據(jù)流上有比卷積神經(jīng)網(wǎng)絡(luò)更好的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2-2所示。圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從圖2-2可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。x是輸入層,輸入需要處理的數(shù)據(jù)。s是隱含層,里面有多個(gè)神經(jīng)元,用來(lái)提取輸入數(shù)據(jù)的特征。o是輸出層,輸出對(duì)數(shù)據(jù)處理后的結(jié)果。U,V分別表示輸入層到隱含層,隱含層到輸出層的權(quán)重矩陣。W表示上一時(shí)刻隱含層保留的信息輸入當(dāng)前時(shí)刻隱含層的權(quán)重。循環(huán)神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的不同之處在于它不是孤立的去處理一個(gè)數(shù)據(jù)的,而是結(jié)合之前的信息進(jìn)行預(yù)測(cè),所以隱含層s處理當(dāng)前時(shí)刻數(shù)據(jù)時(shí),需要結(jié)合上一時(shí)刻隱含層的保留信息。由于序列數(shù)據(jù)是在不同的時(shí)刻輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,可對(duì)圖2-2的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行展開,得到圖2-3所示的網(wǎng)絡(luò)結(jié)構(gòu)。圖2-3展開后的循環(huán)神經(jīng)網(wǎng)絡(luò)從圖2-3中可以看出循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻的輸出是由當(dāng)前時(shí)刻的輸入信息與前一時(shí)刻保存的信息共同決定的,計(jì)算公式如下:
基于深度學(xué)習(xí)的圖像描述自動(dòng)生成的研究9的記憶,在處理序列類數(shù)據(jù)流上有比卷積神經(jīng)網(wǎng)絡(luò)更好的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2-2所示。圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從圖2-2可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。x是輸入層,輸入需要處理的數(shù)據(jù)。s是隱含層,里面有多個(gè)神經(jīng)元,用來(lái)提取輸入數(shù)據(jù)的特征。o是輸出層,輸出對(duì)數(shù)據(jù)處理后的結(jié)果。U,V分別表示輸入層到隱含層,隱含層到輸出層的權(quán)重矩陣。W表示上一時(shí)刻隱含層保留的信息輸入當(dāng)前時(shí)刻隱含層的權(quán)重。循環(huán)神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的不同之處在于它不是孤立的去處理一個(gè)數(shù)據(jù)的,而是結(jié)合之前的信息進(jìn)行預(yù)測(cè),所以隱含層s處理當(dāng)前時(shí)刻數(shù)據(jù)時(shí),需要結(jié)合上一時(shí)刻隱含層的保留信息。由于序列數(shù)據(jù)是在不同的時(shí)刻輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,可對(duì)圖2-2的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行展開,得到圖2-3所示的網(wǎng)絡(luò)結(jié)構(gòu)。圖2-3展開后的循環(huán)神經(jīng)網(wǎng)絡(luò)從圖2-3中可以看出循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻的輸出是由當(dāng)前時(shí)刻的輸入信息與前一時(shí)刻保存的信息共同決定的,計(jì)算公式如下:
本文編號(hào):3357410
【文章來(lái)源】:深圳大學(xué)廣東省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
基于深度學(xué)習(xí)的圖像描述自動(dòng)生成的研究9的記憶,在處理序列類數(shù)據(jù)流上有比卷積神經(jīng)網(wǎng)絡(luò)更好的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2-2所示。圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從圖2-2可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。x是輸入層,輸入需要處理的數(shù)據(jù)。s是隱含層,里面有多個(gè)神經(jīng)元,用來(lái)提取輸入數(shù)據(jù)的特征。o是輸出層,輸出對(duì)數(shù)據(jù)處理后的結(jié)果。U,V分別表示輸入層到隱含層,隱含層到輸出層的權(quán)重矩陣。W表示上一時(shí)刻隱含層保留的信息輸入當(dāng)前時(shí)刻隱含層的權(quán)重。循環(huán)神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的不同之處在于它不是孤立的去處理一個(gè)數(shù)據(jù)的,而是結(jié)合之前的信息進(jìn)行預(yù)測(cè),所以隱含層s處理當(dāng)前時(shí)刻數(shù)據(jù)時(shí),需要結(jié)合上一時(shí)刻隱含層的保留信息。由于序列數(shù)據(jù)是在不同的時(shí)刻輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,可對(duì)圖2-2的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行展開,得到圖2-3所示的網(wǎng)絡(luò)結(jié)構(gòu)。圖2-3展開后的循環(huán)神經(jīng)網(wǎng)絡(luò)從圖2-3中可以看出循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻的輸出是由當(dāng)前時(shí)刻的輸入信息與前一時(shí)刻保存的信息共同決定的,計(jì)算公式如下:
基于深度學(xué)習(xí)的圖像描述自動(dòng)生成的研究9的記憶,在處理序列類數(shù)據(jù)流上有比卷積神經(jīng)網(wǎng)絡(luò)更好的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2-2所示。圖2-2循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從圖2-2可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成。x是輸入層,輸入需要處理的數(shù)據(jù)。s是隱含層,里面有多個(gè)神經(jīng)元,用來(lái)提取輸入數(shù)據(jù)的特征。o是輸出層,輸出對(duì)數(shù)據(jù)處理后的結(jié)果。U,V分別表示輸入層到隱含層,隱含層到輸出層的權(quán)重矩陣。W表示上一時(shí)刻隱含層保留的信息輸入當(dāng)前時(shí)刻隱含層的權(quán)重。循環(huán)神經(jīng)網(wǎng)絡(luò)與普通神經(jīng)網(wǎng)絡(luò)的不同之處在于它不是孤立的去處理一個(gè)數(shù)據(jù)的,而是結(jié)合之前的信息進(jìn)行預(yù)測(cè),所以隱含層s處理當(dāng)前時(shí)刻數(shù)據(jù)時(shí),需要結(jié)合上一時(shí)刻隱含層的保留信息。由于序列數(shù)據(jù)是在不同的時(shí)刻輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,可對(duì)圖2-2的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行展開,得到圖2-3所示的網(wǎng)絡(luò)結(jié)構(gòu)。圖2-3展開后的循環(huán)神經(jīng)網(wǎng)絡(luò)從圖2-3中可以看出循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻的輸出是由當(dāng)前時(shí)刻的輸入信息與前一時(shí)刻保存的信息共同決定的,計(jì)算公式如下:
本文編號(hào):3357410
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3357410.html
最近更新
教材專著