基于深度編解碼框架的視覺數(shù)據(jù)理解
發(fā)布時(shí)間:2021-10-11 07:34
視覺數(shù)據(jù)理解就是挖掘圖像和視頻中的信息,并形成結(jié)構(gòu)化的描述性文字,一定程度上跨越視覺數(shù)據(jù)與人類理解間的語義鴻溝。隨著大數(shù)據(jù)時(shí)代的推進(jìn),人類對(duì)視覺數(shù)據(jù)的分析能力已經(jīng)遠(yuǎn)遠(yuǎn)低于人類獲得視覺數(shù)據(jù)的能力,迫切需要通過視覺數(shù)據(jù)理解方法,將圖像和視頻這類半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可直接理解的結(jié)構(gòu)化數(shù)據(jù)。這種迫切的需求促使了傳統(tǒng)機(jī)器學(xué)習(xí)方法的變革,深度學(xué)習(xí)技術(shù)誕生。本文根據(jù)視覺數(shù)據(jù)的特性,將視覺數(shù)據(jù)理解統(tǒng)一為序列識(shí)別問題,利用深度編解碼框架解決此問題。自然場(chǎng)景下的視覺數(shù)據(jù)分為圖像和視頻,由于視頻中幀與幀之間存在時(shí)間和空間的關(guān)聯(lián)性,所以本文將視頻和圖像分開考慮,分別研究了圖像理解方法和視頻理解方法。這兩類理解方法可以解析圖像和視頻中的中層和高層語義,并輸出描述性文字。雖然描述性文字包含了視覺數(shù)據(jù)語義信息,但沒有對(duì)視覺數(shù)據(jù)中出現(xiàn)的文字進(jìn)行解析。文字作為視覺數(shù)據(jù)中重要的信息載體,同樣包含了豐富精準(zhǔn)的高層語義。本文在研究圖像和視頻理解的同時(shí),對(duì)自然場(chǎng)景文字識(shí)別方法進(jìn)行了研究。具體地,本文的研究成果包括:(1)提出了一種基于多向二維長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的圖像理解方法。在傳統(tǒng)的編解碼模型中,CNN全連接層的存...
【文章來源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:138 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
多層感知器中節(jié)點(diǎn)結(jié)構(gòu)圖
Yl= f Wl 1Yl 1+ bl 1Y為相應(yīng)層的輸出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 為可訓(xùn)練的參數(shù)偏置項(xiàng),f為非線性激活函數(shù)。2.2.2 多層感知器的后向傳播多層感知器的訓(xùn)練主要是通過損失函數(shù)和優(yōu)化算法對(duì)網(wǎng)絡(luò)中的可訓(xùn)練調(diào)整,從而使得調(diào)整過后的網(wǎng)絡(luò)參數(shù)能夠更好地?cái)M合訓(xùn)練數(shù)據(jù)。常見數(shù)包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于訓(xùn)練的優(yōu)化算法在第2.6節(jié)進(jìn)行了詳細(xì)的介紹。算法(back propagation algorithm)是連接損失函數(shù)和優(yōu)化算法的橋梁,多層感知器的后向傳播算法進(jìn)行介紹。
國(guó)防科技大學(xué)研究生院博士學(xué)位論文圖2.4 LeNet[1]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖xl 1i,CNN第l層作用于第l 1 層第 i 個(gè)特征圖的第 j 個(gè)卷積核為 klij,那么第l層輸出特征圖的第j個(gè)通道為:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 為卷積操作,blj為偏置項(xiàng)。設(shè)卷積核大小為M × N,那么 xl 1i上(u, v)位置的卷積運(yùn)算可以表示為:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)對(duì)于整個(gè)卷積層的卷積操作,涉及到的參數(shù)有填充值(pad),記為p
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
本文編號(hào):3430075
【文章來源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁數(shù)】:138 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
多層感知器中節(jié)點(diǎn)結(jié)構(gòu)圖
Yl= f Wl 1Yl 1+ bl 1Y為相應(yīng)層的輸出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 為可訓(xùn)練的參數(shù)偏置項(xiàng),f為非線性激活函數(shù)。2.2.2 多層感知器的后向傳播多層感知器的訓(xùn)練主要是通過損失函數(shù)和優(yōu)化算法對(duì)網(wǎng)絡(luò)中的可訓(xùn)練調(diào)整,從而使得調(diào)整過后的網(wǎng)絡(luò)參數(shù)能夠更好地?cái)M合訓(xùn)練數(shù)據(jù)。常見數(shù)包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于訓(xùn)練的優(yōu)化算法在第2.6節(jié)進(jìn)行了詳細(xì)的介紹。算法(back propagation algorithm)是連接損失函數(shù)和優(yōu)化算法的橋梁,多層感知器的后向傳播算法進(jìn)行介紹。
國(guó)防科技大學(xué)研究生院博士學(xué)位論文圖2.4 LeNet[1]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖xl 1i,CNN第l層作用于第l 1 層第 i 個(gè)特征圖的第 j 個(gè)卷積核為 klij,那么第l層輸出特征圖的第j個(gè)通道為:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 為卷積操作,blj為偏置項(xiàng)。設(shè)卷積核大小為M × N,那么 xl 1i上(u, v)位置的卷積運(yùn)算可以表示為:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)對(duì)于整個(gè)卷積層的卷積操作,涉及到的參數(shù)有填充值(pad),記為p
【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)的昨天、今天和明天[J]. 余凱,賈磊,陳雨強(qiáng),徐偉. 計(jì)算機(jī)研究與發(fā)展. 2013(09)
本文編號(hào):3430075
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3430075.html
最近更新
教材專著