基于深度編解碼框架的視覺數(shù)據(jù)理解
發(fā)布時間:2021-10-11 07:34
視覺數(shù)據(jù)理解就是挖掘圖像和視頻中的信息,并形成結構化的描述性文字,一定程度上跨越視覺數(shù)據(jù)與人類理解間的語義鴻溝。隨著大數(shù)據(jù)時代的推進,人類對視覺數(shù)據(jù)的分析能力已經(jīng)遠遠低于人類獲得視覺數(shù)據(jù)的能力,迫切需要通過視覺數(shù)據(jù)理解方法,將圖像和視頻這類半結構化或非結構化的數(shù)據(jù)轉化為計算機可直接理解的結構化數(shù)據(jù)。這種迫切的需求促使了傳統(tǒng)機器學習方法的變革,深度學習技術誕生。本文根據(jù)視覺數(shù)據(jù)的特性,將視覺數(shù)據(jù)理解統(tǒng)一為序列識別問題,利用深度編解碼框架解決此問題。自然場景下的視覺數(shù)據(jù)分為圖像和視頻,由于視頻中幀與幀之間存在時間和空間的關聯(lián)性,所以本文將視頻和圖像分開考慮,分別研究了圖像理解方法和視頻理解方法。這兩類理解方法可以解析圖像和視頻中的中層和高層語義,并輸出描述性文字。雖然描述性文字包含了視覺數(shù)據(jù)語義信息,但沒有對視覺數(shù)據(jù)中出現(xiàn)的文字進行解析。文字作為視覺數(shù)據(jù)中重要的信息載體,同樣包含了豐富精準的高層語義。本文在研究圖像和視頻理解的同時,對自然場景文字識別方法進行了研究。具體地,本文的研究成果包括:(1)提出了一種基于多向二維長短時記憶網(wǎng)絡的圖像理解方法。在傳統(tǒng)的編解碼模型中,CNN全連接層的存...
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:138 頁
【學位級別】:博士
【部分圖文】:
多層感知器中節(jié)點結構圖
Yl= f Wl 1Yl 1+ bl 1Y為相應層的輸出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 為可訓練的參數(shù)偏置項,f為非線性激活函數(shù)。2.2.2 多層感知器的后向傳播多層感知器的訓練主要是通過損失函數(shù)和優(yōu)化算法對網(wǎng)絡中的可訓練調整,從而使得調整過后的網(wǎng)絡參數(shù)能夠更好地擬合訓練數(shù)據(jù)。常見數(shù)包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于訓練的優(yōu)化算法在第2.6節(jié)進行了詳細的介紹。算法(back propagation algorithm)是連接損失函數(shù)和優(yōu)化算法的橋梁,多層感知器的后向傳播算法進行介紹。
國防科技大學研究生院博士學位論文圖2.4 LeNet[1]卷積神經(jīng)網(wǎng)絡結構圖xl 1i,CNN第l層作用于第l 1 層第 i 個特征圖的第 j 個卷積核為 klij,那么第l層輸出特征圖的第j個通道為:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 為卷積操作,blj為偏置項。設卷積核大小為M × N,那么 xl 1i上(u, v)位置的卷積運算可以表示為:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)對于整個卷積層的卷積操作,涉及到的參數(shù)有填充值(pad),記為p
【參考文獻】:
期刊論文
[1]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
本文編號:3430075
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:138 頁
【學位級別】:博士
【部分圖文】:
多層感知器中節(jié)點結構圖
Yl= f Wl 1Yl 1+ bl 1Y為相應層的輸出,Wl 1= wl 11,1wl 11,2 · · ·w1,mwl 12,1...............wl 1n,1 · · · · · ·wl 1n,m 為可訓練的參數(shù)偏置項,f為非線性激活函數(shù)。2.2.2 多層感知器的后向傳播多層感知器的訓練主要是通過損失函數(shù)和優(yōu)化算法對網(wǎng)絡中的可訓練調整,從而使得調整過后的網(wǎng)絡參數(shù)能夠更好地擬合訓練數(shù)據(jù)。常見數(shù)包括MSE(Mean Squared Error),MAE(Mean Absolute Error)和CEEpy Error)等等1,用于訓練的優(yōu)化算法在第2.6節(jié)進行了詳細的介紹。算法(back propagation algorithm)是連接損失函數(shù)和優(yōu)化算法的橋梁,多層感知器的后向傳播算法進行介紹。
國防科技大學研究生院博士學位論文圖2.4 LeNet[1]卷積神經(jīng)網(wǎng)絡結構圖xl 1i,CNN第l層作用于第l 1 層第 i 個特征圖的第 j 個卷積核為 klij,那么第l層輸出特征圖的第j個通道為:xlj= f(dl 1∑i=1[xl 1i klij]+ blj)(2.4)其中, 為卷積操作,blj為偏置項。設卷積核大小為M × N,那么 xl 1i上(u, v)位置的卷積運算可以表示為:xl 1i,[u,v] klij=M∑m=1N∑n=1xl 1i,[u+m,v+n]klij,[m,n](2.5)對于整個卷積層的卷積操作,涉及到的參數(shù)有填充值(pad),記為p
【參考文獻】:
期刊論文
[1]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
本文編號:3430075
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/3430075.html
最近更新
教材專著