基于深度學(xué)習(xí)的圖像視頻的分割與識(shí)別
發(fā)布時(shí)間:2021-02-01 19:07
近幾年來,多媒體視頻作為一個(gè)重要的數(shù)據(jù)載體,在信息傳播中發(fā)揮著巨大的作用。然而信息膨脹,給多媒體視頻的精準(zhǔn)檢索帶來了巨大挑戰(zhàn)。最早的多媒體視頻檢索技術(shù)是采用人工標(biāo)注的方法完成的。隨著視頻數(shù)量急劇增加,人工標(biāo)注已經(jīng)成為不可能完成的任務(wù)。后來又建立了基于低層特征的檢索系統(tǒng),但效果并不好。近年來,視頻分割成為了視頻檢索研究的熱點(diǎn),視頻分割可以從視頻序列中分離出有意義的實(shí)體,提高檢索的準(zhǔn)確度和效率。隨著深度學(xué)習(xí)的不斷發(fā)展,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺任務(wù)中取得了長足的進(jìn)步。目前圖像分割與識(shí)別的方法都是基于深度學(xué)習(xí)的,通過深度學(xué)習(xí)學(xué)習(xí)到高層次語義特征,可以精準(zhǔn)的對圖像分割與識(shí)別。隨著深度學(xué)習(xí)在圖像分割與識(shí)別上取得了巨大成功,大家開始使用深度學(xué)習(xí)的方式進(jìn)行視頻的分割與識(shí)別。本文提出了基于深度學(xué)習(xí)的圖像視頻的分割與識(shí)別方法。圖像分割與識(shí)別采用的是實(shí)例分割方法,并在Mask R-CNN網(wǎng)絡(luò)基礎(chǔ)上給出一種實(shí)例分割網(wǎng)絡(luò),通過重新設(shè)計(jì)Mask R-CNN掩碼分支結(jié)構(gòu),來改善和加速實(shí)例分割。在掩碼分支上通過增大ROIAlign層的分辨率以及使用了前后層特征融合的方法,得到了更加精確的邊界信息。在不影響算法精度的前...
【文章來源】:青島大學(xué)山東省
【文章頁數(shù)】:47 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)
2.2 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的概念最早起源于科學(xué)家提出感受野,即每個(gè)動(dòng)物的神經(jīng)元只會(huì)處理一小塊區(qū)域的視覺圖像。日本學(xué)者 Fukushima 根據(jù)感受野的概念提出了神經(jīng)認(rèn)知機(jī),神經(jīng)認(rèn)知機(jī)把視覺特征分解成若干個(gè)子特征,相當(dāng)于把視覺特征模型化,即使物體發(fā)生旋轉(zhuǎn)或扭曲,也不會(huì)影響最終的識(shí)別效果。一般來說,神經(jīng)認(rèn)知機(jī)包括兩類神經(jīng)元,一類是用來提取特征的 S-cell,對應(yīng)于現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)中卷積核的濾波操作;一類是用來抗變形 C-cell,對應(yīng)于現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)中激勵(lì)函數(shù)、池化等操作。卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)認(rèn)知機(jī)的一種推廣形式[28]。卷積神經(jīng)網(wǎng)絡(luò)可以通過訓(xùn)練大量數(shù)據(jù)來進(jìn)行特征學(xué)習(xí),通過隱式地學(xué)習(xí)特征從而避免了顯示特征提取。由于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和圖像比較符合以及權(quán)值共享特性,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方面有著比較大的優(yōu)勢。最早的卷積神經(jīng)網(wǎng)絡(luò)模型是LeCun 等[29]提出的 LeNet-5,圖 2.4 是它的結(jié)構(gòu)圖,它是一種高效的用于識(shí)別手寫體數(shù)字的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)根據(jù)不同的操作定義了不同的層,主要包括卷積層、池化層和全連接層。
圖 3.3 數(shù)據(jù)增強(qiáng)后的圖片及對應(yīng)的掩碼標(biāo)簽考慮到 GPU 內(nèi)存有限,固定前面的基礎(chǔ)網(wǎng)絡(luò)部分,只訓(xùn)練了每個(gè)階段的上分支。在第一階段訓(xùn)練建議框的時(shí)候,選取得分比較高的建議框,然后通過值抑制最終選取 2000 個(gè)建議框。在第二階段,與訓(xùn)練 Faster R-CNN 時(shí)的參,從 2000 個(gè)建議框中選取正負(fù)樣本總數(shù)為 64 個(gè),正負(fù)比例為 1:3。如果第區(qū)域建議網(wǎng)絡(luò)得到的2000個(gè)建議框與目標(biāo)框的重疊面積不小于0.5,則為正樣則為負(fù)樣本。在第三階段,將選取出來的 64 個(gè)建議框用于掩碼分支,僅在每本的建議框?qū)?yīng)的類別掩碼上計(jì)算損失函數(shù),本次實(shí)驗(yàn)的數(shù)據(jù)集共有六類再景類共有七類。在測試階段,通過非極大值抑制得到評(píng)分最高的 100 個(gè)檢測框,將掩碼分在這 100 個(gè)檢測框上,通過 Keras 的 TimeDistributed 函數(shù)可以使這些檢測框算,大大提高了運(yùn)算速度。然后將掩碼輸出調(diào)整到感興趣區(qū)域大小,并使用 0.5 將其二值化。本次實(shí)驗(yàn)使用的框架是 Keras,在圖片輸入的時(shí)候?qū)D片縮放到 1024×10
【參考文獻(xiàn)】:
期刊論文
[1]基于雙重檢測的視頻鏡頭分割方法[J]. 楊瑞琴,呂進(jìn)來. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[2]基于聚類方法改進(jìn)的關(guān)鍵幀提取算法[J]. 白慧茹,呂進(jìn)來. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(07)
[3]智能視頻監(jiān)控系統(tǒng)中的人臉識(shí)別技術(shù)之研究[J]. 鄒香玲. 電子技術(shù)與軟件工程. 2017(03)
[4]智慧城市多源異構(gòu)大數(shù)據(jù)處理框架[J]. 劉巖,王華,秦葉陽,朱興杰. 大數(shù)據(jù). 2017(01)
[5]視頻檢索研究可視化分析[J]. 徐彤陽,張國標(biāo). 計(jì)算機(jī)工程與應(yīng)用. 2017(22)
[6]圖像分割方法綜述研究[J]. 周莉莉,姜楓. 計(jì)算機(jī)應(yīng)用研究. 2017(07)
[7]視頻中目標(biāo)檢測算法研究[J]. 張明軍,俞文靜,袁志,黃志金. 軟件. 2016(04)
[8]視頻鏡頭分割方法綜述[J]. 魏瑋,劉靜,王丹丹. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(01)
[9]數(shù)字視頻信息的索引研究[J]. 嚴(yán)明,蘇新寧. 現(xiàn)代圖書情報(bào)技術(shù). 2005(07)
[10]基于內(nèi)容的視頻檢索[J]. 王娣,黃春毅. 現(xiàn)代圖書情報(bào)技術(shù). 2000(S2)
博士論文
[1]智能視頻監(jiān)控中的運(yùn)動(dòng)目標(biāo)檢測與跟蹤技術(shù)研究[D]. 屈鑒銘.西安電子科技大學(xué) 2015
本文編號(hào):3013278
【文章來源】:青島大學(xué)山東省
【文章頁數(shù)】:47 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
神經(jīng)網(wǎng)
2.2 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的概念最早起源于科學(xué)家提出感受野,即每個(gè)動(dòng)物的神經(jīng)元只會(huì)處理一小塊區(qū)域的視覺圖像。日本學(xué)者 Fukushima 根據(jù)感受野的概念提出了神經(jīng)認(rèn)知機(jī),神經(jīng)認(rèn)知機(jī)把視覺特征分解成若干個(gè)子特征,相當(dāng)于把視覺特征模型化,即使物體發(fā)生旋轉(zhuǎn)或扭曲,也不會(huì)影響最終的識(shí)別效果。一般來說,神經(jīng)認(rèn)知機(jī)包括兩類神經(jīng)元,一類是用來提取特征的 S-cell,對應(yīng)于現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)中卷積核的濾波操作;一類是用來抗變形 C-cell,對應(yīng)于現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)中激勵(lì)函數(shù)、池化等操作。卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)認(rèn)知機(jī)的一種推廣形式[28]。卷積神經(jīng)網(wǎng)絡(luò)可以通過訓(xùn)練大量數(shù)據(jù)來進(jìn)行特征學(xué)習(xí),通過隱式地學(xué)習(xí)特征從而避免了顯示特征提取。由于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和圖像比較符合以及權(quán)值共享特性,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方面有著比較大的優(yōu)勢。最早的卷積神經(jīng)網(wǎng)絡(luò)模型是LeCun 等[29]提出的 LeNet-5,圖 2.4 是它的結(jié)構(gòu)圖,它是一種高效的用于識(shí)別手寫體數(shù)字的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)根據(jù)不同的操作定義了不同的層,主要包括卷積層、池化層和全連接層。
圖 3.3 數(shù)據(jù)增強(qiáng)后的圖片及對應(yīng)的掩碼標(biāo)簽考慮到 GPU 內(nèi)存有限,固定前面的基礎(chǔ)網(wǎng)絡(luò)部分,只訓(xùn)練了每個(gè)階段的上分支。在第一階段訓(xùn)練建議框的時(shí)候,選取得分比較高的建議框,然后通過值抑制最終選取 2000 個(gè)建議框。在第二階段,與訓(xùn)練 Faster R-CNN 時(shí)的參,從 2000 個(gè)建議框中選取正負(fù)樣本總數(shù)為 64 個(gè),正負(fù)比例為 1:3。如果第區(qū)域建議網(wǎng)絡(luò)得到的2000個(gè)建議框與目標(biāo)框的重疊面積不小于0.5,則為正樣則為負(fù)樣本。在第三階段,將選取出來的 64 個(gè)建議框用于掩碼分支,僅在每本的建議框?qū)?yīng)的類別掩碼上計(jì)算損失函數(shù),本次實(shí)驗(yàn)的數(shù)據(jù)集共有六類再景類共有七類。在測試階段,通過非極大值抑制得到評(píng)分最高的 100 個(gè)檢測框,將掩碼分在這 100 個(gè)檢測框上,通過 Keras 的 TimeDistributed 函數(shù)可以使這些檢測框算,大大提高了運(yùn)算速度。然后將掩碼輸出調(diào)整到感興趣區(qū)域大小,并使用 0.5 將其二值化。本次實(shí)驗(yàn)使用的框架是 Keras,在圖片輸入的時(shí)候?qū)D片縮放到 1024×10
【參考文獻(xiàn)】:
期刊論文
[1]基于雙重檢測的視頻鏡頭分割方法[J]. 楊瑞琴,呂進(jìn)來. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[2]基于聚類方法改進(jìn)的關(guān)鍵幀提取算法[J]. 白慧茹,呂進(jìn)來. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(07)
[3]智能視頻監(jiān)控系統(tǒng)中的人臉識(shí)別技術(shù)之研究[J]. 鄒香玲. 電子技術(shù)與軟件工程. 2017(03)
[4]智慧城市多源異構(gòu)大數(shù)據(jù)處理框架[J]. 劉巖,王華,秦葉陽,朱興杰. 大數(shù)據(jù). 2017(01)
[5]視頻檢索研究可視化分析[J]. 徐彤陽,張國標(biāo). 計(jì)算機(jī)工程與應(yīng)用. 2017(22)
[6]圖像分割方法綜述研究[J]. 周莉莉,姜楓. 計(jì)算機(jī)應(yīng)用研究. 2017(07)
[7]視頻中目標(biāo)檢測算法研究[J]. 張明軍,俞文靜,袁志,黃志金. 軟件. 2016(04)
[8]視頻鏡頭分割方法綜述[J]. 魏瑋,劉靜,王丹丹. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(01)
[9]數(shù)字視頻信息的索引研究[J]. 嚴(yán)明,蘇新寧. 現(xiàn)代圖書情報(bào)技術(shù). 2005(07)
[10]基于內(nèi)容的視頻檢索[J]. 王娣,黃春毅. 現(xiàn)代圖書情報(bào)技術(shù). 2000(S2)
博士論文
[1]智能視頻監(jiān)控中的運(yùn)動(dòng)目標(biāo)檢測與跟蹤技術(shù)研究[D]. 屈鑒銘.西安電子科技大學(xué) 2015
本文編號(hào):3013278
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3013278.html
最近更新
教材專著