基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別技術(shù)研究
本文選題:視頻內(nèi)容識(shí)別 + 深度學(xué)習(xí); 參考:《電子科技大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)和4G網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,以及Facebook、Instagram和Snapchat等主流社交網(wǎng)絡(luò)對(duì)視頻業(yè)務(wù)的重視與推廣,網(wǎng)絡(luò)視頻業(yè)務(wù)呈蓬勃發(fā)展趨勢(shì)。然而,不斷增長(zhǎng)的視頻數(shù)量和用戶群體,以及豐富多樣的視頻內(nèi)容,卻給視頻內(nèi)容的監(jiān)督和管理提出了巨大的挑戰(zhàn)。得益于深度學(xué)習(xí)在智能識(shí)別方面取得的突破性進(jìn)展,基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別技術(shù)逐漸成為視頻內(nèi)容識(shí)別和分析的主要技術(shù),因此,本文以深度學(xué)習(xí)為基礎(chǔ),通過(guò)引入注意力機(jī)制,充分利用視頻的時(shí)間特性,研究準(zhǔn)確高效的視頻內(nèi)容識(shí)別技術(shù)。視頻內(nèi)容識(shí)別技術(shù)的關(guān)鍵在于視頻特征的提取,而深度學(xué)習(xí)的優(yōu)勢(shì)在于其強(qiáng)大的特征提取能力,為了進(jìn)一步研究基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別技術(shù),論文的主要工作如下:首先,結(jié)合人類視覺(jué)感知方面的研究,以及LRCN模型在視頻內(nèi)容識(shí)別的優(yōu)勢(shì),提出基于注意力機(jī)制的LRCN模型,在深度學(xué)習(xí)模型中模擬人腦的注意力特性,從全局考慮視頻內(nèi)容,使模型的注意力落在整個(gè)視頻的有效區(qū)域,降低無(wú)關(guān)信息對(duì)視頻內(nèi)容識(shí)別的干擾;谧⒁饬C(jī)制的LRCN模型通過(guò)選擇性的注意力權(quán)重,為與視頻主題相關(guān)的區(qū)域分配較大的權(quán)重,無(wú)關(guān)的區(qū)域分配較小的權(quán)重,提取具有區(qū)分性的時(shí)間特征。然后,為充分利用視頻的時(shí)間特性,采用BLSTM網(wǎng)絡(luò)捕捉視頻內(nèi)容的上下文信息,提取更豐富的時(shí)間特征,提出基于BLSTM網(wǎng)絡(luò)的LRCN模型;贐LSTM網(wǎng)絡(luò)的LRCN模型通過(guò)提取正向和反向的時(shí)間特征,充分利用視頻的時(shí)間信息識(shí)別視頻內(nèi)容。最后,采用Tensorflow深度學(xué)習(xí)開(kāi)源框架對(duì)基于注意力機(jī)制的LRCN模型和基于BLSTM網(wǎng)絡(luò)的LRCN模型進(jìn)行了仿真驗(yàn)證,實(shí)驗(yàn)數(shù)據(jù)采用HMDB-51和UCF-101視頻內(nèi)容識(shí)別數(shù)據(jù)集。實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的LRCN模型和基于BLSTM網(wǎng)絡(luò)的LRCN模型可以有效提高視頻內(nèi)容識(shí)別的準(zhǔn)確率,并且基于BLSTM網(wǎng)絡(luò)的LRCN模型在訓(xùn)練時(shí)能夠快速收斂,提高模型訓(xùn)練效率,同時(shí),本文還對(duì)基于注意力機(jī)制的LRCN模型的注意力權(quán)重進(jìn)行了可視化,分析注意力權(quán)重對(duì)視頻內(nèi)容識(shí)別的影響。
[Abstract]:With the development and popularization of Internet and 4G network technology, as well as the attention and promotion of video services by mainstream social networks such as Facebook Instagram and Snapchat, the network video business is booming. However, the increasing number of video and users, as well as rich and diverse video content, has posed a great challenge to the supervision and management of video content. Because of the breakthrough of deep learning in intelligent recognition, video content recognition technology based on deep learning has gradually become the main technology of video content recognition and analysis. By introducing attention mechanism and making full use of the time characteristic of video, the accurate and efficient video content recognition technology is studied. The key of video content recognition is the extraction of video features, and the advantage of depth learning lies in its powerful feature extraction ability. In order to further study the video content recognition technology based on deep learning, The main work of this paper is as follows: firstly, combining the research of human visual perception and the advantages of LRCN model in video content recognition, a LRCN model based on attention mechanism is proposed to simulate the attention characteristics of human brain in the deep learning model. Considering the video content globally, the model can focus on the effective region of the whole video, and reduce the interference of irrelevant information to the video content recognition. The LRCN model based on attention mechanism assigns a large weight to the region related to the video topic and a small weight to the irrelevant region through the selective attention weight to extract the distinguishing time feature. Then, in order to make full use of the time characteristics of video, the BLSTM network is used to capture the context information of video content, and to extract more abundant time features, a LRCN model based on BLSTM network is proposed. The LRCN model based on BLSTM network can extract forward and reverse time features and make full use of the time information of video to recognize video content. Finally, the LRCN model based on attention mechanism and the LRCN model based on BLSTM network are simulated and verified by Tensorflow deep learning open source framework. The experimental data are based on HMDB-51 and UCF-101 video content recognition data set. Experiments show that the proposed LRCN model based on attention mechanism and the LRCN model based on BLSTM network can effectively improve the accuracy of video content recognition, and the LRCN model based on BLSTM network can converge rapidly in training. At the same time, the attention weight of LRCN model based on attention mechanism is visualized, and the influence of attention weight on video content recognition is analyzed.
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.41;TP181
【相似文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李紹華;馮晶瑩;樓偶俊;景雨;;基于Contourlet變換和神經(jīng)網(wǎng)絡(luò)的視頻水印算法[J];電腦知識(shí)與技術(shù);2014年11期
2 張慶濤;;網(wǎng)絡(luò)視音頻系統(tǒng)前臺(tái)界面設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2014年11期
3 ;Datavideo TV-1000HD/SD虛擬視頻摳像系統(tǒng)[J];影視制作;2014年04期
相關(guān)博士學(xué)位論文 前4條
1 伍博;基于顯著性的視覺(jué)目標(biāo)跟蹤研究[D];電子科技大學(xué);2017年
2 楊超宇;基于計(jì)算機(jī)視覺(jué)的目標(biāo)檢測(cè)跟蹤及特征分類研究[D];中國(guó)礦業(yè)大學(xué)(北京);2017年
3 謝利萍;基于視頻的人臉表情識(shí)別[D];東南大學(xué);2017年
4 南國(guó)順;信息中心網(wǎng)絡(luò)的服務(wù)提供機(jī)制和優(yōu)化研究[D];北京郵電大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 何慶強(qiáng);基于深度學(xué)習(xí)的視頻內(nèi)容識(shí)別技術(shù)研究[D];電子科技大學(xué);2017年
2 汪恭焰;基于對(duì)象的動(dòng)態(tài)視頻濃縮和檢索技術(shù)研究[D];長(zhǎng)春理工大學(xué);2017年
3 楊澤忠;微信小視頻中的人臉識(shí)別關(guān)鍵技術(shù)研究[D];海南大學(xué);2017年
4 馮亞洲;基于Hadoop的電力視頻大數(shù)據(jù)分布式檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京郵電大學(xué);2017年
5 王宇生;基于視頻內(nèi)容的衣服識(shí)別方法研究[D];哈爾濱工業(yè)大學(xué);2017年
6 張亞洲;視頻摘要的算法研究[D];杭州電子科技大學(xué);2017年
7 曹爽;基于多目攝像頭拼接視頻的目標(biāo)跟蹤研究[D];電子科技大學(xué);2017年
8 華澤月;面向老年人走失問(wèn)題的第一人稱視角視頻摘要研究[D];哈爾濱工業(yè)大學(xué);2017年
9 董勝;基于人臉區(qū)域特征相關(guān)性的視頻流人臉識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2017年
10 庾晶;運(yùn)動(dòng)視頻標(biāo)注算法研究[D];南京郵電大學(xué);2017年
,本文編號(hào):1877770
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1877770.html