天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的視頻描述技術研究與應用

發(fā)布時間:2020-05-24 01:01
【摘要】:視頻描述技術旨為視頻自動生成自然語言描述句。該技術在社交網(wǎng)絡、監(jiān)控系統(tǒng)和人機交互系統(tǒng)等多種場合中都有著巨大的應用價值。視頻描述任務不但涉及視覺信息處理,例如提取視頻中的物體和關系等詞語,而且要生成滿足語法約束的自然語言句子。其研究不僅有助于推動視覺和語言信息處理技術的發(fā)展,還有助于推動這兩類技術的融合發(fā)展。當前的視頻描述技術通常為視頻片段生成一個描述句,常用的模型框架基于卷積神經(jīng)網(wǎng)絡-長短時記憶網(wǎng)絡(Convolutional Neural Network-Long Short Term Memory,CNN-LSTM)的編碼-解碼器結構。雖然該模型已取得一定的研究成果,但仍然存在著一些待解決的問題,包括:1)對語言信息的利用還不夠深入;2)對視覺和語言融合信息的分析利用還不夠深入;3)對視覺和語言信息之間的交互作用分析還不夠深入。本文重點針對以上三個問題開展研究,主要工作和成果包括:1)提出了一種加入句子主謂賓監(jiān)督信息的視頻描述模型(Video Description with Subject-Verb-Object Supervision,VD-SVOs)。該模型在經(jīng)典CNN-LSTM結構的基礎上,在LSTM網(wǎng)絡輸出端加入了主謂賓的分類器。主謂賓信息是一個句子的骨架信息,它包含了一個句子的主要內(nèi)容及基本的句法結構,對于提高描述語言的質量具有重要價值。在Youtube2Text視頻描述數(shù)據(jù)集上28.29%的METEOR實驗結果表明,本文提出的VD-SVOs模型所生成的句子能更好地符合句法規(guī)則,具有比基準模型更好的性能。2)提出了一種視覺和文本信息融合的視頻描述模型(Video Description with Integrated Information of Vision and Text,VD-ivt)。該模型通過在基礎結構中加入兩個約束通道來促進圖文信息的融合。VD-ivt模型包括三個通道,第一個通道為基礎的CNN-LSTM生成結構;第二個通道為句子到句子的編碼解碼結構,用來學習語言信息;第三個通道在編碼端依次輸入視覺和文本信息,通過LSTM網(wǎng)絡進行融合,加強了文本和視覺模態(tài)信息間的聯(lián)系。在Youtube2Text和LSMDC數(shù)據(jù)集上的實驗結果表明,VD-ivt模型分別取得了 29.84%和7.5%的METEOR結果,均優(yōu)于其他基準模型,可視化分析表明VD-ivt模型學習到了視覺和文本的融合表示。3)提出了一種基于同步交叉注意力的圖像描述模型(Image Caption with Synchronous Cross-Attention,IC-SCA)。該模型在提取視覺信息時加入文本信息的監(jiān)督,而在文本生成時加入視覺信息的監(jiān)督。IC-SCA模型首先基于上一時刻的詞表示和圖像特征構建上一時刻詞的視覺表示,然后輸入到LSTM網(wǎng)絡中預測當前時刻詞的視覺表示,并將其作為視覺監(jiān)督信息輸入到gLSTM網(wǎng)絡中生成描述詞。在MS-COCO圖像描述數(shù)據(jù)集上的實驗結果表明,IC-SCA模型取得了 100%的CIDEr值,優(yōu)于基準模型。通過可視化模型中的向量表示驗證了所提的注意力信息包含了一定的序列關系。4)設計并實現(xiàn)了一個基于視頻描述模型的“盲眼”系統(tǒng),在手機和網(wǎng)頁兩個終端上展示。網(wǎng)頁端的應用可以針對用戶上傳的視頻生成相應的描述句,而手機端的應用則可以錄制一段視頻文件,生成對應的描述句,并由語音說出。“盲眼”系統(tǒng)意在為視覺有障礙的人提供當前場景的信息,為他們的日常生活提供便利。
【圖文】:

視頻,示例


邐逡逑圖1-1給出了一個視頻描述任務的例子。從圖中可以看出,該任務的輸入是逡逑一段視頻片段,目前評測數(shù)據(jù)中的視頻片段長度通常在10秒到20秒之間,輸出逡逑則是該視頻的描述語句,通常是一個完整的不超過20個單詞的英語句子。與視逡逑頻分類任務識別出標簽類別不同,視頻描述任務生成的是一個內(nèi)容豐富并且滿足逡逑語法條件的自然語句。同時與基于一些關鍵信息進行自然語言生成的任務不同,逡逑視頻描述任務直接基于視覺信息進行描述句生成,因此,需要提取視覺信息,例逡逑如識別視頻中的物體形態(tài)、人物動作和物體之間的關系等。顯然,,視頻描述任務逡逑需要依托計算機視覺(Computer邋Vison,CV)和自然語言處理(Natural邋Language逡逑Processing,NLP)兩個領域理論和技術的共同支撐。因而,開展視頻描述領域的逡逑研宄工作,有助于促進多模態(tài)信息融合與交互技術的發(fā)展,進一步啟發(fā)和促進其逡逑他多模態(tài)任務的研宄,這對于相關學科學術的研宄和探討具有重要的意義。由于逡逑視頻描述技術所具有的巨大應用前景和重要學術價值,促使眾多的學者從各自的逡逑領域出發(fā),在不同層面和不同角度開展相關的研究。逡逑

模型結構,圖像描述


用于生成語言描述句逡逑2015年,Vinyals等人[51]參考機器翻譯模型[45],提出一個基于深度神經(jīng)網(wǎng)絡逡逑結構的NIC邋(Neural邋Image邋Caption)模型,用于解決圖像描述問題,結構如圖1-2逡逑所示。在圖的左端,該模型采用AlexNet網(wǎng)絡[29]提取圖像特征。之后,在右端先逡逑將圖像特征輸入到長短時記憶網(wǎng)絡(Long邋Short-Term邋Memory,邋LSTM)的第一個逡逑單元。然后在第二個時刻輸入句子的起始符<START>,之后每個時刻逐次輸入逡逑上一個時刻的輸出詞,預測當前時刻的詞,該過程直到預測出句子的結束符逡逑<END>停止,最終輸出完整描述句。在圖像描述集上評測,結果說明NIC模型逡逑超過了其他描述模型的結果。不同于NIC模型只采用嵌套矩陣建模詞表示,Mao逡逑等人[52]使用一個2層的嵌套網(wǎng)絡學習詞表示。然后使用一個多模態(tài)層將文本表逡逑示和視覺信息融合在一起解決圖像描述任務。而在2016年,Wang等人[53]采用逡逑一個雙向的長短時記憶網(wǎng)絡(Bi-directional邋Long邋Short-Term邋Memory
【學位授予單位】:北京郵電大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.41;TP183

【相似文獻】

相關期刊論文 前10條

1 康杰;楊達;李永濤;;犯罪描述技術:偵查心理應用研究的前沿[J];中國刑警學院學報;2005年01期

2 劉傳虎;不同勘探開發(fā)階段的儲層地震描述技術[J];中國石油勘探;2003年02期

3 孫玉芝;;“標準物質描述技術規(guī)范研究制定及試點應用”項目通過驗收[J];中國計量;2006年06期

4 石砥石,譚俊敏,王大華,范云;地震描述技術在新灘油田儲量計算中的應用[J];海洋石油;2002年03期

5 史小平;特高含水期剩余油分布的定量描述技術[J];內(nèi)蒙古石油化工;2004年01期

6 林淑榮,張明學;精細構造描述技術在油田開發(fā)中的應用[J];油氣田地面工程;2004年04期

7 張廣泉;計算機網(wǎng)絡通信協(xié)議的一種形式化描述技術[J];重慶師范學院學報(自然科學版);1999年01期

8 胡言微語;;“標準如歌”——標準化之音樂論[J];標準生活;2010年03期

9 盧安,李樹東,任懷志;工作描述技術在農(nóng)村衛(wèi)技人員培訓中的應用[J];實用鄉(xiāng)村醫(yī)生雜志;1996年02期

10 張忠社;郭衛(wèi)國;;基于路徑描述技術的配電能力研究[J];自動化與儀器儀表;2019年05期

相關會議論文 前8條

1 王秀娟;;大慶外圍低滲透油藏精細地質描述技術[A];2004第三屆油氣儲層研討會論文摘要集[C];2004年

2 史永晉;;基于慣性導航系統(tǒng)的海底管道軌跡描述技術研究[A];第十五屆中國海洋(岸)工程學術討論會論文集(上)[C];2011年

3 陳建文;戴春山;龔建明;于常青;符溪;白志琳;徐華寧;高紅芳;;中國海域層序地層學環(huán)境描述技術[A];2001年全國沉積學大會摘要論文集[C];2001年

4 谷國翠;孫明江;李國棟;姜蕾;;分流河道砂體識別與描述技術研究——以營子街地區(qū)沙三上亞段為例[A];中國石油學會2017年物探技術研討會論文集[C];2017年

5 苑書金;;大牛地氣田致密儲層地震描述技術的研究和應用[A];中國地球物理學會第二十三屆年會論文集[C];2007年

6 王咸彬;;準噶爾盆地腹部隱蔽圈閉識別與描述技術[A];中國地球物理·2009[C];2009年

7 亓校湘;;三角洲前緣相儲層定量描述技術及對儲層沉積特征的認識[A];2002低滲透油氣儲層研討會論文摘要集[C];2002年

8 高平;于正軍;張建芝;;斷陷湖盆陡坡帶砂礫巖扇體地球物理描述技術[A];中國地球物理學會第二十三屆年會論文集[C];2007年

相關重要報紙文章 前7條

1 記者 王志田 通訊員 孫加平;“兩特低”油藏綜合描述技術取得成功[N];中國石油報;2006年

2 通訊員 周小松 劉憲明;采油六廠井震結合搞挖潛[N];大慶日報;2010年

3 路智勇 勝利油田現(xiàn)河采油廠廠長;通過創(chuàng)新實踐消滅低效儲量[N];中國石化報;2019年

4 王宏偉 周洪波;謹防戰(zhàn)術上的“被動鎖定”[N];中國國防報;2007年

5 本報記者 吳苡婷;快速精確反應 打造監(jiān)控產(chǎn)業(yè)的新藍海[N];上?萍紙;2013年

6 公安部第三研究所 胡傳平 梅林;視頻監(jiān)控如何應對深度應用的挑戰(zhàn)[N];人民公安報;2010年

7 于鴻升 記者 欒哲;企校聯(lián)姻育人才[N];吉林日報;2011年

相關博士學位論文 前1條

1 汪悅;基于深度學習的視頻描述技術研究與應用[D];北京郵電大學;2019年

相關碩士學位論文 前7條

1 姜福東;薩中密井網(wǎng)開發(fā)區(qū)儲層綜合描述技術研究[D];東北石油大學;2010年

2 韓東妹;漢字字形描述技術研究[D];內(nèi)蒙古師范大學;2007年

3 張君泉;基于語義Web的服務描述技術研究[D];山東科技大學;2006年

4 張鈺;異構網(wǎng)絡可編程設備互操作技術研究[D];大連理工大學;2007年

5 李田田;技術路線圖在科技奧運中的應用研究[D];河南大學;2007年

6 李金金;基于k曲率的尺度空間描述技術研究[D];蘇州大學;2014年

7 嚴健;TCP/IP協(xié)議魯棒性測試研究[D];華中科技大學;2009年



本文編號:2678223

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2678223.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶0efa9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com