基于視覺語義增強的視頻描述生成

發(fā)布時間：2024-01-30 01:13

　　隨著人工智能的不斷發(fā)展,視頻描述生成作為自然語言處理和計算機視覺兩個領域相結合的研究課題,在近幾年來受到了廣泛的關注。視頻描述生成,即給定一個視頻片段,讓計算機自動地生成能夠描述與視頻片段內容相關的自然語句。其在實際生活中也有著廣泛的應用,如提高人們在互聯(lián)網(wǎng)上檢索所需視頻的效率,輔助殘障人士理解視頻內容等。目前,由于深度學習在視覺和自然語言處理等多個領域的突破性進展,越來越多的研究方向開始使用深度學習技術來解決相關問題。同樣地,本文在基于深度學習的“編碼器-解碼器”結構的基礎上,對視頻描述生成進行研究。傳統(tǒng)的描述生成模型結構中,通常使用卷積神經(jīng)網(wǎng)絡作為編碼器,循環(huán)神經(jīng)網(wǎng)絡作為解碼器,為視頻片段生成相關句子。由于視覺信息和語義信息之間存在著差異,只通過解碼器是無法很好的學習到兩者之間的關系。為了緩解這個問題,本文通過視覺語義增強以提高視頻描述生成的效果。具體來說,本文通過三個方面來縮小視覺和語義之間的差距。一、針對“編碼器-解碼器”結構只是對生成句子和標注句子進行比對,并不能很好地學習到視覺信息和語義信息之間的關系。我們在此基礎上,添加視覺和語義的相關性計算,通過訓練使模型學習到視覺和語...

【文章頁數(shù)】：59 頁

【學位級別】：碩士

圖2-1簡單的AlexNet網(wǎng)絡結構圖

圖2-2全連接神經(jīng)網(wǎng)絡結構圖

圖2-3卷積

圖2-4邊界填充示意圖

本文編號：3889206

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3889206.html

上一篇：智慧課堂模式在小學數(shù)學教學中的設計與實踐研究
下一篇：基于深度語義的非約束環(huán)境表情識別研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于視覺語義增強的視頻描述生成