基于視覺語義增強的視頻描述生成
發(fā)布時間:2024-01-30 01:13
隨著人工智能的不斷發(fā)展,視頻描述生成作為自然語言處理和計算機視覺兩個領域相結合的研究課題,在近幾年來受到了廣泛的關注。視頻描述生成,即給定一個視頻片段,讓計算機自動地生成能夠描述與視頻片段內容相關的自然語句。其在實際生活中也有著廣泛的應用,如提高人們在互聯(lián)網(wǎng)上檢索所需視頻的效率,輔助殘障人士理解視頻內容等。目前,由于深度學習在視覺和自然語言處理等多個領域的突破性進展,越來越多的研究方向開始使用深度學習技術來解決相關問題。同樣地,本文在基于深度學習的“編碼器-解碼器”結構的基礎上,對視頻描述生成進行研究。傳統(tǒng)的描述生成模型結構中,通常使用卷積神經(jīng)網(wǎng)絡作為編碼器,循環(huán)神經(jīng)網(wǎng)絡作為解碼器,為視頻片段生成相關句子。由于視覺信息和語義信息之間存在著差異,只通過解碼器是無法很好的學習到兩者之間的關系。為了緩解這個問題,本文通過視覺語義增強以提高視頻描述生成的效果。具體來說,本文通過三個方面來縮小視覺和語義之間的差距。一、針對“編碼器-解碼器”結構只是對生成句子和標注句子進行比對,并不能很好地學習到視覺信息和語義信息之間的關系。我們在此基礎上,添加視覺和語義的相關性計算,通過訓練使模型學習到視覺和語...
【文章頁數(shù)】:59 頁
【學位級別】:碩士
本文編號:3889206
【文章頁數(shù)】:59 頁
【學位級別】:碩士
圖2-1簡單的AlexNet網(wǎng)絡結構圖
圖2-2全連接神經(jīng)網(wǎng)絡結構圖
圖2-3卷積
圖2-4邊界填充示意圖
本文編號:3889206
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3889206.html
最近更新
教材專著