天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 信息工程論文 >

針對(duì)目標(biāo)的視頻文字描述

發(fā)布時(shí)間:2020-08-18 20:44
【摘要】:隨著深度學(xué)習(xí)的成功,人工智能領(lǐng)域取得了革命性的進(jìn)步,各領(lǐng)域的研究發(fā)展迅速,其中計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理結(jié)合領(lǐng)域的研究同樣受到了學(xué)者們廣泛的關(guān)注。視頻文字描述生成就是一項(xiàng)結(jié)合了計(jì)算機(jī)視覺(jué)與自然語(yǔ)言處理的任務(wù),它不僅要求算法模型能夠很好地提取出視頻中的有用信息,還需要模型能夠?qū)⑦@些信息有效地組合起來(lái),準(zhǔn)確地建立與自然語(yǔ)言信息的相關(guān)匹配。首先本文為了建立高性能的視頻文字描述算法,提出了先對(duì)視頻幀建立場(chǎng)景圖然后利用圖卷積進(jìn)行特征編碼的方式。在建立場(chǎng)景圖時(shí),先利用Faster R-cnn目標(biāo)檢測(cè)算法檢測(cè)出視頻幀中各目標(biāo)的位置以及類(lèi)別信息;然后利用這些檢測(cè)信息建立簡(jiǎn)單的全連接模型對(duì)目標(biāo)的實(shí)體屬性信息進(jìn)行檢測(cè);隨后建立關(guān)系檢測(cè)模型對(duì)各個(gè)目標(biāo)之間的關(guān)聯(lián)進(jìn)行檢測(cè),其中為了降低稀疏的目標(biāo)關(guān)聯(lián)造成的檢測(cè)開(kāi)銷(xiāo)過(guò)大問(wèn)題,本文提出了一種基于自注意力的剪枝模型。利用所有的檢測(cè)信息可以構(gòu)建包含有目標(biāo)節(jié)點(diǎn)、目標(biāo)屬性節(jié)點(diǎn)、目標(biāo)關(guān)聯(lián)節(jié)點(diǎn)的場(chǎng)景圖。這樣的場(chǎng)景圖能夠包含視頻幀中幾乎所有的語(yǔ)義信息,然后通過(guò)圖卷積網(wǎng)絡(luò)來(lái)對(duì)場(chǎng)景圖進(jìn)行編碼。然后在利用圖卷積對(duì)視頻幀進(jìn)行編碼時(shí),本文通過(guò)embedding精簡(jiǎn)了以上場(chǎng)景圖結(jié)構(gòu),使場(chǎng)景圖只包含有目標(biāo)節(jié)點(diǎn),目標(biāo)關(guān)聯(lián)通過(guò)有向邊來(lái)表示;然后本文對(duì)圖卷積進(jìn)行了改進(jìn),使之能夠應(yīng)用于有向圖中,并且將乘性注意力機(jī)制添加進(jìn)了圖卷積中,使得圖卷積中各節(jié)點(diǎn)能夠更好的權(quán)衡與鄰居節(jié)點(diǎn)的關(guān)系。通過(guò)這樣的視頻幀編碼方式,能夠使得特征能夠細(xì)化到圖像中的各個(gè)目標(biāo),并且包含各個(gè)目標(biāo)的相互關(guān)聯(lián),相比傳統(tǒng)的對(duì)視頻幀利用卷積網(wǎng)絡(luò)提取的整體特征更加魯棒。隨后為了學(xué)習(xí)到視頻幀之間以及視頻文字描述序列之間的長(zhǎng)時(shí)間步依賴(lài)關(guān)系,本文使用Transformer來(lái)代替?zhèn)鹘y(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò),提高了模型的序列特征學(xué)習(xí)能力以及訓(xùn)練效率。最后的實(shí)驗(yàn)結(jié)果表明,本文所構(gòu)建的算法能夠生成更貼近視頻目標(biāo)的文字描述,在MSR-VTT數(shù)據(jù)集上取得了不錯(cuò)的成績(jī)。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TN919.81;TP391.1
【圖文】:

結(jié)構(gòu)示意圖,輸出門(mén),時(shí)間步,輸入門(mén)


圖 2-2 LSTM 結(jié)構(gòu)示意圖[34]我們用來(lái)更新細(xì)胞狀態(tài)的值可由公式 (2-7) 計(jì)算: Ct= tanh(Wc[xt, ht 1] + bc) 狀態(tài)的更新是由經(jīng)過(guò)遺忘門(mén)遺忘后的細(xì)胞狀態(tài)加上經(jīng)輸入門(mén)篩選后的待,于是當(dāng)前時(shí)間步的細(xì)胞狀態(tài)可以由如下公式 (2-8) 計(jì)算:ct= ftct 1+ it Ct 表示對(duì)應(yīng)元素相乘。輸出門(mén)的作用是決定哪些信息是 LSTM 需要輸以由式 (2-9) 表示:ot= σ(Wo[xt, ht 1] + bo) M 的輸出基于當(dāng)前時(shí)間步已經(jīng)更新過(guò)的細(xì)胞狀態(tài) ct,經(jīng)過(guò)輸出門(mén)的篩選

示意圖,網(wǎng)絡(luò)結(jié)構(gòu),示意圖,循環(huán)網(wǎng)絡(luò)


由 Vaswani[35]等人提出的一種替代 Seq2Seq傳統(tǒng)的 Seq2Seq 模型使用循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)作為賴(lài)于上一個(gè)時(shí)間步的輸出,這樣使得網(wǎng)絡(luò)的長(zhǎng)序列的輸入。這使得包含循環(huán)結(jié)構(gòu)的網(wǎng)絡(luò)型的訓(xùn)練時(shí)間。除此之外,基于門(mén)控改進(jìn)的循緩解了傳統(tǒng)循環(huán)網(wǎng)絡(luò)對(duì)于序列長(zhǎng)距離依賴(lài)學(xué)信息傳遞增益仍然會(huì)衰減,這使得 LSTM 對(duì)用自注意力 (self-attention) 機(jī)制構(gòu)造了一種,這使得序列的每一個(gè)時(shí)間步可以更加容易,而跟距離遠(yuǎn)近無(wú)關(guān),并且序列中所有時(shí)間訓(xùn)練變得更加容易。 Encoder 和 Decoder 均由其各自相同的基礎(chǔ)需要進(jìn)行調(diào)整,其總體的網(wǎng)絡(luò)結(jié)構(gòu)如圖 2-3[35

示意圖,注意力,點(diǎn)積,比例


2-4 比例點(diǎn)積注意力示意圖注意力 (MultiHead Attent比例點(diǎn)積注意力模塊的輸終多頭注意力將不同的比可由如下公式 (2-12) 與= Attention(QWQi, KWKi, VQ,K,V) = Concat(h1, ...,dk, WKiRdmodeldk, WVi積注意力模塊等價(jià)于并行

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李明;;我的幸福我做主[J];青年教師;2011年08期

2 李文明;石巴豐;云華;;“思齊”說(shuō)[J];共產(chǎn)黨員(河北);1998年06期

3 ;頭腦體操[J];小哥白尼(趣味科學(xué)畫(huà)報(bào));2017年02期

4 康振文;;淺談如何利用圖像解決物理問(wèn)題[J];考試周刊;2017年54期

5 韓美齡;;女兒不肯單獨(dú)睡怎么辦?[J];青春期健康;2015年15期

6 ;小兒指診研究的新發(fā)展[J];福建中醫(yī)藥;1988年05期

7 ;觀云日記[J];少兒科學(xué)周刊(兒童版);2013年10期

8 吳祖春;曹東;;舌象圖片的文字描述方法[J];中國(guó)醫(yī)學(xué)教育技術(shù);2012年02期

9 ;一米陽(yáng)光[J];山西教育(幼教);2015年12期

10 雷柳;;商s

本文編號(hào):2796696


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/2796696.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)14a72***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com