基于多頭注意力的視頻標(biāo)注方法研究
發(fā)布時(shí)間:2024-01-27 06:54
視頻標(biāo)注涉及到計(jì)算機(jī)視覺和自然語言處理兩個(gè)領(lǐng)域,是一個(gè)非常有挑戰(zhàn)性的任務(wù)。同時(shí),視頻標(biāo)注也有非常廣泛的實(shí)際應(yīng)用前景,F(xiàn)階段,完全用人工的方式進(jìn)行視頻標(biāo)注無疑可以獲得非常精確的結(jié)果,但是隨著人力成本的迅速增長,社會(huì)對自動(dòng)視頻標(biāo)注方法的需求正變得越來越緊迫。在近年來出現(xiàn)的視頻標(biāo)注模型中,許多都采用了自然語言處理領(lǐng)域廣泛使用的編解碼框架,編碼端使用視頻特征序列生成視頻中間向量表示,然后在解碼端解碼中間向量生成文字序列描述,以序列到序列的方式處理輸入輸出。編解碼框架的使用在很大程度上促進(jìn)了視頻標(biāo)注研究的發(fā)展,但是現(xiàn)行的視頻標(biāo)注模型仍然有一些不足的地方:首先,許多標(biāo)注模型缺乏聚焦關(guān)鍵信息的能力;其次,標(biāo)注模型訓(xùn)練階段和測試階段輸入數(shù)據(jù)不同,導(dǎo)致模型存在解碼誤差傳遞問題;最后,標(biāo)注模型在訓(xùn)練過程中優(yōu)化指標(biāo)是單詞級別的交叉熵?fù)p失,和元組級別的測試指標(biāo)不一致。為了解決上述問題,本文提出了一個(gè)基于多頭注意力的視頻標(biāo)注模型。標(biāo)注模型在傳統(tǒng)的編解碼網(wǎng)絡(luò)上引入多頭注意力機(jī)制,并改進(jìn)模型訓(xùn)練方法與模型優(yōu)化指標(biāo),主要研究工作如下:1.引入多頭注意力機(jī)制使視頻標(biāo)注模型獲得焦距關(guān)鍵信息的能力。多頭注意力機(jī)制可以使得模...
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
本文編號:3886514
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
圖2-3視頻標(biāo)注模型總體結(jié)構(gòu)
圖3-1視頻標(biāo)注總體框架
圖3-2算法標(biāo)注效果
圖4-1增強(qiáng)學(xué)習(xí)框架
本文編號:3886514
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3886514.html
最近更新
教材專著