任務(wù)驅(qū)動(dòng)的可視媒體文字描述技術(shù)
發(fā)布時(shí)間:2024-01-20 10:04
由于人們收集的個(gè)人數(shù)據(jù)呈指數(shù)速度增長(zhǎng),圖像和視頻的數(shù)據(jù)量也隨之增加。相比于文本的方式,現(xiàn)在人們廣泛采用文本附帶圖像或視頻的方式記錄生活。但是,由于圖像或視頻數(shù)據(jù)量較大,在各種社交軟件上上傳圖像與視頻時(shí),人們無(wú)法快速準(zhǔn)確地尋找到感興趣的圖像或視頻片段。針對(duì)上述需求,本文提出了一種基于視頻描述模型的跨模態(tài)視頻日記檢索方法,通過(guò)分析視頻內(nèi)容自動(dòng)生成自然語(yǔ)言描述,實(shí)現(xiàn)了視頻與文本的跨模態(tài)轉(zhuǎn)換,幫助人們?cè)邶嫶蟮囊曨l數(shù)據(jù)庫(kù)中檢索到需要的視頻片段。此外,針對(duì)圖像分辨率對(duì)圖像描述造成的影響,本文提出了一種改進(jìn)的基于級(jí)聯(lián)殘差學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨重建算法,將超分辨圖像應(yīng)用到了圖像描述中,提高了圖像描述的準(zhǔn)確率。1)本文提出了一種文本日記與視頻日記的檢索算法,該方法由三個(gè)過(guò)程組成。視頻的鏡頭分割;谛〔ㄗ儞Q的視頻鏡頭分割方法能夠自適應(yīng)地分割視頻,能較好的檢測(cè)鏡頭邊界。因此本文采用基于小波變換的視頻鏡頭分割方法,首先對(duì)視頻幀之間的亮度差異度進(jìn)行小波多分辨分解,然后去噪得到模極大值點(diǎn),最后跟蹤模極大值點(diǎn)找到鏡頭邊界,從而將視頻分割成具有不同場(chǎng)景的短視頻片段。視頻描述。本文采用了標(biāo)題引導(dǎo)的視覺(jué)顯著性的視...
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3880645
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3880645
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3880645.html
最近更新
教材專著