當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于先驗(yàn)注意力機(jī)制的視頻問答系統(tǒng)研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-11-17 20:00

　　視頻問答是深度學(xué)習(xí)中重要的問題之一,被廣泛應(yīng)用于安防、廣告系統(tǒng)中,提高視頻問答的準(zhǔn)確率具有非常重要的意義。近年來,理解視頻的內(nèi)容是在現(xiàn)實(shí)世界中開發(fā)各種有用應(yīng)用程序的核心技術(shù)之一,例如識(shí)別監(jiān)視系統(tǒng)的各種人為行為或在自動(dòng)商店中進(jìn)行客戶行為分析。然而,由于其龐大的數(shù)據(jù)量和復(fù)雜的時(shí)間結(jié)構(gòu),理解視頻的內(nèi)容仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。近年來,自然語言處理中注意力機(jī)制方法得到了人們的關(guān)注,并遷移到視頻問答任務(wù)上。但是,現(xiàn)有的方法仍存在四個(gè)方面的不足:一是使用對(duì)整個(gè)視頻進(jìn)行提取特征,這樣雖然能夠捕捉到視頻的所有信息,但是由于視頻本身的冗余性,訓(xùn)練代價(jià)巨大,得不償失;二是部分現(xiàn)有方法采用了提取片段幀信息試圖來描述視頻,提取過多導(dǎo)致內(nèi)容冗余,提取過少造成內(nèi)容缺失;三是問題的處理比較粗糙,并沒有對(duì)停用詞進(jìn)行處理;四是現(xiàn)有的模型并沒有考慮視頻問答任務(wù)復(fù)雜性與邏輯性。以上的不足影響了模型的泛化性能,同時(shí)由于準(zhǔn)確率低使得現(xiàn)有的視頻問答模型不能夠廣泛應(yīng)用于工業(yè)界。本文在注意力機(jī)制框架下,提出了先驗(yàn)信息注意力機(jī)制MASK模型,并在這基礎(chǔ)之上提出了兩種不同的視頻問答方案:先驗(yàn)MASK的多注意力機(jī)制的視頻問答方案和先驗(yàn)M...

【文章來源】：江南大學(xué)江蘇省 211工程院校教育部直屬院校

【文章頁數(shù)】：64 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

短視頻公司同時(shí)，根據(jù)近兩年的短視頻用戶的活動(dòng)記錄，如圖1-2所示，短視頻用戶規(guī)

基于先驗(yàn)注意力機(jī)制的視頻問答系統(tǒng)研究與實(shí)現(xiàn)

短視頻用戶規(guī)模及其預(yù)測(cè)

字節(jié),產(chǎn)品,視頻,文本

江南大學(xué)碩士學(xué)位論文2根據(jù)字節(jié)跳動(dòng)公司抖音產(chǎn)品的短視頻產(chǎn)品鏈，如圖1-3所示。圖1-3字節(jié)跳動(dòng)短視頻產(chǎn)品鏈可以發(fā)現(xiàn)，視頻內(nèi)容要想能夠獲利，必須要經(jīng)過營(yíng)銷平臺(tái)進(jìn)入大眾的視野，而內(nèi)容是整個(gè)短視頻產(chǎn)品鏈的重點(diǎn)。視頻內(nèi)容需要經(jīng)過人工審核才能進(jìn)入用戶眼中，然而完全通過人工審核視頻卻是不現(xiàn)實(shí)的，如何高效地理解視頻內(nèi)容成為短視頻產(chǎn)品鏈的重中之重。同時(shí)，如何從大量信息中篩選出有價(jià)值的信息一直是計(jì)算機(jī)科學(xué)家們考慮的問題，單純的靠工作人員來篩選信息幾乎不可能，也不現(xiàn)實(shí)。同時(shí)網(wǎng)絡(luò)上充滿著各種言論，信息的可靠性不能得到保證。面對(duì)大量的文本信息，出現(xiàn)了閱讀理解任務(wù)。給定一段文本，對(duì)該文本的內(nèi)容進(jìn)行提問，然后閱讀理解任務(wù)會(huì)給出該問題的答案，從而減少了人們?cè)诖罅课谋局泻Y選信息的時(shí)間。而對(duì)于圖像而言，給定一張圖像，提出與圖像內(nèi)容相關(guān)的問題，讓圖像問答任務(wù)給出該問題的答案。隨著手機(jī)、平板電腦的普及，單純的文本或者圖像已經(jīng)很難滿足人類的需求。而視頻是結(jié)合了圖像以及文本的媒體，相對(duì)于圖像或者文本而言，一段短視頻含有的信息量更多。因此社交軟件、新聞軟件等80%是通過短視頻來傳達(dá)信息。但是視頻的處理卻不能僅僅將圖像問答以及文本閱讀理解方法簡(jiǎn)單遷移過去，原因在于視頻信息具有時(shí)間、空間上的維度信息,因此處理起來更加棘手。視頻問答是一種計(jì)算機(jī)科學(xué)中屬于多模態(tài)的機(jī)器學(xué)習(xí)任務(wù)，涉及了文本、圖像、音頻等多個(gè)媒體。如何將這些信息進(jìn)行有效地融合成為目前視頻問答任務(wù)的重點(diǎn)。視頻問答任務(wù)簡(jiǎn)單來說，與圖像問答一致，只不過目標(biāo)不是圖像，而是一段短視頻，通過理解短視頻以及與短視頻相關(guān)的問題，從而得到問題的答案。相對(duì)于圖像問答以及閱讀理解而言，視頻問答任務(wù)更加具有挑戰(zhàn)性。一方面，視頻?

【參考文獻(xiàn)】：
期刊論文
[1]Video Description with Integrated Visual and Textual Information[J]. Yue Wang,Jinlai Liu,Xiaojie Wang. 中國(guó)通信. 2019(01)
[2]神經(jīng)機(jī)器翻譯綜述[J]. 李亞超,熊德意,張民. 計(jì)算機(jī)學(xué)報(bào). 2018(12)

碩士論文
[1]基于深度學(xué)習(xí)方法的視頻問答研究[D]. 梁麗麗.哈爾濱理工大學(xué) 2019

本文編號(hào)：3501564

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3501564.html

上一篇：深度學(xué)習(xí)條件下的多攝像機(jī)行人視頻目標(biāo)再識(shí)別研究
下一篇：基于點(diǎn)對(duì)特征描述子的三維物體識(shí)別和位姿估計(jì)方法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于先驗(yàn)注意力機(jī)制的視頻問答系統(tǒng)研究與實(shí)現(xiàn)