基于先驗(yàn)注意力機(jī)制的視頻問答系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-11-17 20:00
視頻問答是深度學(xué)習(xí)中重要的問題之一,被廣泛應(yīng)用于安防、廣告系統(tǒng)中,提高視頻問答的準(zhǔn)確率具有非常重要的意義。近年來,理解視頻的內(nèi)容是在現(xiàn)實(shí)世界中開發(fā)各種有用應(yīng)用程序的核心技術(shù)之一,例如識(shí)別監(jiān)視系統(tǒng)的各種人為行為或在自動(dòng)商店中進(jìn)行客戶行為分析。然而,由于其龐大的數(shù)據(jù)量和復(fù)雜的時(shí)間結(jié)構(gòu),理解視頻的內(nèi)容仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。近年來,自然語言處理中注意力機(jī)制方法得到了人們的關(guān)注,并遷移到視頻問答任務(wù)上。但是,現(xiàn)有的方法仍存在四個(gè)方面的不足:一是使用對(duì)整個(gè)視頻進(jìn)行提取特征,這樣雖然能夠捕捉到視頻的所有信息,但是由于視頻本身的冗余性,訓(xùn)練代價(jià)巨大,得不償失;二是部分現(xiàn)有方法采用了提取片段幀信息試圖來描述視頻,提取過多導(dǎo)致內(nèi)容冗余,提取過少造成內(nèi)容缺失;三是問題的處理比較粗糙,并沒有對(duì)停用詞進(jìn)行處理;四是現(xiàn)有的模型并沒有考慮視頻問答任務(wù)復(fù)雜性與邏輯性。以上的不足影響了模型的泛化性能,同時(shí)由于準(zhǔn)確率低使得現(xiàn)有的視頻問答模型不能夠廣泛應(yīng)用于工業(yè)界。本文在注意力機(jī)制框架下,提出了先驗(yàn)信息注意力機(jī)制MASK模型,并在這基礎(chǔ)之上提出了兩種不同的視頻問答方案:先驗(yàn)MASK的多注意力機(jī)制的視頻問答方案和先驗(yàn)M...
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
短視頻公司同時(shí),根據(jù)近兩年的短視頻用戶的活動(dòng)記錄,如圖1-2所示,短視頻用戶規(guī)
短視頻用戶規(guī)模及其預(yù)測(cè)
江南大學(xué)碩士學(xué)位論文2根據(jù)字節(jié)跳動(dòng)公司抖音產(chǎn)品的短視頻產(chǎn)品鏈,如圖1-3所示。圖1-3字節(jié)跳動(dòng)短視頻產(chǎn)品鏈可以發(fā)現(xiàn),視頻內(nèi)容要想能夠獲利,必須要經(jīng)過營(yíng)銷平臺(tái)進(jìn)入大眾的視野,而內(nèi)容是整個(gè)短視頻產(chǎn)品鏈的重點(diǎn)。視頻內(nèi)容需要經(jīng)過人工審核才能進(jìn)入用戶眼中,然而完全通過人工審核視頻卻是不現(xiàn)實(shí)的,如何高效地理解視頻內(nèi)容成為短視頻產(chǎn)品鏈的重中之重。同時(shí),如何從大量信息中篩選出有價(jià)值的信息一直是計(jì)算機(jī)科學(xué)家們考慮的問題,單純的靠工作人員來篩選信息幾乎不可能,也不現(xiàn)實(shí)。同時(shí)網(wǎng)絡(luò)上充滿著各種言論,信息的可靠性不能得到保證。面對(duì)大量的文本信息,出現(xiàn)了閱讀理解任務(wù)。給定一段文本,對(duì)該文本的內(nèi)容進(jìn)行提問,然后閱讀理解任務(wù)會(huì)給出該問題的答案,從而減少了人們?cè)诖罅课谋局泻Y選信息的時(shí)間。而對(duì)于圖像而言,給定一張圖像,提出與圖像內(nèi)容相關(guān)的問題,讓圖像問答任務(wù)給出該問題的答案。隨著手機(jī)、平板電腦的普及,單純的文本或者圖像已經(jīng)很難滿足人類的需求。而視頻是結(jié)合了圖像以及文本的媒體,相對(duì)于圖像或者文本而言,一段短視頻含有的信息量更多。因此社交軟件、新聞軟件等80%是通過短視頻來傳達(dá)信息。但是視頻的處理卻不能僅僅將圖像問答以及文本閱讀理解方法簡(jiǎn)單遷移過去,原因在于視頻信息具有時(shí)間、空間上的維度信息,因此處理起來更加棘手。視頻問答是一種計(jì)算機(jī)科學(xué)中屬于多模態(tài)的機(jī)器學(xué)習(xí)任務(wù),涉及了文本、圖像、音頻等多個(gè)媒體。如何將這些信息進(jìn)行有效地融合成為目前視頻問答任務(wù)的重點(diǎn)。視頻問答任務(wù)簡(jiǎn)單來說,與圖像問答一致,只不過目標(biāo)不是圖像,而是一段短視頻,通過理解短視頻以及與短視頻相關(guān)的問題,從而得到問題的答案。相對(duì)于圖像問答以及閱讀理解而言,視頻問答任務(wù)更加具有挑戰(zhàn)性。一方面,視頻?
【參考文獻(xiàn)】:
期刊論文
[1]Video Description with Integrated Visual and Textual Information[J]. Yue Wang,Jinlai Liu,Xiaojie Wang. 中國(guó)通信. 2019(01)
[2]神經(jīng)機(jī)器翻譯綜述[J]. 李亞超,熊德意,張民. 計(jì)算機(jī)學(xué)報(bào). 2018(12)
碩士論文
[1]基于深度學(xué)習(xí)方法的視頻問答研究[D]. 梁麗麗.哈爾濱理工大學(xué) 2019
本文編號(hào):3501564
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
短視頻公司同時(shí),根據(jù)近兩年的短視頻用戶的活動(dòng)記錄,如圖1-2所示,短視頻用戶規(guī)
短視頻用戶規(guī)模及其預(yù)測(cè)
江南大學(xué)碩士學(xué)位論文2根據(jù)字節(jié)跳動(dòng)公司抖音產(chǎn)品的短視頻產(chǎn)品鏈,如圖1-3所示。圖1-3字節(jié)跳動(dòng)短視頻產(chǎn)品鏈可以發(fā)現(xiàn),視頻內(nèi)容要想能夠獲利,必須要經(jīng)過營(yíng)銷平臺(tái)進(jìn)入大眾的視野,而內(nèi)容是整個(gè)短視頻產(chǎn)品鏈的重點(diǎn)。視頻內(nèi)容需要經(jīng)過人工審核才能進(jìn)入用戶眼中,然而完全通過人工審核視頻卻是不現(xiàn)實(shí)的,如何高效地理解視頻內(nèi)容成為短視頻產(chǎn)品鏈的重中之重。同時(shí),如何從大量信息中篩選出有價(jià)值的信息一直是計(jì)算機(jī)科學(xué)家們考慮的問題,單純的靠工作人員來篩選信息幾乎不可能,也不現(xiàn)實(shí)。同時(shí)網(wǎng)絡(luò)上充滿著各種言論,信息的可靠性不能得到保證。面對(duì)大量的文本信息,出現(xiàn)了閱讀理解任務(wù)。給定一段文本,對(duì)該文本的內(nèi)容進(jìn)行提問,然后閱讀理解任務(wù)會(huì)給出該問題的答案,從而減少了人們?cè)诖罅课谋局泻Y選信息的時(shí)間。而對(duì)于圖像而言,給定一張圖像,提出與圖像內(nèi)容相關(guān)的問題,讓圖像問答任務(wù)給出該問題的答案。隨著手機(jī)、平板電腦的普及,單純的文本或者圖像已經(jīng)很難滿足人類的需求。而視頻是結(jié)合了圖像以及文本的媒體,相對(duì)于圖像或者文本而言,一段短視頻含有的信息量更多。因此社交軟件、新聞軟件等80%是通過短視頻來傳達(dá)信息。但是視頻的處理卻不能僅僅將圖像問答以及文本閱讀理解方法簡(jiǎn)單遷移過去,原因在于視頻信息具有時(shí)間、空間上的維度信息,因此處理起來更加棘手。視頻問答是一種計(jì)算機(jī)科學(xué)中屬于多模態(tài)的機(jī)器學(xué)習(xí)任務(wù),涉及了文本、圖像、音頻等多個(gè)媒體。如何將這些信息進(jìn)行有效地融合成為目前視頻問答任務(wù)的重點(diǎn)。視頻問答任務(wù)簡(jiǎn)單來說,與圖像問答一致,只不過目標(biāo)不是圖像,而是一段短視頻,通過理解短視頻以及與短視頻相關(guān)的問題,從而得到問題的答案。相對(duì)于圖像問答以及閱讀理解而言,視頻問答任務(wù)更加具有挑戰(zhàn)性。一方面,視頻?
【參考文獻(xiàn)】:
期刊論文
[1]Video Description with Integrated Visual and Textual Information[J]. Yue Wang,Jinlai Liu,Xiaojie Wang. 中國(guó)通信. 2019(01)
[2]神經(jīng)機(jī)器翻譯綜述[J]. 李亞超,熊德意,張民. 計(jì)算機(jī)學(xué)報(bào). 2018(12)
碩士論文
[1]基于深度學(xué)習(xí)方法的視頻問答研究[D]. 梁麗麗.哈爾濱理工大學(xué) 2019
本文編號(hào):3501564
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3501564.html
最近更新
教材專著