融合對(duì)話歷史的視覺對(duì)話技術(shù)研究
發(fā)布時(shí)間:2020-12-08 02:35
近年來深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺和自然語言處理等領(lǐng)域取得了成功。隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,視覺分析、自然語言處理等任務(wù)的性能不斷提升。研究人員開始關(guān)注視覺與語言相結(jié)合的多模態(tài)任務(wù),如圖像描述、視覺問答和視覺對(duì)話等。此類多模態(tài)任務(wù)不僅依賴對(duì)視覺內(nèi)容的準(zhǔn)確分析,同時(shí)也要求對(duì)自然語言的準(zhǔn)確理解。其中,視覺對(duì)話(Visual Dialog)旨在給定一幅圖像、若干輪對(duì)話歷史以及后續(xù)問題后,計(jì)算機(jī)能準(zhǔn)確回答此問題,完成對(duì)話。相比于其他多模態(tài)任務(wù),視覺對(duì)話任務(wù)更為復(fù)雜,且在聊天機(jī)器人、智能客服、盲人輔助導(dǎo)航等領(lǐng)域都有著廣泛的應(yīng)用前景,已成為當(dāng)前的研究熱點(diǎn)。現(xiàn)有的視覺對(duì)話技術(shù)大多采用“編碼器-解碼器”技術(shù)框架,在每一輪對(duì)話中,由多模態(tài)的編碼器將視覺、語言樣本輸入編碼為特征向量,再由解碼器推理并輸出該輪問題的答案。然而,現(xiàn)有方法沒有充分考慮圖像、對(duì)話歷史以及后續(xù)問題之間的相關(guān)性,無法表征三者之間的協(xié)同信息。同時(shí),現(xiàn)有方法僅使用數(shù)據(jù)樣本中正確對(duì)話歷史來生成問題的答案,忽略了錯(cuò)誤對(duì)話歷史對(duì)問題答案的潛在影響,導(dǎo)致模型缺乏對(duì)對(duì)話歷史的敏感性,無法有效地進(jìn)行基于對(duì)話歷史的上下文推理。為充分挖掘利用視覺對(duì)話過程中的對(duì)...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2視覺問答與視覺對(duì)話的共同點(diǎn)與差異??的相似性,因此在研究進(jìn)展上也有相通之處
*'?1?^?L?_??f〇{〇)?\?f/W?I?,c(C)?I?|—\fH{{QA}k)?\?f〇(〇i)?-?f〇(〇roo>??i?i?j?i?i?I?i?]?j?y^v?j?i?]…i?j??丄?I?t?!?t?I?j^5|cESi?I?-??丨丨?/ls?\?丨?y^TM\?丨/^\?丨?AS?\??Q?|?I?j?c?j?Qk?I?Afc?[?〇i^."S-O,00??Query?|?Image?j?Caption?丨?History?:?Options??圖1.3聯(lián)合相似度融合方法??層次循環(huán)編碼方法與后融合方法的區(qū)別在于層次循環(huán)方法并非將對(duì)話歷史??視作段落,而是將對(duì)話歷史中的每一輪問答獨(dú)立處理。此方法對(duì)每一輪問答使用??參數(shù)不共享的長短期記憶網(wǎng)絡(luò)進(jìn)行處理。圖像數(shù)據(jù)在使用經(jīng)過預(yù)訓(xùn)練的卷積神??經(jīng)網(wǎng)絡(luò)處理后,與問題特征向量使用一層長短期記憶網(wǎng)絡(luò)進(jìn)行先融合。最后圖像??問題的融合特征分別與每一輪對(duì)話歷史特征連接,經(jīng)長短期記憶網(wǎng)絡(luò)輸入到解??碼器中。??Jain等人1191提出了聯(lián)合相似度融合方法。該方法在使用卷積神經(jīng)網(wǎng)絡(luò)與長??短期記憶網(wǎng)絡(luò)處理數(shù)據(jù)后,將特征分別映射到高位空間。該方法改變了傳統(tǒng)的編??碼器-解碼器(encoder-decoder)中通過將編碼器輸出與數(shù)據(jù)集中的候選答案點(diǎn)乘??來得到得分排序的做法,而是將候選答案與圖像、問題、對(duì)話歷史特征聯(lián)合融合??直接計(jì)算得分。網(wǎng)絡(luò)示意圖如圖1.3。??基于特征融合的視覺對(duì)話方法考慮了視覺對(duì)話任務(wù)多模態(tài)、多輸出的特點(diǎn),??5??
與的對(duì)話歷史保持一致。??KT'lifc?I?!?Region?1-K?1??你聊?i!??!?i?i??Which?one?is?holding?a?racket??1?■■?i?-1?_任)?i_?■??!?I?^???1???;?7^?-?-?:d=rd?I????I?HI吻?I?,1?I?恭??Q?What?are?their?genders??I?£n辦^??A:?One?male?and?one?female??f?]?The?WOmail??圖1.4雙重注意力網(wǎng)絡(luò)??Kang?等人[21丨提出了雙重注意力網(wǎng)絡(luò)(Dual?Attention?Networks,?DAN)。Kang??等人將模塊網(wǎng)絡(luò)(NMN)的方法引入視覺對(duì)話任務(wù)中,根據(jù)任務(wù)需求設(shè)計(jì)了?FIND??模塊與REFER模塊。REFER模塊用來讓網(wǎng)絡(luò)根據(jù)當(dāng)前問題找到對(duì)話歷史中相??關(guān)的問答信息,解決了對(duì)話中的指代問題。FIND模塊用來根據(jù)文本信息查詢圖??像中的相關(guān)區(qū)域。模型的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1.4|21j。??6??
本文編號(hào):2904304
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2視覺問答與視覺對(duì)話的共同點(diǎn)與差異??的相似性,因此在研究進(jìn)展上也有相通之處
*'?1?^?L?_??f〇{〇)?\?f/W?I?,c(C)?I?|—\fH{{QA}k)?\?f〇(〇i)?-?f〇(〇roo>??i?i?j?i?i?I?i?]?j?y^v?j?i?]…i?j??丄?I?t?!?t?I?j^5|cESi?I?-??丨丨?/ls?\?丨?y^TM\?丨/^\?丨?AS?\??Q?|?I?j?c?j?Qk?I?Afc?[?〇i^."S-O,00??Query?|?Image?j?Caption?丨?History?:?Options??圖1.3聯(lián)合相似度融合方法??層次循環(huán)編碼方法與后融合方法的區(qū)別在于層次循環(huán)方法并非將對(duì)話歷史??視作段落,而是將對(duì)話歷史中的每一輪問答獨(dú)立處理。此方法對(duì)每一輪問答使用??參數(shù)不共享的長短期記憶網(wǎng)絡(luò)進(jìn)行處理。圖像數(shù)據(jù)在使用經(jīng)過預(yù)訓(xùn)練的卷積神??經(jīng)網(wǎng)絡(luò)處理后,與問題特征向量使用一層長短期記憶網(wǎng)絡(luò)進(jìn)行先融合。最后圖像??問題的融合特征分別與每一輪對(duì)話歷史特征連接,經(jīng)長短期記憶網(wǎng)絡(luò)輸入到解??碼器中。??Jain等人1191提出了聯(lián)合相似度融合方法。該方法在使用卷積神經(jīng)網(wǎng)絡(luò)與長??短期記憶網(wǎng)絡(luò)處理數(shù)據(jù)后,將特征分別映射到高位空間。該方法改變了傳統(tǒng)的編??碼器-解碼器(encoder-decoder)中通過將編碼器輸出與數(shù)據(jù)集中的候選答案點(diǎn)乘??來得到得分排序的做法,而是將候選答案與圖像、問題、對(duì)話歷史特征聯(lián)合融合??直接計(jì)算得分。網(wǎng)絡(luò)示意圖如圖1.3。??基于特征融合的視覺對(duì)話方法考慮了視覺對(duì)話任務(wù)多模態(tài)、多輸出的特點(diǎn),??5??
與的對(duì)話歷史保持一致。??KT'lifc?I?!?Region?1-K?1??你聊?i!??!?i?i??Which?one?is?holding?a?racket??1?■■?i?-1?_任)?i_?■??!?I?^???1???;?7^?-?-?:d=rd?I????I?HI吻?I?,1?I?恭??Q?What?are?their?genders??I?£n辦^??A:?One?male?and?one?female??f?]?The?WOmail??圖1.4雙重注意力網(wǎng)絡(luò)??Kang?等人[21丨提出了雙重注意力網(wǎng)絡(luò)(Dual?Attention?Networks,?DAN)。Kang??等人將模塊網(wǎng)絡(luò)(NMN)的方法引入視覺對(duì)話任務(wù)中,根據(jù)任務(wù)需求設(shè)計(jì)了?FIND??模塊與REFER模塊。REFER模塊用來讓網(wǎng)絡(luò)根據(jù)當(dāng)前問題找到對(duì)話歷史中相??關(guān)的問答信息,解決了對(duì)話中的指代問題。FIND模塊用來根據(jù)文本信息查詢圖??像中的相關(guān)區(qū)域。模型的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1.4|21j。??6??
本文編號(hào):2904304
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2904304.html
最近更新
教材專著