基于Spatial-DCTHash動(dòng)態(tài)參數(shù)網(wǎng)絡(luò)的視覺問答算法
發(fā)布時(shí)間:2018-05-28 12:49
本文選題:視覺問答 + 動(dòng)態(tài)參數(shù)預(yù)測 ; 參考:《中國科學(xué):信息科學(xué)》2017年08期
【摘要】:隨著深度學(xué)習(xí)和多模態(tài)融合的深入研究,問答系統(tǒng)從傳統(tǒng)的純文本方式擴(kuò)展到結(jié)合圖片的視覺問答,成為計(jì)算機(jī)視覺與自然語言理解的交叉研究熱點(diǎn).Hyeonwoo等最新提出的動(dòng)態(tài)參數(shù)預(yù)測模型(DPPnet)能夠簡單、有效地實(shí)現(xiàn)問句和圖片信息的融合.但是該模型在進(jìn)行網(wǎng)絡(luò)參數(shù)動(dòng)態(tài)Hash分配時(shí)位置隨機(jī),缺乏圖像內(nèi)容空間分布的考慮.針對此不足,本文提出一種新的空間離散余弦Hash動(dòng)態(tài)參數(shù)網(wǎng)絡(luò).算法采用全卷積方式提取保留圖像內(nèi)容空間分布信息的conv7特征.在此基礎(chǔ)上,利用問題信息生成具有一定空間結(jié)構(gòu)性的卷積核,實(shí)現(xiàn)問題與圖像信息融合預(yù)測視覺答案的過程.在COCOqa和MSCOCO-VQA兩個(gè)公開數(shù)據(jù)集上與同期主流算法進(jìn)行了實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果表明,本文的網(wǎng)絡(luò)模型較以往的模型能夠更為精確地預(yù)測視覺問答答案.
[Abstract]:With depth study and multi - modal fusion , the question and answer system is extended from the traditional pure text way to the visual question and answer of the combined picture . The new dynamic parameter prediction model ( DPPnet ) , such as Hyeonwoo , can be used to realize the fusion of the question sentence and the picture information .
【作者單位】: 江西師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院;
【基金】:國家自然科學(xué)基金(批準(zhǔn)號(hào):61365002,61462045,61462042,61662030) 江西省教育廳科技項(xiàng)目(批準(zhǔn)號(hào):GJJ150350)資助
【分類號(hào)】:TP391.1;TP391.41
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 邵立兵;Java程序中動(dòng)態(tài)參數(shù)的傳遞[J];中國計(jì)算機(jī)用戶;1997年19期
2 于國防,袁小平;利用ASP實(shí)現(xiàn)JAVA動(dòng)態(tài)參數(shù)的傳遞[J];計(jì)算機(jī)應(yīng)用;1998年09期
3 邵立兵;Java程序中動(dòng)態(tài)參數(shù)的傳遞[J];微計(jì)算機(jī)應(yīng)用;1997年06期
4 劉玉英,劉亞軍;KJC—Ⅱ型提升機(jī)動(dòng)態(tài)參數(shù)微機(jī)測試儀[J];煤;1999年02期
5 侯加林,劉海波,丁啟勝,王相友,王金星;果樹水分動(dòng)態(tài)參數(shù)的計(jì)算機(jī)測量系統(tǒng)[J];農(nóng)業(yè)機(jī)械學(xué)報(bào);2001年03期
,本文編號(hào):1946756
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1946756.html
最近更新
教材專著