結(jié)合視覺(jué)內(nèi)容理解與文本信息分析的視覺(jué)問(wèn)答方法研究
發(fā)布時(shí)間:2021-03-03 17:16
隨著人工智能與機(jī)器學(xué)習(xí)的快速發(fā)展,計(jì)算機(jī)視覺(jué)任務(wù)和自然語(yǔ)言處理任務(wù)受到了越來(lái)越多的研究者的關(guān)注,特別是將圖像和文字兩者結(jié)合的領(lǐng)域更是得到了廣大研究者們的青睞。其中,視覺(jué)問(wèn)答系統(tǒng)(Visual Question Answering,VQA)就是其中一個(gè)引人注目的研究領(lǐng)域。就單純的計(jì)算機(jī)視覺(jué)任務(wù)而言,科研人員對(duì)物體檢測(cè)、圖像分割等傳統(tǒng)視覺(jué)任務(wù)的探索,已經(jīng)超越了人類肉眼的識(shí)別能力,這些研究方向已經(jīng)達(dá)到了極限;同樣地,就自然語(yǔ)言處理任務(wù)而言,該領(lǐng)域內(nèi)的語(yǔ)言翻譯等傳統(tǒng)任務(wù)也已經(jīng)達(dá)到了人類的認(rèn)知水準(zhǔn),在傳統(tǒng)自然語(yǔ)言任務(wù)上的發(fā)展,已經(jīng)到達(dá)了瓶頸,對(duì)文字和語(yǔ)音的識(shí)別率已經(jīng)很高,進(jìn)一步的發(fā)展空間受到了限制。因此,研究者們將研究重心從傳統(tǒng)的研究方向,轉(zhuǎn)換到圖像和文字兩者相結(jié)合的研究方向,而視覺(jué)問(wèn)答系統(tǒng)就是其中受到越來(lái)越多的研究者關(guān)注的方向。視覺(jué)問(wèn)答系統(tǒng)(VQA)涉及到對(duì)圖像和對(duì)應(yīng)的問(wèn)題的理解,隨著自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等深度學(xué)習(xí)相關(guān)研究領(lǐng)域的快速發(fā)展。目前針對(duì)視覺(jué)問(wèn)答系統(tǒng)的研究工作高度依賴于數(shù)據(jù)集的知識(shí)。但是除了數(shù)據(jù)集知識(shí)以外,某些問(wèn)題還需要更專業(yè)的知識(shí)才能正確回答問(wèn)題。為了解決這類問(wèn)題,本文創(chuàng)新性地提...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)的卷積操作
最大池化操作示例
Sigmoid函數(shù)的圖像
本文編號(hào):3061628
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
卷積神經(jīng)網(wǎng)絡(luò)的卷積操作
最大池化操作示例
Sigmoid函數(shù)的圖像
本文編號(hào):3061628
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3061628.html
最近更新
教材專著