面向特定場景的視覺問題生成算法研究

發(fā)布時間：2023-08-13 18:19

　　近年來隨著深度學習的快速發(fā)展,視覺問題生成(VQG)逐漸開始成為一項重要的研究內(nèi)容,它的任務形式是對于輸入的圖像給出關(guān)于圖像內(nèi)容的一些問題,VQG在多模態(tài)對話、幼兒教育以及醫(yī)療問診場景都有著十分重要的研究意義。通過對VQG研究現(xiàn)狀的調(diào)研,本文發(fā)現(xiàn)目前大多數(shù)關(guān)于VQG的研究距離某些特定場景(如幼兒教育、醫(yī)療問診等)的實際需求還有很大的差距,主要有兩點不足之處,其一是大多數(shù)VQG模型并不能為生成的問題明確的“指出”圖像中所對應的區(qū)域,即缺乏生成的問題的區(qū)域解釋性;其二是大多數(shù)VQG模型只能生成通用性的問題,即生成的問題的類別(比如關(guān)于顏色、形狀等)是隨機的,這種通用性的問題通常在一些特定場景中是沒有太大意義的,因此如何能夠讓模型生成特定類別的問題是一個比較重要的研究方向。針對上述的第一個缺點,本文首先利用FCLN模型作為輔助模型對輸入圖像預處理,對于每一張圖像都得到不同的目標檢測區(qū)域以及每一個區(qū)域?qū)膬?nèi)容描述語句,然后提出抽取-生成-強化學習(EGR)模型,EGR模型包含Extractor(抽取)、Generator(生成)以及聯(lián)合強化學習三個子模塊,Extractor模塊首先利用注意力...

【文章頁數(shù)】：61 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 研究背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀綜述
        1.2.1 多模態(tài)間映射學習
        1.2.2 視覺文本生成
    1.3 問題的總結(jié)與分析
    1.4 本文的主要工作
    1.5 本文組織結(jié)構(gòu)
第2章視覺問題生成相關(guān)基礎知識介紹
    2.1 視覺特征提取方法
    2.2 詞向量
    2.3 循環(huán)神經(jīng)網(wǎng)絡
    2.4 FCLN模型介紹
    2.5 變分自編碼器
    2.6 本章小結(jié)
第3章問題區(qū)域解釋性研究
    3.1 引言
    3.2 VGG-RNN模型
    3.3 抽取-生成-強化學習模型
        3.3.1 抽取模型
        3.3.2 生成模型
        3.3.3 基于強化學習的聯(lián)合訓練
    3.4 實驗過程與結(jié)果分析
        3.4.1 實驗數(shù)據(jù)集介紹
        3.4.2 評價標準介紹
        3.4.3 實驗環(huán)境
        3.4.4 實驗過程
        3.4.5 實驗結(jié)果可視化
        3.4.6 實驗對比與分析
    3.5 本章小結(jié)
第4章特定類別問題生成研究
    4.1 引言
    4.2 算法總體框架
    4.3 基于注意力機制的編碼器網(wǎng)絡
    4.4 融合隱空間信息的解碼器網(wǎng)絡
    4.5 實驗結(jié)果與分析
        4.5.1 實驗數(shù)據(jù)集介紹
        4.5.2 評價標準介紹
        4.5.3 實驗環(huán)境
        4.5.4 實驗過程
        4.5.5 實驗結(jié)果可視化
        4.5.6 實驗對比和分析
    4.6 本章小結(jié)
結(jié)論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝

本文編號：3841701

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3841701.html

上一篇：結(jié)合注意力機制的文本分類研究
下一篇：基于稀疏表示的摩爾紋噪聲去除方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向特定場景的視覺問題生成算法研究