基于多層次選擇性視覺語義屬性特征的圖像中文描述生成算法

發(fā)布時間：2023-03-20 00:06

　　圖像描述是一項集機器學習、計算機視覺和自然語言處理于一體的跨模態(tài)任務。該任務要求算法模型能夠對視覺和語言兩種不同模態(tài)的信息進行轉換。當前大多數(shù)研究主要集中在圖像的英文描述,而對圖像中文描述的研究相對較少。目前大多數(shù)方法過分依賴于語言模型,缺乏對圖像視覺信息的足夠關注。如何根據(jù)中文特點應用視覺語義特征,論文提出了基于多層次選擇性視覺語義屬性特征的圖像中文描述生成算法。該算法專注于學習圖像高層視覺語義對應的中文屬性信息,結合目標檢測和注意力機制,形成多層次、多粒度的屬性上下文表示,能夠豐富描述語句的表述內容和實現(xiàn)視覺-語義的有效關聯(lián)。該算法已在當前中文圖像描述數(shù)據(jù)量最大最完善的AI Challenger2017圖像中文描述數(shù)據(jù)集和廣泛使用的Flick8k-CN圖像中文描述數(shù)據(jù)集上進行了測試。實驗結果表明,該算法較現(xiàn)階段主流圖像描述算法在各項評價指標上均有約3%-30%的較大幅度提升。實際生成效果也顯示,該算法能夠為圖像生成準確、豐富、相對比較生動的中文描述。相關源代碼和模型已在github公開。

【文章頁數(shù)】：44 頁

【學位級別】：碩士

【文章目錄】：
摘要
Abstract
1 緒論
    1.1 課題背景及研究意義
    1.2 國內外研究現(xiàn)狀
    1.3 本文的主要研究內容和創(chuàng)新點
2 模型整體框架
    2.1 端到端(編碼-解碼)圖像描述模型結構
    2.2 中文標注數(shù)據(jù)預處理
    2.3 圖像中文描述整體框架
3 基于卷積神經(jīng)網(wǎng)絡和目標檢測的多層次多粒度圖像特征提取
    3.1 卷積神經(jīng)網(wǎng)絡
        3.1.1 卷積神經(jīng)網(wǎng)絡原理(發(fā)展,基本結構)
        3.1.2 主流卷積神經(jīng)網(wǎng)絡模型
    3.2 圖像底層視覺特征檢測器
    3.3 圖像高層屬性特征檢測器
        3.3.1 高層語義屬性詞表構建
        3.3.2 基于多標簽分類的圖像高層屬性特征檢測器
    3.4 目標檢測
        3.4.1 目標檢測技術概述
        3.4.2 基于深度學習的目標檢測
    3.5 基于YOLO的多粒度圖像高層屬性特征檢測器
        3.5.1 YOLO目標檢測算法
        3.5.2 基于YOLO的多粒度圖像高層屬性特征檢測器
4 基于循環(huán)神經(jīng)網(wǎng)絡和注意力機制的中文描述生成
    4.1 循環(huán)神經(jīng)網(wǎng)絡
    4.2 注意力機制
    4.3 基于注意力機制LSTM的中文描述生成
5 模型實驗與分析
    5.1 數(shù)據(jù)集
        5.1.1 AI Challenger2017 圖像中文描述數(shù)據(jù)集
        5.1.2 Flick8k-CN圖像中文描述數(shù)據(jù)集
    5.2 實驗細節(jié)
    5.3 評測指標
結論
參考文獻
致謝
在讀期間公開發(fā)表論文(著)及科研情況

本文編號：3766271

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3766271.html

上一篇：基于消費者評價的商品特征提取及情感分析研究
下一篇：拓撲結構可變的圖案生成和瀏覽算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多層次選擇性視覺語義屬性特征的圖像中文描述生成算法