基于深度學(xué)習(xí)的視覺信息自然語言描述方法研究

發(fā)布時間：2021-04-26 17:59

　　隨著計算機(jī)網(wǎng)絡(luò)的普及和多媒體信息技術(shù)的快速發(fā)展,社交媒體早已成為人們生活不可或缺的一部分。網(wǎng)絡(luò)中流傳的海量多媒體數(shù)據(jù),意味著人類社會進(jìn)入了大數(shù)據(jù)時代。在這樣的背景下,圖像和視頻因其能夠便捷的記錄和豐富我們的日常生活,已經(jīng)成為目前最為流行的數(shù)據(jù)形式。在當(dāng)前火熱的人工智能領(lǐng)域,對于如何讓計算機(jī)更像人一樣的具備思考能力,讓計算機(jī)理解并自動的用自然語言描述圖像和視頻等視覺信息的研究越來越引起人們的關(guān)注。視覺信息描述作為其中的代表性研究,在多媒體信息分析,人機(jī)交互,幫助視力障礙人群等方面有很多潛在應(yīng)用價值。目前,很多國內(nèi)外的研究學(xué)者在圖像和視頻等視覺信息自然語言描述領(lǐng)域展開大量研究,但是在視頻描述方面,如何精確的獲取視頻中動態(tài)的視覺特征和語義信息仍是目前的研究難題。近年來,編碼-解碼框架被廣泛應(yīng)用在視覺信息描述任務(wù)中,其中因為時域注意力機(jī)制能夠很好的揭示視覺信息和描述語句單詞之間的關(guān)系而成為目前相關(guān)研究的主要方法。但是對于視頻而言,大多數(shù)方法在獲取精確的視覺特征和語義信息方面仍存在不足之處。本文從獲取精確的視覺特征和更好的運用語義信息和視覺信息的動態(tài)關(guān)系兩個方面提出了兩個用于視頻自然語言描述的方...

【文章來源】：天津大學(xué)天津市 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：63 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
abstract
第1章緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 國內(nèi)研究現(xiàn)狀
        1.2.2 國外研究現(xiàn)狀
    1.3 本文主要貢獻(xiàn)
    1.4 本文組織結(jié)構(gòu)
第2章相關(guān)基礎(chǔ)理論介紹
    2.1 視覺信息自然語言描述綜述
        2.1.1 圖像自然語言描述模型
        2.1.2 視頻自然語言描述模型
    2.2 基于語法模版的方法
    2.3 基于序列生成的方法
        2.3.1 編碼-解碼框架
        2.3.2 基于語義信息的模型
        2.3.3 基于注意力機(jī)制的模型
    2.4 本章小結(jié)
第3章基于細(xì)粒度時空注意力的視頻描述模型
    3.1 模型框架
    3.2 基于空域注意力的編碼
        3.2.1 Mask R-CNN目標(biāo)識別算法
        3.2.2 MPM掩碼池化模塊
    3.3 基于時域注意力的解碼
        3.3.1 LSTM長短期記憶網(wǎng)絡(luò)
        3.3.2 基于柔性注意力機(jī)制的解碼器
    3.4 本章小結(jié)
第4章基于視覺和語義的雙流注意力模型
    4.1 模型框架
    4.2 視覺特征與語義特征的提取
        4.2.1 視覺特征提取
        4.2.2 語義特征提取
    4.3 基于雙流注意力的LSTM解碼
    4.4 本章小結(jié)
第5章實驗結(jié)果及分析
    5.1 數(shù)據(jù)集與評價標(biāo)準(zhǔn)
        5.1.1 數(shù)據(jù)集
        5.1.2 評價標(biāo)準(zhǔn)
    5.2 實驗設(shè)置
        5.2.1 數(shù)據(jù)預(yù)處理
        5.2.2 其他超參數(shù)設(shè)置
        5.2.3 對比算法
    5.3 基于細(xì)粒度時空注意力的模型的實驗結(jié)果與分析
        5.3.1 在MSVD數(shù)據(jù)集上的實驗結(jié)果及分析
        5.3.2 在MSR-VTT數(shù)據(jù)集上的實驗結(jié)果及分析
        5.3.3 掩碼池化模塊性能分析
        5.3.4 視覺顯著性質(zhì)量分析
    5.4 基于視覺和語義的雙流注意力模型的實驗結(jié)果與分析
        5.4.1 在MSR-VTT數(shù)據(jù)集上的實驗結(jié)果及分析
        5.4.2 在MSR-VTT2017 比賽中的結(jié)果及分析
        5.4.3 視覺顯著性質(zhì)量分析
    5.5 本章小結(jié)
第6章總結(jié)與展望
    6.1 工作總結(jié)
    6.2 未來工作展望
參考文獻(xiàn)
發(fā)表論文和參加科研情況說明
致謝

【參考文獻(xiàn)】：
期刊論文
[1]網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J]. 王元卓,靳小龍,程學(xué)旗.  計算機(jī)學(xué)報. 2013(06)

碩士論文
[1]基于深度學(xué)習(xí)的人類行為識別和視頻描述生成[D]. 王軒瀚.電子科技大學(xué) 2017

本文編號：3161858

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3161858.html

上一篇：基于卷積神經(jīng)網(wǎng)絡(luò)的行人重識別算法研究
下一篇：異構(gòu)多任務(wù)學(xué)習(xí)以及任務(wù)分組效率研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的視覺信息自然語言描述方法研究