基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注算法研究
發(fā)布時(shí)間:2023-10-15 15:38
隨著互聯(lián)網(wǎng)平臺(tái)全面智能化轉(zhuǎn)型,作為圖像檢索、人機(jī)對(duì)話、視覺輔助等服務(wù)的基礎(chǔ),圖像標(biāo)注已成為各平臺(tái)的必備功能,而如何實(shí)現(xiàn)準(zhǔn)確的圖像標(biāo)注,成為了一項(xiàng)亟需解決的問題。人工標(biāo)注數(shù)據(jù)能夠獲得準(zhǔn)確的結(jié)果,但是由于標(biāo)注過程耗時(shí)耗力,并且圖像總量呈現(xiàn)爆發(fā)趨勢(shì),無法完全使用人工方式獲得圖像標(biāo)注信息,由此催生出自動(dòng)化的圖像標(biāo)注算法。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注算法取得了巨大的成功,但是圖像的底層視覺特征與高層語義之間存在的“語義鴻溝”,決定了圖像標(biāo)注算法還有很大的提升空間,包括如何利用圖像輔助信息標(biāo)注圖像、如何由語義層面改進(jìn)標(biāo)注結(jié)果、如何快速訓(xùn)練深度圖像標(biāo)注模型等。本文圍繞基于深度神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注展開研究,提出了基于隱特征學(xué)習(xí)的社交圖像重標(biāo)注算法和基于語義理解與描述的圖像標(biāo)注算法。從不同的角度審視任務(wù)核心,提出了多種基于深度神經(jīng)網(wǎng)絡(luò)的解決方案,并提出利用分布式GPU加速訓(xùn)練過程的方法。本文的主要?jiǎng)?chuàng)新性成果如下:1.提出一種基于噪聲估計(jì)的圖像重標(biāo)注算法,利用柯西分布擬合圖像的社會(huì)標(biāo)簽噪聲,優(yōu)化矩陣分解中隱特征學(xué)習(xí),提升社會(huì)標(biāo)簽的應(yīng)用效果。通過對(duì)比多種噪聲分布假設(shè),證實(shí)了柯西分布從理論與實(shí)踐上都能夠很...
【文章頁數(shù)】:127 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 社會(huì)標(biāo)簽在圖像標(biāo)注中的應(yīng)用
1.2.2 圖像語義在圖像標(biāo)注中的應(yīng)用
1.2.3 深度神經(jīng)網(wǎng)絡(luò)概述
1.3 本文的主要工作與創(chuàng)新點(diǎn)
1.4 論文章節(jié)安排
第二章 基于隱特征學(xué)習(xí)的社交圖像重標(biāo)注算法
2.1 研究現(xiàn)狀
2.2 問題定義
2.3 基于噪聲估計(jì)的圖像重標(biāo)注算法
2.3.1 概率矩陣分解
2.3.2 柯西矩陣分解
2.3.3 實(shí)驗(yàn)結(jié)果及分析
2.4 基于隱特征維度相關(guān)性建模的圖像重標(biāo)注算法
2.4.1 基于神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注框架
2.4.2 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注框架
2.4.3 實(shí)驗(yàn)結(jié)果與分析
2.5 本章小結(jié)
第三章 基于語義理解與描述的圖像標(biāo)注算法
3.1 研究現(xiàn)狀
3.2 問題定義
3.3 基于多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注算法
3.3.1 遞歸神經(jīng)網(wǎng)絡(luò)
3.3.2 多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)
3.3.3 多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡(luò)
3.3.4 實(shí)驗(yàn)結(jié)果與分析
3.4 基于大規(guī)模語料庫的圖像標(biāo)注算法
3.4.1 基于描述匹配的圖像標(biāo)注算法
3.4.2 基于哈希優(yōu)化的圖像標(biāo)注算法
3.4.3 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 深度圖像標(biāo)注算法訓(xùn)練加速架構(gòu)
4.1 研究現(xiàn)狀
4.2 卷積神經(jīng)網(wǎng)絡(luò)
4.3 卷積神經(jīng)網(wǎng)絡(luò)及數(shù)據(jù)并行
4.4 Wheel加速架構(gòu)
4.4.1 混合并行模式
4.4.2 交替執(zhí)行策略
4.4.3 Wheel模塊設(shè)計(jì)
4.4.4 Wheel的資源利用
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 與經(jīng)典方法比較
4.5.2 GPU利用率
4.5.3 通信效率
4.5.4 實(shí)際訓(xùn)練情況
4.6 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的成果
本文編號(hào):3854185
【文章頁數(shù)】:127 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究工作的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 社會(huì)標(biāo)簽在圖像標(biāo)注中的應(yīng)用
1.2.2 圖像語義在圖像標(biāo)注中的應(yīng)用
1.2.3 深度神經(jīng)網(wǎng)絡(luò)概述
1.3 本文的主要工作與創(chuàng)新點(diǎn)
1.4 論文章節(jié)安排
第二章 基于隱特征學(xué)習(xí)的社交圖像重標(biāo)注算法
2.1 研究現(xiàn)狀
2.2 問題定義
2.3 基于噪聲估計(jì)的圖像重標(biāo)注算法
2.3.1 概率矩陣分解
2.3.2 柯西矩陣分解
2.3.3 實(shí)驗(yàn)結(jié)果及分析
2.4 基于隱特征維度相關(guān)性建模的圖像重標(biāo)注算法
2.4.1 基于神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注框架
2.4.2 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注框架
2.4.3 實(shí)驗(yàn)結(jié)果與分析
2.5 本章小結(jié)
第三章 基于語義理解與描述的圖像標(biāo)注算法
3.1 研究現(xiàn)狀
3.2 問題定義
3.3 基于多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡(luò)的圖像標(biāo)注算法
3.3.1 遞歸神經(jīng)網(wǎng)絡(luò)
3.3.2 多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)
3.3.3 多模態(tài)雙向遞歸神經(jīng)網(wǎng)絡(luò)
3.3.4 實(shí)驗(yàn)結(jié)果與分析
3.4 基于大規(guī)模語料庫的圖像標(biāo)注算法
3.4.1 基于描述匹配的圖像標(biāo)注算法
3.4.2 基于哈希優(yōu)化的圖像標(biāo)注算法
3.4.3 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 深度圖像標(biāo)注算法訓(xùn)練加速架構(gòu)
4.1 研究現(xiàn)狀
4.2 卷積神經(jīng)網(wǎng)絡(luò)
4.3 卷積神經(jīng)網(wǎng)絡(luò)及數(shù)據(jù)并行
4.4 Wheel加速架構(gòu)
4.4.1 混合并行模式
4.4.2 交替執(zhí)行策略
4.4.3 Wheel模塊設(shè)計(jì)
4.4.4 Wheel的資源利用
4.5 實(shí)驗(yàn)結(jié)果與分析
4.5.1 與經(jīng)典方法比較
4.5.2 GPU利用率
4.5.3 通信效率
4.5.4 實(shí)際訓(xùn)練情況
4.6 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作展望
致謝
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的成果
本文編號(hào):3854185
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3854185.html
最近更新
教材專著