基于深度學(xué)習(xí)的自然場景圖像中文字檢測的研究和應(yīng)用
發(fā)布時間:2021-12-27 18:00
自然場景圖像中的文字具有豐富且精確的高層語義信息,是感知和理解圖像內(nèi)容的重要視覺元素。許多應(yīng)用場景,如信息檢索、實(shí)時翻譯、自動駕駛、自動閱讀、機(jī)器人流程自動化等,都需要利用到場景文字信息。因此,場景文字檢測近年來受到了計算機(jī)視覺領(lǐng)域和文檔分析與識別領(lǐng)域的廣泛關(guān)注。但是,由于場景文字對象本身在尺度、形狀、方向、語言、顏色、字體、排版和對齊等方面的多樣性,場景圖像背景的復(fù)雜性和某些背景區(qū)域紋理與文字的相似性,以及圖像拍攝過程中引入的一些干擾因素,如不規(guī)則幾何形變、模糊、非均勻光照、強(qiáng)曝光、遮擋等,場景文字檢測依然是一個很有挑戰(zhàn)性的研究課題。傳統(tǒng)的基于滑動窗口或連通區(qū)域和手工設(shè)計特征的場景文字檢測方法在真實(shí)場景下無法取得令人滿意的性能。而且傳統(tǒng)方法通常包含多個算法模塊,每個模塊分步地處理,整個文字檢測流程復(fù)雜程度高。近年來,深度學(xué)習(xí)技術(shù)發(fā)展迅猛,展現(xiàn)出了極其強(qiáng)大的特征學(xué)習(xí)能力和可端到端優(yōu)化的優(yōu)秀特性,在計算機(jī)視覺、語音識別、自然語音處理等領(lǐng)域取得了突破性進(jìn)展。本文基于深度學(xué)習(xí)算法,對場景文字檢測問題開展了一系列研究工作:(1)提出一種端到端可訓(xùn)練的場景文字檢測方法。之前(2016年以前)的場...
【文章來源】: 華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:151 頁
【文章目錄】:
摘要
ABSTRACT
英文縮略語表
第1章 緒論
1.1 研究背景與意義
1.2 研究難點(diǎn)
1.3 本文工作內(nèi)容
1.4 章節(jié)安排
第2章 深度學(xué)習(xí)方法概述
2.1 深度學(xué)習(xí)發(fā)展現(xiàn)狀
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.2.1 卷積層
2.2.2 池化層
2.2.3 全連接層
2.2.4 激活函數(shù)層
2.2.5 Dropout層
2.2.6 歸一化層
2.2.7 新型CNN的設(shè)計技巧
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4 優(yōu)化方法
第3章 自然場景文字檢測研究現(xiàn)狀
3.1 傳統(tǒng)的文字檢測方法
3.1.1 基于滑動窗口的自上而下的文字檢測方法
3.1.2 基于連通區(qū)域的自底而上的文字檢測方法
3.2 基于深度學(xué)習(xí)的文字檢測方法
3.2.1 基于深度學(xué)習(xí)的自上而下的文字檢測方法
3.2.2 基于深度學(xué)習(xí)的自底而上的文字檢測方法
3.3 相關(guān)數(shù)據(jù)集
3.3.1 合成數(shù)據(jù)集
3.3.2 真實(shí)場景數(shù)據(jù)集
3.4 評價準(zhǔn)則
3.4.1 ICDAR-2003 評價準(zhǔn)則
3.4.2 Detval評價準(zhǔn)則
3.4.3 MSRA-TD500評價準(zhǔn)則
3.4.4 IoU評價準(zhǔn)則
3.4.5 Tightness-aware IoU和TedEval評價準(zhǔn)則
3.5 研究現(xiàn)狀總結(jié)和分析
第4章 場景文字候選區(qū)域生成和場景文字檢測
4.1 引言
4.2 相關(guān)工作
4.2.1 物體檢測
4.2.2 場景文字檢測
4.3 本章方法介紹
4.3.1 基于Inception模塊的文字候選區(qū)域生成網(wǎng)絡(luò)
4.3.2 文字校準(zhǔn)網(wǎng)絡(luò):Fast R-CNN
4.3.3 訓(xùn)練優(yōu)化
4.4 實(shí)驗(yàn)結(jié)果及分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
4.4.2 實(shí)現(xiàn)細(xì)節(jié)
4.4.3 文字候選區(qū)域生成質(zhì)量評測
4.4.4 文字檢測性能評測
4.4.5 消融實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 場景文字檢測中文字定位精度問題的研究
5.1 引言
5.2 相關(guān)工作
5.2.1 場景文字檢測
5.2.2 邊界框定位
5.3 本章方法介紹
5.3.1 基于改進(jìn)的Faster R-CNN的文字檢測方法
5.3.2 基于嵌入LocNet定位模塊的Faster R-CNN的文字檢測方法
5.4 模型訓(xùn)練
5.4.1 損失函數(shù)
5.4.2 訓(xùn)練細(xì)節(jié)
5.5 實(shí)驗(yàn)結(jié)果及分析
5.5.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
5.5.2 水平方向文字檢測
5.5.3 多方向文字檢測
5.5.4 討論與分析
5.6 本章小結(jié)
第6章 不基于錨點(diǎn)框機(jī)制的候選區(qū)域生成網(wǎng)絡(luò)及其在場景文字檢測中的應(yīng)用
6.1 引言
6.2 相關(guān)工作
6.2.1 場景文字檢測
6.2.2 錨點(diǎn)框機(jī)制
6.3 本章方法介紹
6.3.1 不基于錨點(diǎn)框機(jī)制的候選區(qū)域生成網(wǎng)絡(luò)(AF-RPN)
6.3.2 基于嵌入AF-RPN的Faster R-CNN/Mask R-CNN的文字檢測方法
6.3.3 模型訓(xùn)練
6.4 實(shí)驗(yàn)結(jié)果及分析
6.4.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
6.4.2 實(shí)現(xiàn)細(xì)節(jié)
6.4.3 文字候選區(qū)域生成質(zhì)量評測
6.4.4 文字檢測性能評測
6.4.5 討論與分析
6.5 本章小結(jié)
總結(jié)與展望
1. 本文工作總結(jié)
2. 未來研究展望
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]SynthText3D:synthesizing scene text images from 3D virtual worlds [J]. Minghui LIAO,Boyu SONG,Shangbang LONG,Minghang HE,Cong YAO,Xiang BAI. Science China(Information Sciences). 2020(02)
[2]深度學(xué)習(xí)在手寫漢字識別中的應(yīng)用綜述 [J]. 金連文,鐘卓耀,楊釗,楊維信,謝澤澄,孫俊. 自動化學(xué)報. 2016(08)
本文編號:3552453
【文章來源】: 華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:151 頁
【文章目錄】:
摘要
ABSTRACT
英文縮略語表
第1章 緒論
1.1 研究背景與意義
1.2 研究難點(diǎn)
1.3 本文工作內(nèi)容
1.4 章節(jié)安排
第2章 深度學(xué)習(xí)方法概述
2.1 深度學(xué)習(xí)發(fā)展現(xiàn)狀
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.2.1 卷積層
2.2.2 池化層
2.2.3 全連接層
2.2.4 激活函數(shù)層
2.2.5 Dropout層
2.2.6 歸一化層
2.2.7 新型CNN的設(shè)計技巧
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4 優(yōu)化方法
第3章 自然場景文字檢測研究現(xiàn)狀
3.1 傳統(tǒng)的文字檢測方法
3.1.1 基于滑動窗口的自上而下的文字檢測方法
3.1.2 基于連通區(qū)域的自底而上的文字檢測方法
3.2 基于深度學(xué)習(xí)的文字檢測方法
3.2.1 基于深度學(xué)習(xí)的自上而下的文字檢測方法
3.2.2 基于深度學(xué)習(xí)的自底而上的文字檢測方法
3.3 相關(guān)數(shù)據(jù)集
3.3.1 合成數(shù)據(jù)集
3.3.2 真實(shí)場景數(shù)據(jù)集
3.4 評價準(zhǔn)則
3.4.1 ICDAR-2003 評價準(zhǔn)則
3.4.2 Detval評價準(zhǔn)則
3.4.3 MSRA-TD500評價準(zhǔn)則
3.4.4 IoU評價準(zhǔn)則
3.4.5 Tightness-aware IoU和TedEval評價準(zhǔn)則
3.5 研究現(xiàn)狀總結(jié)和分析
第4章 場景文字候選區(qū)域生成和場景文字檢測
4.1 引言
4.2 相關(guān)工作
4.2.1 物體檢測
4.2.2 場景文字檢測
4.3 本章方法介紹
4.3.1 基于Inception模塊的文字候選區(qū)域生成網(wǎng)絡(luò)
4.3.2 文字校準(zhǔn)網(wǎng)絡(luò):Fast R-CNN
4.3.3 訓(xùn)練優(yōu)化
4.4 實(shí)驗(yàn)結(jié)果及分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
4.4.2 實(shí)現(xiàn)細(xì)節(jié)
4.4.3 文字候選區(qū)域生成質(zhì)量評測
4.4.4 文字檢測性能評測
4.4.5 消融實(shí)驗(yàn)
4.5 本章小結(jié)
第5章 場景文字檢測中文字定位精度問題的研究
5.1 引言
5.2 相關(guān)工作
5.2.1 場景文字檢測
5.2.2 邊界框定位
5.3 本章方法介紹
5.3.1 基于改進(jìn)的Faster R-CNN的文字檢測方法
5.3.2 基于嵌入LocNet定位模塊的Faster R-CNN的文字檢測方法
5.4 模型訓(xùn)練
5.4.1 損失函數(shù)
5.4.2 訓(xùn)練細(xì)節(jié)
5.5 實(shí)驗(yàn)結(jié)果及分析
5.5.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
5.5.2 水平方向文字檢測
5.5.3 多方向文字檢測
5.5.4 討論與分析
5.6 本章小結(jié)
第6章 不基于錨點(diǎn)框機(jī)制的候選區(qū)域生成網(wǎng)絡(luò)及其在場景文字檢測中的應(yīng)用
6.1 引言
6.2 相關(guān)工作
6.2.1 場景文字檢測
6.2.2 錨點(diǎn)框機(jī)制
6.3 本章方法介紹
6.3.1 不基于錨點(diǎn)框機(jī)制的候選區(qū)域生成網(wǎng)絡(luò)(AF-RPN)
6.3.2 基于嵌入AF-RPN的Faster R-CNN/Mask R-CNN的文字檢測方法
6.3.3 模型訓(xùn)練
6.4 實(shí)驗(yàn)結(jié)果及分析
6.4.1 實(shí)驗(yàn)數(shù)據(jù)集和評價準(zhǔn)則
6.4.2 實(shí)現(xiàn)細(xì)節(jié)
6.4.3 文字候選區(qū)域生成質(zhì)量評測
6.4.4 文字檢測性能評測
6.4.5 討論與分析
6.5 本章小結(jié)
總結(jié)與展望
1. 本文工作總結(jié)
2. 未來研究展望
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]SynthText3D:synthesizing scene text images from 3D virtual worlds [J]. Minghui LIAO,Boyu SONG,Shangbang LONG,Minghang HE,Cong YAO,Xiang BAI. Science China(Information Sciences). 2020(02)
[2]深度學(xué)習(xí)在手寫漢字識別中的應(yīng)用綜述 [J]. 金連文,鐘卓耀,楊釗,楊維信,謝澤澄,孫俊. 自動化學(xué)報. 2016(08)
本文編號:3552453
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3552453.html
最近更新
教材專著