基于YOLO的自然場景中文文本檢測算法研究
發(fā)布時間:2021-09-14 19:41
隨著互聯(lián)網(wǎng)技術(shù)的飛快發(fā)展,文本檢測在智能交通、視頻檢索等領(lǐng)域中具有重要應(yīng)用。本文總結(jié)現(xiàn)有文本檢測技術(shù)的相關(guān)研究與技術(shù)基礎(chǔ),針對場景檢測中文本存在的傾斜、光照、背景結(jié)構(gòu)復(fù)雜等問題,以及中文檢測難題,結(jié)合深度學(xué)習(xí)方法與傳統(tǒng)文本檢測方法的優(yōu)點,提出了兩種中文文本檢測算法來挖掘自然場景圖片文本語義的深層信息,主要工作內(nèi)容如下。(1)針對傳統(tǒng)的自然場景文本檢測方法存在精度較低,速度較慢,以及文本行在任意方向排列時的檢測難題,提出在YOLO實時目標(biāo)檢測模型(You Only Look Once)基礎(chǔ)上,添加最大極值穩(wěn)定區(qū)域MSER檢測算法(Maximally Stable Extremal Region),同時引入GIoU改進(jìn)邊框回歸損失函數(shù)。改進(jìn)的模型能充分利用YOLO模型的快速性以及MSER算法在傾斜角度檢測上的優(yōu)勢,實現(xiàn)快速精準(zhǔn)的任意方向文本行的檢測。實驗表明,該算法在公開數(shù)據(jù)集上的F-score達(dá)到53.1。(2)針對自然場景背景模糊、低對比度等高噪點造成的檢測困難,直接改進(jìn)YOLO深度卷積神經(jīng)網(wǎng)絡(luò)模型。算法主要思路:在YOLO深度卷積神經(jīng)網(wǎng)絡(luò)模型中添加旋轉(zhuǎn)建議模塊(Rotation Pr...
【文章來源】:武漢科技大學(xué)湖北省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 傳統(tǒng)文本檢測方法
1.2.2 基于深度學(xué)習(xí)的自然場景文本檢測算法
1.3 數(shù)據(jù)集介紹
1.4 本文主要貢獻(xiàn)與創(chuàng)新
1.5 論文主要內(nèi)容及章節(jié)安排
第2章 相關(guān)技術(shù)理論
2.1 文本檢測任務(wù)概述
2.2 自然場景圖像特點與文本檢測難點
2.3 MSER相關(guān)理論
2.3.1 MSER數(shù)學(xué)定義
2.3.2 MSER算法原理
2.4 深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)
2.4.1 深度學(xué)習(xí)
2.4.2 卷積神經(jīng)網(wǎng)絡(luò)
2.4.3 殘差網(wǎng)絡(luò)
2.5 YOLO算法介紹
2.5.1 YOLO基本原理
2.5.2YOLOV3
2.6 本章小結(jié)
第3章 YOLO+MSER的自然場景文本檢測方法
3.1 網(wǎng)絡(luò)模型設(shè)計
3.2 YOLOv3階段
3.2.1 改進(jìn)初始化錨點框
3.2.2 邊界框預(yù)測
3.2.3 GIoU損失函數(shù)
3.2.4 基于GIoU的邊框回歸損失函數(shù)
3.3 MSER模塊設(shè)計
3.3.1 MSER層
3.3.2 偽字符區(qū)域濾除
3.3.3 文本方向估計
3.4 實驗設(shè)置與結(jié)果分析
3.4.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
3.4.2 模型訓(xùn)練
3.4.3 實驗結(jié)果分析
3.5 本章小結(jié)
第4章 集成RPM的改進(jìn)型YOLO場景文本檢測方法
4.1 網(wǎng)絡(luò)模型設(shè)計
4.1.1 高噪點圖片檢測
4.1.2 旋轉(zhuǎn)候選區(qū)域網(wǎng)絡(luò)
4.1.3 模型概述
4.2 算法實現(xiàn)
4.2.1 斜框IoU計算
4.2.2 改進(jìn)特征金字塔結(jié)構(gòu)
4.2.3 旋轉(zhuǎn)錨點框優(yōu)化
4.2.4 RPM旋轉(zhuǎn)建議模塊設(shè)計
4.2.5 改進(jìn)損失函數(shù)
4.3 實驗設(shè)置與結(jié)果分析
4.3.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
4.3.2 模型訓(xùn)練
4.3.3 實驗結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)和展望
5.1 論文總結(jié)
5.2 研究展望
致謝
參考文獻(xiàn)
附錄1 攻讀碩士學(xué)位期間發(fā)表的論文
附錄2 攻讀碩士學(xué)位期間參加的科研項目
詳細(xì)摘要
【參考文獻(xiàn)】:
期刊論文
[1]基于雙向LSTM的手寫文字識別技術(shù)研究[J]. 張新峰,閆昆鵬,趙珣. 南京師大學(xué)報(自然科學(xué)版). 2019(03)
[2]基于深度學(xué)習(xí)的多方向維吾爾文區(qū)域檢測[J]. 阿卜杜外力·如則,帕力旦·吐爾遜,阿布都薩拉木·達(dá)吾提,艾斯卡爾·艾木都拉. 電視技術(shù). 2019(Z1)
[3]自然場景中文本定位方法研究[J]. 潘立,劉亮亮,張再躍. 計算機(jī)與數(shù)字工程. 2019(06)
[4]基于深度學(xué)習(xí)的場景文字檢測綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報. 2019(05)
[5]MSER快速自然場景傾斜文本定位算法[J]. 張開玉,邵康一,盧迪. 哈爾濱理工大學(xué)學(xué)報. 2019(02)
[6]Attention-YOLO:引入注意力機(jī)制的YOLO檢測算法[J]. 徐誠極,王曉峰,楊亞東. 計算機(jī)工程與應(yīng)用. 2019(06)
[7]基于改進(jìn)SSD的實時檢測方法[J]. 陳立里,張正道,彭力. 激光與光電子學(xué)進(jìn)展. 2019(01)
[8]改進(jìn)的非極大值抑制算法的目標(biāo)檢測[J]. 趙文清,嚴(yán)海,邵緒強(qiáng). 中國圖象圖形學(xué)報. 2018(11)
[9]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[10]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動化學(xué)報. 2018(12)
博士論文
[1]面向圖像語義分割的新型卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[D]. Robail Yasrab.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]PixelLink:基于實例分割的自然場景文本檢測算法[D]. 鄧丹.浙江大學(xué) 2018
[2]基于尺度不變特征融合的目標(biāo)跟蹤算法[D]. 張高翔.西安電子科技大學(xué) 2017
本文編號:3395410
【文章來源】:武漢科技大學(xué)湖北省
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 傳統(tǒng)文本檢測方法
1.2.2 基于深度學(xué)習(xí)的自然場景文本檢測算法
1.3 數(shù)據(jù)集介紹
1.4 本文主要貢獻(xiàn)與創(chuàng)新
1.5 論文主要內(nèi)容及章節(jié)安排
第2章 相關(guān)技術(shù)理論
2.1 文本檢測任務(wù)概述
2.2 自然場景圖像特點與文本檢測難點
2.3 MSER相關(guān)理論
2.3.1 MSER數(shù)學(xué)定義
2.3.2 MSER算法原理
2.4 深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)
2.4.1 深度學(xué)習(xí)
2.4.2 卷積神經(jīng)網(wǎng)絡(luò)
2.4.3 殘差網(wǎng)絡(luò)
2.5 YOLO算法介紹
2.5.1 YOLO基本原理
2.5.2YOLOV3
2.6 本章小結(jié)
第3章 YOLO+MSER的自然場景文本檢測方法
3.1 網(wǎng)絡(luò)模型設(shè)計
3.2 YOLOv3階段
3.2.1 改進(jìn)初始化錨點框
3.2.2 邊界框預(yù)測
3.2.3 GIoU損失函數(shù)
3.2.4 基于GIoU的邊框回歸損失函數(shù)
3.3 MSER模塊設(shè)計
3.3.1 MSER層
3.3.2 偽字符區(qū)域濾除
3.3.3 文本方向估計
3.4 實驗設(shè)置與結(jié)果分析
3.4.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
3.4.2 模型訓(xùn)練
3.4.3 實驗結(jié)果分析
3.5 本章小結(jié)
第4章 集成RPM的改進(jìn)型YOLO場景文本檢測方法
4.1 網(wǎng)絡(luò)模型設(shè)計
4.1.1 高噪點圖片檢測
4.1.2 旋轉(zhuǎn)候選區(qū)域網(wǎng)絡(luò)
4.1.3 模型概述
4.2 算法實現(xiàn)
4.2.1 斜框IoU計算
4.2.2 改進(jìn)特征金字塔結(jié)構(gòu)
4.2.3 旋轉(zhuǎn)錨點框優(yōu)化
4.2.4 RPM旋轉(zhuǎn)建議模塊設(shè)計
4.2.5 改進(jìn)損失函數(shù)
4.3 實驗設(shè)置與結(jié)果分析
4.3.1 實驗設(shè)計與評估標(biāo)準(zhǔn)
4.3.2 模型訓(xùn)練
4.3.3 實驗結(jié)果分析
4.4 本章小結(jié)
第5章 總結(jié)和展望
5.1 論文總結(jié)
5.2 研究展望
致謝
參考文獻(xiàn)
附錄1 攻讀碩士學(xué)位期間發(fā)表的論文
附錄2 攻讀碩士學(xué)位期間參加的科研項目
詳細(xì)摘要
【參考文獻(xiàn)】:
期刊論文
[1]基于雙向LSTM的手寫文字識別技術(shù)研究[J]. 張新峰,閆昆鵬,趙珣. 南京師大學(xué)報(自然科學(xué)版). 2019(03)
[2]基于深度學(xué)習(xí)的多方向維吾爾文區(qū)域檢測[J]. 阿卜杜外力·如則,帕力旦·吐爾遜,阿布都薩拉木·達(dá)吾提,艾斯卡爾·艾木都拉. 電視技術(shù). 2019(Z1)
[3]自然場景中文本定位方法研究[J]. 潘立,劉亮亮,張再躍. 計算機(jī)與數(shù)字工程. 2019(06)
[4]基于深度學(xué)習(xí)的場景文字檢測綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報. 2019(05)
[5]MSER快速自然場景傾斜文本定位算法[J]. 張開玉,邵康一,盧迪. 哈爾濱理工大學(xué)學(xué)報. 2019(02)
[6]Attention-YOLO:引入注意力機(jī)制的YOLO檢測算法[J]. 徐誠極,王曉峰,楊亞東. 計算機(jī)工程與應(yīng)用. 2019(06)
[7]基于改進(jìn)SSD的實時檢測方法[J]. 陳立里,張正道,彭力. 激光與光電子學(xué)進(jìn)展. 2019(01)
[8]改進(jìn)的非極大值抑制算法的目標(biāo)檢測[J]. 趙文清,嚴(yán)海,邵緒強(qiáng). 中國圖象圖形學(xué)報. 2018(11)
[9]基于k-means++的多分類器選擇分類研究[J]. 熊霖,唐萬梅. 重慶師范大學(xué)學(xué)報(自然科學(xué)版). 2018(06)
[10]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動化學(xué)報. 2018(12)
博士論文
[1]面向圖像語義分割的新型卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[D]. Robail Yasrab.中國科學(xué)技術(shù)大學(xué) 2017
碩士論文
[1]PixelLink:基于實例分割的自然場景文本檢測算法[D]. 鄧丹.浙江大學(xué) 2018
[2]基于尺度不變特征融合的目標(biāo)跟蹤算法[D]. 張高翔.西安電子科技大學(xué) 2017
本文編號:3395410
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3395410.html
最近更新
教材專著