基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)算法的融合技術(shù)研究
發(fā)布時(shí)間:2021-01-18 03:32
隨著各種數(shù)碼攝像機(jī)、智能手機(jī)的普及,每天都在產(chǎn)生著大量的圖像與視頻數(shù)據(jù),這些海量的圖像、視頻資源為場(chǎng)景文本檢測(cè)方向的研究人員提供了大量的訓(xùn)練數(shù)據(jù)。文本檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)重要分支方向,人們通過該技術(shù)可以提取圖像、視頻中的文本信息,并將這些技術(shù)應(yīng)用于人們的生活中。本文的研究對(duì)象是基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)算法,可以應(yīng)用于銀行系統(tǒng)中的票據(jù)檢測(cè)及票據(jù)識(shí)別任務(wù),也可以應(yīng)用在幫助網(wǎng)警自動(dòng)識(shí)別出敏感詞匯上,維護(hù)網(wǎng)絡(luò)安全。銀行系統(tǒng)中的故障截圖,可以通過文本檢測(cè)算法檢測(cè)出故障單中的文字,從而提高文本識(shí)別率,最終提高案例庫的搜索能力。但自然場(chǎng)景中的圖像通常存在著光照不均勻,文字被遮擋,文字大小不統(tǒng)一,字體各式各樣等問題,這些問題增加了場(chǎng)景文字檢測(cè)的難度。經(jīng)過逾十年的研究,人們已提出多種自然場(chǎng)景文本檢測(cè)算法,但是由于數(shù)據(jù)集的不同,很多算法都無法保證在不同數(shù)據(jù)集上的檢測(cè)效果具有很好的泛化能力。本文對(duì)自然場(chǎng)景下的文本檢測(cè)任務(wù)進(jìn)行了深入的理解和研究,主要工作包括以下三個(gè)方面,首先,收集并標(biāo)注中文場(chǎng)景圖像數(shù)據(jù)集(ShopSign)。其次,設(shè)計(jì)基于特征融合的場(chǎng)景文本檢測(cè)算法。最后,設(shè)計(jì)融合異構(gòu)方法檢測(cè)結(jié)果的...
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文論文章節(jié)結(jié)構(gòu)圖
2.1.1 ICDAR2013 數(shù)據(jù)集ICDAR2013 Focused Scene Text[37],這個(gè)競(jìng)賽所研究的特定場(chǎng)景是聚焦文本,拍攝者在拍攝圖片時(shí),會(huì)將攝像機(jī)的焦點(diǎn)對(duì)準(zhǔn)感興趣的文本內(nèi)容進(jìn)行拍攝。這就是聚焦文本,這也是文本閱讀和文本翻譯應(yīng)用程序的典型場(chǎng)景。ICDAR2013 數(shù)據(jù)集包含 462 張自然場(chǎng)景文本圖像,包括 229 張訓(xùn)練集圖片和 233 張測(cè)試集圖片,且圖片中的文本均為英文。這些圖像通常以文本為特征,焦點(diǎn)好,圖像中的文本較為清晰,并且圖像文本是水平的。同時(shí)該數(shù)據(jù)集包含了多種場(chǎng)景的文本圖片,例如:商鋪標(biāo)牌,文字被部分遮擋的圖片,強(qiáng)光下的文字圖片等。ICDAR2013 的數(shù)據(jù)集標(biāo)注格式如下圖所示,標(biāo)注文本中顯示圖片中文本行的左上,右下角坐標(biāo)(x1,y1,x2,y2)還有文本行內(nèi)容。目前ICDAR2013 數(shù)據(jù)集被多次用于自然場(chǎng)景文本檢測(cè)算法的訓(xùn)練與識(shí)別中,同時(shí),也是文本檢測(cè)算法檢驗(yàn)算法性能的常用數(shù)據(jù)集。ICDAR2013 數(shù)據(jù)集中的圖像以及圖像標(biāo)注信息如下圖 2-1[37]所示。
圖 2-2 ICDAR2015 數(shù)據(jù)集的圖像示例[38]2.1.3 MSRA-TD500 數(shù)據(jù)集MSRA-TD500[40]數(shù)據(jù)集是多方向文本檢測(cè)、文本大部分都在標(biāo)識(shí)牌上、分辨率在1296*864 到 1920*1280 之間,文本內(nèi)容為中文和英文,總共 500 張自然場(chǎng)景圖片訓(xùn)練集300 張圖片,測(cè)試集 200 張圖片,文本以行為單位標(biāo)注,而不是以單詞標(biāo)注,每張圖片上所有的字都會(huì)被標(biāo)注上。為了解決文本檢測(cè)算法難以處理的困難文本(太小、遮擋、模糊或截?cái)?的問題,每一個(gè)被認(rèn)為是困難的文本都被賦予一個(gè)額外的“困難”標(biāo)簽,若文本困難,則標(biāo)簽為‘1’,否則標(biāo)簽為‘0’。MSRA-TD500 數(shù)據(jù)集的標(biāo)注格式與 ICDAR2013,ICDAR2015 數(shù)據(jù)集的標(biāo)注格式不一樣,MSRA-TD500 數(shù)據(jù)集主要是針對(duì)多方向場(chǎng)景文本檢測(cè)任務(wù)而整理的,文本標(biāo)注方式為包圍文本行的矩形框的左上點(diǎn)坐標(biāo)和矩形框的寬高,還有矩形框的旋轉(zhuǎn)角度,以矩形框的左上角坐標(biāo)為起始點(diǎn)記錄文本區(qū)域的索引、是否困難(0/1)、左上點(diǎn)、右下點(diǎn)、旋轉(zhuǎn)角度。下圖 2-3[40]是示例圖像:
本文編號(hào):2984188
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文論文章節(jié)結(jié)構(gòu)圖
2.1.1 ICDAR2013 數(shù)據(jù)集ICDAR2013 Focused Scene Text[37],這個(gè)競(jìng)賽所研究的特定場(chǎng)景是聚焦文本,拍攝者在拍攝圖片時(shí),會(huì)將攝像機(jī)的焦點(diǎn)對(duì)準(zhǔn)感興趣的文本內(nèi)容進(jìn)行拍攝。這就是聚焦文本,這也是文本閱讀和文本翻譯應(yīng)用程序的典型場(chǎng)景。ICDAR2013 數(shù)據(jù)集包含 462 張自然場(chǎng)景文本圖像,包括 229 張訓(xùn)練集圖片和 233 張測(cè)試集圖片,且圖片中的文本均為英文。這些圖像通常以文本為特征,焦點(diǎn)好,圖像中的文本較為清晰,并且圖像文本是水平的。同時(shí)該數(shù)據(jù)集包含了多種場(chǎng)景的文本圖片,例如:商鋪標(biāo)牌,文字被部分遮擋的圖片,強(qiáng)光下的文字圖片等。ICDAR2013 的數(shù)據(jù)集標(biāo)注格式如下圖所示,標(biāo)注文本中顯示圖片中文本行的左上,右下角坐標(biāo)(x1,y1,x2,y2)還有文本行內(nèi)容。目前ICDAR2013 數(shù)據(jù)集被多次用于自然場(chǎng)景文本檢測(cè)算法的訓(xùn)練與識(shí)別中,同時(shí),也是文本檢測(cè)算法檢驗(yàn)算法性能的常用數(shù)據(jù)集。ICDAR2013 數(shù)據(jù)集中的圖像以及圖像標(biāo)注信息如下圖 2-1[37]所示。
圖 2-2 ICDAR2015 數(shù)據(jù)集的圖像示例[38]2.1.3 MSRA-TD500 數(shù)據(jù)集MSRA-TD500[40]數(shù)據(jù)集是多方向文本檢測(cè)、文本大部分都在標(biāo)識(shí)牌上、分辨率在1296*864 到 1920*1280 之間,文本內(nèi)容為中文和英文,總共 500 張自然場(chǎng)景圖片訓(xùn)練集300 張圖片,測(cè)試集 200 張圖片,文本以行為單位標(biāo)注,而不是以單詞標(biāo)注,每張圖片上所有的字都會(huì)被標(biāo)注上。為了解決文本檢測(cè)算法難以處理的困難文本(太小、遮擋、模糊或截?cái)?的問題,每一個(gè)被認(rèn)為是困難的文本都被賦予一個(gè)額外的“困難”標(biāo)簽,若文本困難,則標(biāo)簽為‘1’,否則標(biāo)簽為‘0’。MSRA-TD500 數(shù)據(jù)集的標(biāo)注格式與 ICDAR2013,ICDAR2015 數(shù)據(jù)集的標(biāo)注格式不一樣,MSRA-TD500 數(shù)據(jù)集主要是針對(duì)多方向場(chǎng)景文本檢測(cè)任務(wù)而整理的,文本標(biāo)注方式為包圍文本行的矩形框的左上點(diǎn)坐標(biāo)和矩形框的寬高,還有矩形框的旋轉(zhuǎn)角度,以矩形框的左上角坐標(biāo)為起始點(diǎn)記錄文本區(qū)域的索引、是否困難(0/1)、左上點(diǎn)、右下點(diǎn)、旋轉(zhuǎn)角度。下圖 2-3[40]是示例圖像:
本文編號(hào):2984188
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2984188.html
最近更新
教材專著