基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)算法的融合技術(shù)研究

發(fā)布時(shí)間：2021-01-18 03:32

　　隨著各種數(shù)碼攝像機(jī)、智能手機(jī)的普及,每天都在產(chǎn)生著大量的圖像與視頻數(shù)據(jù),這些海量的圖像、視頻資源為場(chǎng)景文本檢測(cè)方向的研究人員提供了大量的訓(xùn)練數(shù)據(jù)。文本檢測(cè)是計(jì)算機(jī)視覺中的一個(gè)重要分支方向,人們通過該技術(shù)可以提取圖像、視頻中的文本信息,并將這些技術(shù)應(yīng)用于人們的生活中。本文的研究對(duì)象是基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)算法,可以應(yīng)用于銀行系統(tǒng)中的票據(jù)檢測(cè)及票據(jù)識(shí)別任務(wù),也可以應(yīng)用在幫助網(wǎng)警自動(dòng)識(shí)別出敏感詞匯上,維護(hù)網(wǎng)絡(luò)安全。銀行系統(tǒng)中的故障截圖,可以通過文本檢測(cè)算法檢測(cè)出故障單中的文字,從而提高文本識(shí)別率,最終提高案例庫的搜索能力。但自然場(chǎng)景中的圖像通常存在著光照不均勻,文字被遮擋,文字大小不統(tǒng)一,字體各式各樣等問題,這些問題增加了場(chǎng)景文字檢測(cè)的難度。經(jīng)過逾十年的研究,人們已提出多種自然場(chǎng)景文本檢測(cè)算法,但是由于數(shù)據(jù)集的不同,很多算法都無法保證在不同數(shù)據(jù)集上的檢測(cè)效果具有很好的泛化能力。本文對(duì)自然場(chǎng)景下的文本檢測(cè)任務(wù)進(jìn)行了深入的理解和研究,主要工作包括以下三個(gè)方面,首先,收集并標(biāo)注中文場(chǎng)景圖像數(shù)據(jù)集（ShopSign）。其次,設(shè)計(jì)基于特征融合的場(chǎng)景文本檢測(cè)算法。最后,設(shè)計(jì)融合異構(gòu)方法檢測(cè)結(jié)果的...

【文章來源】：河南大學(xué)河南省

【文章頁數(shù)】：85 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

本文論文章節(jié)結(jié)構(gòu)圖

數(shù)據(jù)集,圖像,文本,圖片

2.1.1 ICDAR2013 數(shù)據(jù)集ICDAR2013 Focused Scene Text[37]，這個(gè)競賽所研究的特定場(chǎng)景是聚焦文本，拍攝者在拍攝圖片時(shí)，會(huì)將攝像機(jī)的焦點(diǎn)對(duì)準(zhǔn)感興趣的文本內(nèi)容進(jìn)行拍攝。這就是聚焦文本，這也是文本閱讀和文本翻譯應(yīng)用程序的典型場(chǎng)景。ICDAR2013 數(shù)據(jù)集包含 462 張自然場(chǎng)景文本圖像，包括 229 張訓(xùn)練集圖片和 233 張測(cè)試集圖片，且圖片中的文本均為英文。這些圖像通常以文本為特征，焦點(diǎn)好，圖像中的文本較為清晰，并且圖像文本是水平的。同時(shí)該數(shù)據(jù)集包含了多種場(chǎng)景的文本圖片，例如：商鋪標(biāo)牌，文字被部分遮擋的圖片，強(qiáng)光下的文字圖片等。ICDAR2013 的數(shù)據(jù)集標(biāo)注格式如下圖所示，標(biāo)注文本中顯示圖片中文本行的左上，右下角坐標(biāo)（x1,y1,x2,y2）還有文本行內(nèi)容。目前ICDAR2013 數(shù)據(jù)集被多次用于自然場(chǎng)景文本檢測(cè)算法的訓(xùn)練與識(shí)別中，同時(shí)，也是文本檢測(cè)算法檢驗(yàn)算法性能的常用數(shù)據(jù)集。ICDAR2013 數(shù)據(jù)集中的圖像以及圖像標(biāo)注信息如下圖 2-1[37]所示。

數(shù)據(jù)集,示例,圖像,文本

圖 2-2 ICDAR2015 數(shù)據(jù)集的圖像示例[38]2.1.3 MSRA-TD500 數(shù)據(jù)集MSRA-TD500[40]數(shù)據(jù)集是多方向文本檢測(cè)、文本大部分都在標(biāo)識(shí)牌上、分辨率在1296*864 到 1920*1280 之間，文本內(nèi)容為中文和英文，總共 500 張自然場(chǎng)景圖片訓(xùn)練集300 張圖片，測(cè)試集 200 張圖片，文本以行為單位標(biāo)注，而不是以單詞標(biāo)注，每張圖片上所有的字都會(huì)被標(biāo)注上。為了解決文本檢測(cè)算法難以處理的困難文本(太小、遮擋、模糊或截?cái)?的問題，每一個(gè)被認(rèn)為是困難的文本都被賦予一個(gè)額外的“困難”標(biāo)簽，若文本困難，則標(biāo)簽為‘1’，否則標(biāo)簽為‘0’。MSRA-TD500 數(shù)據(jù)集的標(biāo)注格式與 ICDAR2013，ICDAR2015 數(shù)據(jù)集的標(biāo)注格式不一樣，MSRA-TD500 數(shù)據(jù)集主要是針對(duì)多方向場(chǎng)景文本檢測(cè)任務(wù)而整理的，文本標(biāo)注方式為包圍文本行的矩形框的左上點(diǎn)坐標(biāo)和矩形框的寬高，還有矩形框的旋轉(zhuǎn)角度，以矩形框的左上角坐標(biāo)為起始點(diǎn)記錄文本區(qū)域的索引、是否困難（0/1）、左上點(diǎn)、右下點(diǎn)、旋轉(zhuǎn)角度。下圖 2-3[40]是示例圖像：

本文編號(hào)：2984188

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2984188.html

上一篇：具有認(rèn)知風(fēng)格分類能力的在線學(xué)習(xí)系統(tǒng)設(shè)計(jì)研究
下一篇：基于卷積神經(jīng)網(wǎng)絡(luò)的多類商品分類算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)算法的融合技術(shù)研究