基于深度學(xué)習(xí)的自然場景文字檢測與識別方法研究
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;TP183
【部分圖文】:
受到技術(shù)水平和硬件條件的限制,傳統(tǒng)的OCR方法只針對文檔文字設(shè)計。自然圖??片中的文字通常被稱作場景文字(scene?text),場景文字檢測識別是傳統(tǒng)OCR在自然圖??片上的延續(xù)和升級。它的應(yīng)用極其廣泛,如圖1.1所示\識別商品包裝可以在無人超市??中追蹤商品;識別路牌可以輔助無人駕駛車的導(dǎo)航(尤其是在GPS信號弱的建筑物密集??區(qū)域);識別場景中的文字并轉(zhuǎn)化為音頻,可以讓盲人不依賴盲文就可以閱讀文字;識??別門牌號可以實現(xiàn)快遞機(jī)器人送貨上門;識別單據(jù)可以實現(xiàn)自動化記賬;識別外語并加??以翻譯可以方便出國旅行的游客。場景文字無處不在,場景文字檢測識別的應(yīng)用也因此??無處不在。尤其是近年來移動設(shè)備的普及使得自然圖像的數(shù)量呈現(xiàn)指數(shù)增長趨勢,導(dǎo)致??工業(yè)界對場景文字檢測識別技術(shù)的需求日益急迫。近年來,各大科技公司如Google、微??軟等都推出了各自的計算機(jī)視覺云服務(wù),這些云服務(wù)都將場景文字檢測識別作為基本功??能之一。??傳統(tǒng)的OCR方法大多針對掃描文檔圖片設(shè)計。如圖1.2所示,這些圖片通常由掃描??儀等設(shè)備獲取,成像過程高度受控。因此,文檔圖片大多有干凈和純色的背景、字體變??2??
盡管傳統(tǒng)的OCR技術(shù)已經(jīng)趨于成熟,場景文字的檢測和識別至今仍面臨著巨大的??挑戰(zhàn)。挑戰(zhàn)主要來源于三個方面。首先,相比文檔圖片,場景文字的背景更為復(fù)雜。如??圖1.3所示2,場景圖片種視覺元素種類繁多,其中包含許多容易和文字混淆的物體和紋??理。復(fù)雜的背景使得二值化算法難以將文字從背景中區(qū)分開,并且會讓傳統(tǒng)的物體檢測??器產(chǎn)生大量的虛警(false?positives),給文字定位造成困難。??其次,場景文字的字體、顏色、排布相比文檔文字復(fù)雜得多。場景文字多用于廣告、??商標(biāo)等文宣用途,具有強(qiáng)烈的藝術(shù)風(fēng)格,其字體、尺寸、顏色、排版、紋理等都存在劇烈??變化。此外,光照條件、相機(jī)拍攝角度等成像條件皆不受控,也會影響文字的外觀。傳??統(tǒng)的手工設(shè)計特征和淺層分類器不能很好地應(yīng)對場景文字自身的變化。因此,場景文字??結(jié)合了前景和背景兩方面的復(fù)雜性,其識別難度遠(yuǎn)勝文檔文字。事實
文字檢測的挑戰(zhàn)主要來源于以下四個方面。第一,場景文字的字體、顏色等變換劇??烈,且自然圖片的背景中存在大量容易和文字混淆的物體和紋理,兩者都給檢測造成了??困難;第二,如圖2.1所示,場景文字是細(xì)長形狀的物體,其寬高比往往大于一般物體。??這一特性在德語、漢語等語言上尤為明顯:前者的平均單詞長度較長,許多單詞超過2〇??個字母,寬高比很大;后者沒有單詞的概念,詞與詞之間沒有空格分離,因此檢測對象??只能是整條的文字行,寬高比更加極端。寬高比的大范圍變化給物體檢測造成了困難,??尤其是基于滑動窗的檢測方法;第三,同樣如圖2.1所示,場景文字可以是傾斜的,需要??用帶方向的包圍盒檢測;第四,由于文字檢測需要在整張圖片上進(jìn)行,其運(yùn)算效率十分??19??
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡悅;;金融市場中的神經(jīng)網(wǎng)絡(luò)拐點預(yù)測法[J];金融經(jīng)濟(jì);2017年18期
2 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會述評[J];國際學(xué)術(shù)動態(tài);1996年01期
3 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識別[J];通訊世界;2018年12期
4 王麗華;楊秀萍;王皓;高崢翔;;智能雙輪平衡車的設(shè)計研究[J];數(shù)字技術(shù)與應(yīng)用;2018年04期
5 張庭略;;基于硬件的神經(jīng)網(wǎng)絡(luò)加速[J];通訊世界;2018年08期
6 蘇秀婷;;耦合神經(jīng)網(wǎng)絡(luò)的同步[J];紹興文理學(xué)院學(xué)報(自然科學(xué));2016年03期
7 朱溦;;神經(jīng)網(wǎng)絡(luò)結(jié)合平均影響值方法篩選變量[J];產(chǎn)業(yè)與科技論壇;2017年01期
8 ;硅光子神經(jīng)網(wǎng)絡(luò)亮相[J];石油工業(yè)計算機(jī)應(yīng)用;2016年04期
9 任剛紅;杜坤;周明;劉年東;張晉;;基于級聯(lián)神經(jīng)網(wǎng)絡(luò)的年降雨量預(yù)測[J];土木建筑與環(huán)境工程;2016年S2期
10 金鑫;李龍威;季佳男;李祉歧;胡宇;趙永彬;;基于大數(shù)據(jù)和優(yōu)化神經(jīng)網(wǎng)絡(luò)短期電力負(fù)荷預(yù)測[J];通信學(xué)報;2016年S1期
相關(guān)博士學(xué)位論文 前10條
1 石葆光;基于深度學(xué)習(xí)的自然場景文字檢測與識別方法研究[D];華中科技大學(xué);2018年
2 劉梅;網(wǎng)絡(luò)系統(tǒng)的穩(wěn)定和同步行為研究[D];新疆大學(xué);2017年
3 靳然;基于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的麥蚜發(fā)生動態(tài)預(yù)測研究[D];山西農(nóng)業(yè)大學(xué);2017年
4 李驍;基于深度卷積神經(jīng)網(wǎng)絡(luò)MSCT對小腎腫瘤病理分型的預(yù)測研究[D];中國人民解放軍海軍軍醫(yī)大學(xué);2018年
5 李若霞;基于憶阻的神經(jīng)網(wǎng)絡(luò)的動力學(xué)分析及應(yīng)用[D];東南大學(xué);2017年
6 項延德;基于卷積神經(jīng)網(wǎng)絡(luò)的心電信號檢測和分類研究[D];浙江大學(xué);2018年
7 李一鳴;結(jié)合知識和神經(jīng)網(wǎng)絡(luò)的文本表示方法的研究[D];浙江大學(xué);2018年
8 李揚(yáng);面向圖像目標(biāo)識別和檢測的深度神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2018年
9 LYDIA LAZIB;文本否定范圍識別技術(shù)研究及其應(yīng)用[D];哈爾濱工業(yè)大學(xué);2018年
10 周小強(qiáng);基于深度學(xué)習(xí)的交互式問答技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年
相關(guān)碩士學(xué)位論文 前10條
1 陳超峰;高速公路全線建設(shè)三維智能動態(tài)優(yōu)化管理方法研究[D];石家莊鐵道大學(xué);2018年
2 趙麗;基于圖像識別技術(shù)的網(wǎng)絡(luò)閱卷系統(tǒng)的研究與設(shè)計[D];石家莊鐵道大學(xué);2018年
3 張麗民;基于深度卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)服務(wù)機(jī)器人的場景理解技術(shù)研究[D];江蘇科技大學(xué);2018年
4 呂權(quán);基于神經(jīng)網(wǎng)絡(luò)的番茄葉部病害識別[D];河北農(nóng)業(yè)大學(xué);2018年
5 郭雷;分布式光伏發(fā)電系統(tǒng)超短期功率預(yù)測方法研究[D];沈陽農(nóng)業(yè)大學(xué);2018年
6 楊天云;基于卷積神經(jīng)網(wǎng)絡(luò)的多尺度目標(biāo)檢測研究[D];華中科技大學(xué);2017年
7 葛波;基于深度卷積神經(jīng)網(wǎng)絡(luò)的腦組織分割方法研究[D];華中科技大學(xué);2017年
8 張容容;基于BP神經(jīng)網(wǎng)絡(luò)的多通道微波輻射計大氣參數(shù)反演算法[D];華中科技大學(xué);2017年
9 魯向擁;基于交通大數(shù)據(jù)的KPI關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法研究[D];華中科技大學(xué);2017年
10 曹雷;一種基于卷積神經(jīng)網(wǎng)絡(luò)的加密解密算法[D];華中科技大學(xué);2017年
本文編號:2880909
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2880909.html