天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學(xué)習(xí)的自然場景文字檢測與識別方法研究

發(fā)布時間:2020-11-12 15:27
   文字是人類文明的基石,也是現(xiàn)代社會信息交流最重要的媒介。場景文字是自然圖像中的文字。它在日常生活中無處不在,名片、路牌、包裝、車牌、店鋪門面等物體都攜帶文字,并由文字描述。對場景文字的識別是人類視覺的重要功能,也是計算機(jī)視覺的重要問題。它可以被用于大量的實際問題,如車牌識別、地理定位、單據(jù)識別、無人駕駛、無人超市等,是計算機(jī)視覺的一項基礎(chǔ)設(shè)施。由于文字的重要性,對文檔文字識別的研究早在幾十年前就已經(jīng)開始,積累了大量研究。然而,場景文字在字體、顏色、尺度、排布、圖像質(zhì)量等方面高度復(fù)雜,挑戰(zhàn)性遠(yuǎn)勝于文檔文字。因此,盡管文檔文字的識別技術(shù)已相對成熟,現(xiàn)有方法卻難以應(yīng)對自然場景文字的復(fù)雜性。近年來,深度學(xué)習(xí)的出現(xiàn)為計算機(jī)視覺提供了新的思路,并在多項基礎(chǔ)問題中取得了突破。本文基于深度學(xué)習(xí)算法,圍繞場景文字檢測與識別問題開展一系列的研究:(1)本文提出一種快速任意方向文字檢測方法。該方法基于原創(chuàng)的“片段鏈接”思想,將文字行拆分成片段和鏈接兩種元素:片段是單詞或文字行的一小段;鏈接將屬于同一單詞或文字行的相鄰片段相連。片段和鏈接通過一個全卷積網(wǎng)絡(luò)在多個尺度上密集地檢測,并根據(jù)幾何規(guī)則組合得到整詞。該方法采用一種與主流物體檢測方法截然不同的思路,有效解決了細(xì)長文字檢測這一困擾學(xué)界多年的難題。它在標(biāo)準(zhǔn)數(shù)據(jù)集IC15的結(jié)果大幅超出了先前的方法,檢測速度高達(dá)20幀每秒,并且同時適用于英文和中文的檢測,和現(xiàn)有方法相比具備多方面的優(yōu)勢。(2)本文提出一種端到端可訓(xùn)練的文字識別神經(jīng)網(wǎng)絡(luò)模型。該模型首次將卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、聯(lián)結(jié)時序分類三者結(jié)合,能夠直接從圖片中識別出文字內(nèi)容,并可以由圖片和文字標(biāo)注端到端地訓(xùn)練,極大地簡化了傳統(tǒng)方法中復(fù)雜的訓(xùn)練測試流程。該模型不僅識別準(zhǔn)確,還具備模型參數(shù)少、輸入圖片尺寸任意、易訓(xùn)練、易部署等多項優(yōu)勢。(3)本文研究了不規(guī)則文字的識別問題。不規(guī)則文字是非水平書寫的文字,通常由側(cè)面拍攝、傾斜放置、彎曲排列等因素導(dǎo)致。它們在自然場景中廣泛出現(xiàn),且難以識別。本文提出一種新穎的矯正-識別神經(jīng)網(wǎng)絡(luò)模型。該模型通過一種靈活的矯正機(jī)制,在識別前對輸入圖片進(jìn)行自適應(yīng)的矯正,能夠糾正多種不規(guī)則的情形。矯正模型完全由識別模型所反向傳遞的梯度進(jìn)行訓(xùn)練,無需額外的人工標(biāo)注。該模型識別性能優(yōu)異,在7個主流數(shù)據(jù)集的12項指標(biāo)中取得9項最優(yōu)。此外,它還能夠在端到端系統(tǒng)中強(qiáng)化檢測器,使端到端識別的準(zhǔn)確率大幅度超過TextSpotter和Deep TextSpotter等現(xiàn)有端到端系統(tǒng),達(dá)到同時期的最優(yōu)結(jié)果。(4)本文提出并研究了一項新問題:場景文字語種識別。在多語言環(huán)境中,知曉文字的語言種類是識別文字內(nèi)容的前提。場景文字語種識別是多語言環(huán)境下場景文字系統(tǒng)必不可少的一環(huán),然而相關(guān)研究仍處于空缺狀態(tài)。語種識別的一項重要挑戰(zhàn)是區(qū)分相似語種之間的細(xì)微差別。本文提出一種基于區(qū)分式卷積神經(jīng)網(wǎng)絡(luò)的語種識別模型。該模型結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和區(qū)分式聚類算法,能夠捕捉到不同語種文字之間的細(xì)節(jié)差異。它在場景、視頻、文檔文字上都取得了良好的語種識別效果,且具有可解釋性。為了給后續(xù)研究打下基礎(chǔ),本文還收集了一個新的數(shù)據(jù)集,該數(shù)據(jù)集由包含13種語言的16291張圖片及語種標(biāo)注構(gòu)成。通過上述的研究,本文構(gòu)建了一套完整的場景文字檢測與識別算法系統(tǒng),并且為場景文字語種識別問題奠定了基礎(chǔ)。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級別】:博士
【學(xué)位年份】:2018
【中圖分類】:TP391.41;TP183
【部分圖文】:

文字檢測,現(xiàn)實應(yīng)用,場景,示例


受到技術(shù)水平和硬件條件的限制,傳統(tǒng)的OCR方法只針對文檔文字設(shè)計。自然圖??片中的文字通常被稱作場景文字(scene?text),場景文字檢測識別是傳統(tǒng)OCR在自然圖??片上的延續(xù)和升級。它的應(yīng)用極其廣泛,如圖1.1所示\識別商品包裝可以在無人超市??中追蹤商品;識別路牌可以輔助無人駕駛車的導(dǎo)航(尤其是在GPS信號弱的建筑物密集??區(qū)域);識別場景中的文字并轉(zhuǎn)化為音頻,可以讓盲人不依賴盲文就可以閱讀文字;識??別門牌號可以實現(xiàn)快遞機(jī)器人送貨上門;識別單據(jù)可以實現(xiàn)自動化記賬;識別外語并加??以翻譯可以方便出國旅行的游客。場景文字無處不在,場景文字檢測識別的應(yīng)用也因此??無處不在。尤其是近年來移動設(shè)備的普及使得自然圖像的數(shù)量呈現(xiàn)指數(shù)增長趨勢,導(dǎo)致??工業(yè)界對場景文字檢測識別技術(shù)的需求日益急迫。近年來,各大科技公司如Google、微??軟等都推出了各自的計算機(jī)視覺云服務(wù),這些云服務(wù)都將場景文字檢測識別作為基本功??能之一。??傳統(tǒng)的OCR方法大多針對掃描文檔圖片設(shè)計。如圖1.2所示,這些圖片通常由掃描??儀等設(shè)備獲取,成像過程高度受控。因此,文檔圖片大多有干凈和純色的背景、字體變??2??

文字,場景,文檔,排布


盡管傳統(tǒng)的OCR技術(shù)已經(jīng)趨于成熟,場景文字的檢測和識別至今仍面臨著巨大的??挑戰(zhàn)。挑戰(zhàn)主要來源于三個方面。首先,相比文檔圖片,場景文字的背景更為復(fù)雜。如??圖1.3所示2,場景圖片種視覺元素種類繁多,其中包含許多容易和文字混淆的物體和紋??理。復(fù)雜的背景使得二值化算法難以將文字從背景中區(qū)分開,并且會讓傳統(tǒng)的物體檢測??器產(chǎn)生大量的虛警(false?positives),給文字定位造成困難。??其次,場景文字的字體、顏色、排布相比文檔文字復(fù)雜得多。場景文字多用于廣告、??商標(biāo)等文宣用途,具有強(qiáng)烈的藝術(shù)風(fēng)格,其字體、尺寸、顏色、排版、紋理等都存在劇烈??變化。此外,光照條件、相機(jī)拍攝角度等成像條件皆不受控,也會影響文字的外觀。傳??統(tǒng)的手工設(shè)計特征和淺層分類器不能很好地應(yīng)對場景文字自身的變化。因此,場景文字??結(jié)合了前景和背景兩方面的復(fù)雜性,其識別難度遠(yuǎn)勝文檔文字。事實

物體檢測,字檢測,寬高比


文字檢測的挑戰(zhàn)主要來源于以下四個方面。第一,場景文字的字體、顏色等變換劇??烈,且自然圖片的背景中存在大量容易和文字混淆的物體和紋理,兩者都給檢測造成了??困難;第二,如圖2.1所示,場景文字是細(xì)長形狀的物體,其寬高比往往大于一般物體。??這一特性在德語、漢語等語言上尤為明顯:前者的平均單詞長度較長,許多單詞超過2〇??個字母,寬高比很大;后者沒有單詞的概念,詞與詞之間沒有空格分離,因此檢測對象??只能是整條的文字行,寬高比更加極端。寬高比的大范圍變化給物體檢測造成了困難,??尤其是基于滑動窗的檢測方法;第三,同樣如圖2.1所示,場景文字可以是傾斜的,需要??用帶方向的包圍盒檢測;第四,由于文字檢測需要在整張圖片上進(jìn)行,其運(yùn)算效率十分??19??
【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡悅;;金融市場中的神經(jīng)網(wǎng)絡(luò)拐點預(yù)測法[J];金融經(jīng)濟(jì);2017年18期

2 遲惠生;陳珂;;1995年世界神經(jīng)網(wǎng)絡(luò)大會述評[J];國際學(xué)術(shù)動態(tài);1996年01期

3 吳立可;;脈沖神經(jīng)網(wǎng)絡(luò)和行為識別[J];通訊世界;2018年12期

4 王麗華;楊秀萍;王皓;高崢翔;;智能雙輪平衡車的設(shè)計研究[J];數(shù)字技術(shù)與應(yīng)用;2018年04期

5 張庭略;;基于硬件的神經(jīng)網(wǎng)絡(luò)加速[J];通訊世界;2018年08期

6 蘇秀婷;;耦合神經(jīng)網(wǎng)絡(luò)的同步[J];紹興文理學(xué)院學(xué)報(自然科學(xué));2016年03期

7 朱溦;;神經(jīng)網(wǎng)絡(luò)結(jié)合平均影響值方法篩選變量[J];產(chǎn)業(yè)與科技論壇;2017年01期

8 ;硅光子神經(jīng)網(wǎng)絡(luò)亮相[J];石油工業(yè)計算機(jī)應(yīng)用;2016年04期

9 任剛紅;杜坤;周明;劉年東;張晉;;基于級聯(lián)神經(jīng)網(wǎng)絡(luò)的年降雨量預(yù)測[J];土木建筑與環(huán)境工程;2016年S2期

10 金鑫;李龍威;季佳男;李祉歧;胡宇;趙永彬;;基于大數(shù)據(jù)和優(yōu)化神經(jīng)網(wǎng)絡(luò)短期電力負(fù)荷預(yù)測[J];通信學(xué)報;2016年S1期


相關(guān)博士學(xué)位論文 前10條

1 石葆光;基于深度學(xué)習(xí)的自然場景文字檢測與識別方法研究[D];華中科技大學(xué);2018年

2 劉梅;網(wǎng)絡(luò)系統(tǒng)的穩(wěn)定和同步行為研究[D];新疆大學(xué);2017年

3 靳然;基于神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的麥蚜發(fā)生動態(tài)預(yù)測研究[D];山西農(nóng)業(yè)大學(xué);2017年

4 李驍;基于深度卷積神經(jīng)網(wǎng)絡(luò)MSCT對小腎腫瘤病理分型的預(yù)測研究[D];中國人民解放軍海軍軍醫(yī)大學(xué);2018年

5 李若霞;基于憶阻的神經(jīng)網(wǎng)絡(luò)的動力學(xué)分析及應(yīng)用[D];東南大學(xué);2017年

6 項延德;基于卷積神經(jīng)網(wǎng)絡(luò)的心電信號檢測和分類研究[D];浙江大學(xué);2018年

7 李一鳴;結(jié)合知識和神經(jīng)網(wǎng)絡(luò)的文本表示方法的研究[D];浙江大學(xué);2018年

8 李揚(yáng);面向圖像目標(biāo)識別和檢測的深度神經(jīng)網(wǎng)絡(luò)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2018年

9 LYDIA LAZIB;文本否定范圍識別技術(shù)研究及其應(yīng)用[D];哈爾濱工業(yè)大學(xué);2018年

10 周小強(qiáng);基于深度學(xué)習(xí)的交互式問答技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2017年


相關(guān)碩士學(xué)位論文 前10條

1 陳超峰;高速公路全線建設(shè)三維智能動態(tài)優(yōu)化管理方法研究[D];石家莊鐵道大學(xué);2018年

2 趙麗;基于圖像識別技術(shù)的網(wǎng)絡(luò)閱卷系統(tǒng)的研究與設(shè)計[D];石家莊鐵道大學(xué);2018年

3 張麗民;基于深度卷積神經(jīng)網(wǎng)絡(luò)的室內(nèi)服務(wù)機(jī)器人的場景理解技術(shù)研究[D];江蘇科技大學(xué);2018年

4 呂權(quán);基于神經(jīng)網(wǎng)絡(luò)的番茄葉部病害識別[D];河北農(nóng)業(yè)大學(xué);2018年

5 郭雷;分布式光伏發(fā)電系統(tǒng)超短期功率預(yù)測方法研究[D];沈陽農(nóng)業(yè)大學(xué);2018年

6 楊天云;基于卷積神經(jīng)網(wǎng)絡(luò)的多尺度目標(biāo)檢測研究[D];華中科技大學(xué);2017年

7 葛波;基于深度卷積神經(jīng)網(wǎng)絡(luò)的腦組織分割方法研究[D];華中科技大學(xué);2017年

8 張容容;基于BP神經(jīng)網(wǎng)絡(luò)的多通道微波輻射計大氣參數(shù)反演算法[D];華中科技大學(xué);2017年

9 魯向擁;基于交通大數(shù)據(jù)的KPI關(guān)聯(lián)關(guān)系發(fā)現(xiàn)方法研究[D];華中科技大學(xué);2017年

10 曹雷;一種基于卷積神經(jīng)網(wǎng)絡(luò)的加密解密算法[D];華中科技大學(xué);2017年



本文編號:2880909

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2880909.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶89282***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com