基于深度學(xué)習(xí)的自然場景下多方向中文文本識別
發(fā)布時(shí)間:2021-06-02 22:13
圖像中的文本信息能為人們和計(jì)算機(jī)解讀圖像場景提供重要的幫助,對自然場景下的圖像進(jìn)行文本識別是當(dāng)前最熱門的研究領(lǐng)域之一。自然場景下的文本識別一般要經(jīng)過檢測圖像中的文本區(qū)域和對文本區(qū)域進(jìn)行文字識別這二個(gè)步驟。本文主要研究自然場景下的文本檢測和文本識別算法,最后將檢測和識別連接起來,實(shí)現(xiàn)了文本識別的端到端系統(tǒng)。針對自然場景下的圖像文本檢測,本文提出了基于改進(jìn)Faster RCNN的多方向文本檢測算法。通過在VGG16特征提取網(wǎng)絡(luò)中加入SE模塊,提升了網(wǎng)絡(luò)性能。對于bounding box的回歸,加入了文本塊矩形的角度信息,可以檢測多方向的文本。針對場景文本的多方向特點(diǎn),在anchor選取上加入了角度變量生成更多的anchor。最后在公開的標(biāo)準(zhǔn)數(shù)據(jù)集上對本文提出的檢測算法進(jìn)行實(shí)驗(yàn),通過對比一些現(xiàn)有的檢測算法,表明本文的算法有較好的檢測性能。本文還研究了中文文本的識別方法,提出了改進(jìn)的STN-CRNN方法識別檢測出的文本區(qū)域。STN-CRNN先將文本框圖像進(jìn)行文本矯正,再送入文本識別網(wǎng)絡(luò)進(jìn)行識別。文本識別網(wǎng)絡(luò)對矯正后的文本圖像進(jìn)行特征提取,編碼生成特征向量序列。然后在解碼器模塊引入注意力機(jī)制來對...
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
原圖及其MSER區(qū)域
第2章相關(guān)理論知識介紹9自然場景下的文本區(qū)域不同于背景區(qū)域,文本區(qū)域一般都有相似的像素值,因此把圖像中的文字區(qū)域可當(dāng)作最大穩(wěn)定極值區(qū)域。利用文本區(qū)域的這一特性可以從場景圖像中提取出文字候選區(qū)域,采用特定的過濾規(guī)則把非文字區(qū)域部分過濾掉,得到最終的文字區(qū)域。MSER特征雖然在英文文本檢測中能有很好的效果,但由于中文中筆畫分離的字符比較多,這些都是不連通的,因此用MSER檢測方法來檢測中文,就會效果不好。2.1.2筆畫寬度變換筆畫寬度變換(StrokeWidthTransformation,SWT)[30]是由EOfek等人提出的特征。根據(jù)在同一行文本中筆畫的寬度大致相同這一特點(diǎn),找到筆畫寬度類似的區(qū)域就是圖像的文本區(qū)域。SWT提取特征不同于其它特征提取方式,采用對像素組的區(qū)域進(jìn)行特征提取的方式,對文本區(qū)域采用自上而下的合并方式,而不是通過對單個(gè)像素進(jìn)行特征提齲SWT方法對先驗(yàn)知識減少了依賴,可將其應(yīng)用到不同語種的文本檢測任務(wù)上。算法用單通道的灰度圖像作為輸入,最終輸出的是二值圖像,該二值圖像包含檢測到的文本區(qū)域。SWT算法的過程展示如圖2.2所示,對圖像中的所有的像素點(diǎn)進(jìn)行計(jì)算梯度方向和Canny邊緣化操作。設(shè)定一個(gè)矩陣大小等于輸入圖像的維度的二維矩陣I,初始化I中每一個(gè)元素為正無窮。然后讀取圖像的每個(gè)邊緣點(diǎn)和該點(diǎn)對應(yīng)的梯度信息,沿著與該梯度方向相反的方向?qū)ふ疫吘夵c(diǎn),在矩陣I中寫入計(jì)算得到的兩點(diǎn)間的距離w,取對應(yīng)點(diǎn)的初始值和w中的較小值填充進(jìn)I中對應(yīng)位置。計(jì)算完所有的邊緣點(diǎn)進(jìn)行矩陣I的更新,得到的就是該圖像的筆畫寬度圖。由于是通過計(jì)算得到的筆畫寬度不是完全一致的,要想得到最終的包含文本區(qū)域的圖像,還要合并離散點(diǎn)為連通區(qū)域。圖2.2筆畫、邊緣與梯度信息
第2章相關(guān)理論知識介紹11率,而one-stage目標(biāo)檢測算法比two-stage目標(biāo)檢測算法有更快的檢測速度。二種目標(biāo)檢測算法最大的區(qū)別是有無生成候選區(qū)域的過程。本節(jié)主要介紹R-CNN系列、YOLO、SSD的目標(biāo)檢測算法。2.2.1基于R-CNN的目標(biāo)檢測傳統(tǒng)的檢測算法目前已經(jīng)有了很多的成果,但是這些目標(biāo)檢測算法的性能已經(jīng)到了上限;ヂ(lián)網(wǎng)大數(shù)據(jù)的發(fā)展導(dǎo)致圖像的數(shù)據(jù)量和標(biāo)注信息有了井噴式增加,在越來越多的場景上CNN算法體現(xiàn)出了其優(yōu)越性,因此目標(biāo)檢測的研究重點(diǎn)是以CNN為基矗RossGirshick等[34]在2014年設(shè)計(jì)并提出了RegionCNN目標(biāo)檢測算法,緊接著又先后提出了基于RegionCNN的缺點(diǎn)而改進(jìn)的FastR-CNN和FasterR-CNN算法。2.2.1.1R-CNN在傳統(tǒng)的目標(biāo)檢測方法中,候選區(qū)域的獲取尤為重要,一般采用滑動窗口的方法來獲取,但滑動窗口存在的缺陷就是不能將圖像的全局特征利用起來,而且容易出現(xiàn)冗余的情況。傳統(tǒng)的物體檢測方法的時(shí)間復(fù)雜度相對較高。首次將深度學(xué)習(xí)方法應(yīng)用到物體檢測上的通用算法框架就是R-CNN,R-CNN不同于傳統(tǒng)的手工設(shè)計(jì)特征和滑動窗口方式,采用CNN分類和生成候選區(qū)域的方式,這是目標(biāo)檢測領(lǐng)域的一個(gè)階段性的巨大發(fā)展。R-CNN的整體檢測流程如圖2.3所示。圖2.3R-CNN的檢測流程與滑動窗口技術(shù)不同,R-CNN在提取候選區(qū)域時(shí)選用的是selectivesearch選擇性搜索算法[28]。該算法提取圖像特征時(shí)綜合了邊緣、紋理和色彩等信息,在候選窗口較少的情況下,也能得到較高的召回率。不同于長寬比固定的滑動窗口,通過選擇性搜索算法獲取到的候選窗口的大小不統(tǒng)一,這樣有利于各種形狀的
【參考文獻(xiàn)】:
期刊論文
[1]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動化學(xué)報(bào). 2018(12)
[2]基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國科學(xué):信息科學(xué). 2018(05)
[3]自然場景圖像中的中文文本檢測算法[J]. 繆裕青,劉水清,張萬楨,歐威健,蔡國永. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(03)
[4]基于筆畫角度變換和寬度特征的自然場景文本檢測[J]. 陳碩,鄭建彬,詹恩奇,汪陽. 計(jì)算機(jī)應(yīng)用研究. 2019(04)
[5]視頻和圖像文本提取方法綜述[J]. 蔣夢迪,程江華,陳明輝,庫錫樹. 計(jì)算機(jī)科學(xué). 2017(S2)
[6]自然場景圖像中的文字檢測綜述[J]. 楊飛. 電子設(shè)計(jì)工程. 2016(24)
[7]自然場景下基于連通域檢測的文字識別算法研究[J]. 劉新瀚,錢侃,王宇飛,朱向霄,孫知信. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(05)
[8]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報(bào). 2015(01)
碩士論文
[1]自然場景下漢字定位與識別方法研究[D]. 柴偉佳.東北師范大學(xué) 2018
[2]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
[3]自然場景中路牌漢字識別技術(shù)研究[D]. 孫彩虹.南京理工大學(xué) 2014
本文編號:3210847
【文章來源】:南昌大學(xué)江西省 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
原圖及其MSER區(qū)域
第2章相關(guān)理論知識介紹9自然場景下的文本區(qū)域不同于背景區(qū)域,文本區(qū)域一般都有相似的像素值,因此把圖像中的文字區(qū)域可當(dāng)作最大穩(wěn)定極值區(qū)域。利用文本區(qū)域的這一特性可以從場景圖像中提取出文字候選區(qū)域,采用特定的過濾規(guī)則把非文字區(qū)域部分過濾掉,得到最終的文字區(qū)域。MSER特征雖然在英文文本檢測中能有很好的效果,但由于中文中筆畫分離的字符比較多,這些都是不連通的,因此用MSER檢測方法來檢測中文,就會效果不好。2.1.2筆畫寬度變換筆畫寬度變換(StrokeWidthTransformation,SWT)[30]是由EOfek等人提出的特征。根據(jù)在同一行文本中筆畫的寬度大致相同這一特點(diǎn),找到筆畫寬度類似的區(qū)域就是圖像的文本區(qū)域。SWT提取特征不同于其它特征提取方式,采用對像素組的區(qū)域進(jìn)行特征提取的方式,對文本區(qū)域采用自上而下的合并方式,而不是通過對單個(gè)像素進(jìn)行特征提齲SWT方法對先驗(yàn)知識減少了依賴,可將其應(yīng)用到不同語種的文本檢測任務(wù)上。算法用單通道的灰度圖像作為輸入,最終輸出的是二值圖像,該二值圖像包含檢測到的文本區(qū)域。SWT算法的過程展示如圖2.2所示,對圖像中的所有的像素點(diǎn)進(jìn)行計(jì)算梯度方向和Canny邊緣化操作。設(shè)定一個(gè)矩陣大小等于輸入圖像的維度的二維矩陣I,初始化I中每一個(gè)元素為正無窮。然后讀取圖像的每個(gè)邊緣點(diǎn)和該點(diǎn)對應(yīng)的梯度信息,沿著與該梯度方向相反的方向?qū)ふ疫吘夵c(diǎn),在矩陣I中寫入計(jì)算得到的兩點(diǎn)間的距離w,取對應(yīng)點(diǎn)的初始值和w中的較小值填充進(jìn)I中對應(yīng)位置。計(jì)算完所有的邊緣點(diǎn)進(jìn)行矩陣I的更新,得到的就是該圖像的筆畫寬度圖。由于是通過計(jì)算得到的筆畫寬度不是完全一致的,要想得到最終的包含文本區(qū)域的圖像,還要合并離散點(diǎn)為連通區(qū)域。圖2.2筆畫、邊緣與梯度信息
第2章相關(guān)理論知識介紹11率,而one-stage目標(biāo)檢測算法比two-stage目標(biāo)檢測算法有更快的檢測速度。二種目標(biāo)檢測算法最大的區(qū)別是有無生成候選區(qū)域的過程。本節(jié)主要介紹R-CNN系列、YOLO、SSD的目標(biāo)檢測算法。2.2.1基于R-CNN的目標(biāo)檢測傳統(tǒng)的檢測算法目前已經(jīng)有了很多的成果,但是這些目標(biāo)檢測算法的性能已經(jīng)到了上限;ヂ(lián)網(wǎng)大數(shù)據(jù)的發(fā)展導(dǎo)致圖像的數(shù)據(jù)量和標(biāo)注信息有了井噴式增加,在越來越多的場景上CNN算法體現(xiàn)出了其優(yōu)越性,因此目標(biāo)檢測的研究重點(diǎn)是以CNN為基矗RossGirshick等[34]在2014年設(shè)計(jì)并提出了RegionCNN目標(biāo)檢測算法,緊接著又先后提出了基于RegionCNN的缺點(diǎn)而改進(jìn)的FastR-CNN和FasterR-CNN算法。2.2.1.1R-CNN在傳統(tǒng)的目標(biāo)檢測方法中,候選區(qū)域的獲取尤為重要,一般采用滑動窗口的方法來獲取,但滑動窗口存在的缺陷就是不能將圖像的全局特征利用起來,而且容易出現(xiàn)冗余的情況。傳統(tǒng)的物體檢測方法的時(shí)間復(fù)雜度相對較高。首次將深度學(xué)習(xí)方法應(yīng)用到物體檢測上的通用算法框架就是R-CNN,R-CNN不同于傳統(tǒng)的手工設(shè)計(jì)特征和滑動窗口方式,采用CNN分類和生成候選區(qū)域的方式,這是目標(biāo)檢測領(lǐng)域的一個(gè)階段性的巨大發(fā)展。R-CNN的整體檢測流程如圖2.3所示。圖2.3R-CNN的檢測流程與滑動窗口技術(shù)不同,R-CNN在提取候選區(qū)域時(shí)選用的是selectivesearch選擇性搜索算法[28]。該算法提取圖像特征時(shí)綜合了邊緣、紋理和色彩等信息,在候選窗口較少的情況下,也能得到較高的召回率。不同于長寬比固定的滑動窗口,通過選擇性搜索算法獲取到的候選窗口的大小不統(tǒng)一,這樣有利于各種形狀的
【參考文獻(xiàn)】:
期刊論文
[1]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動化學(xué)報(bào). 2018(12)
[2]基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國科學(xué):信息科學(xué). 2018(05)
[3]自然場景圖像中的中文文本檢測算法[J]. 繆裕青,劉水清,張萬楨,歐威健,蔡國永. 計(jì)算機(jī)工程與設(shè)計(jì). 2018(03)
[4]基于筆畫角度變換和寬度特征的自然場景文本檢測[J]. 陳碩,鄭建彬,詹恩奇,汪陽. 計(jì)算機(jī)應(yīng)用研究. 2019(04)
[5]視頻和圖像文本提取方法綜述[J]. 蔣夢迪,程江華,陳明輝,庫錫樹. 計(jì)算機(jī)科學(xué). 2017(S2)
[6]自然場景圖像中的文字檢測綜述[J]. 楊飛. 電子設(shè)計(jì)工程. 2016(24)
[7]自然場景下基于連通域檢測的文字識別算法研究[J]. 劉新瀚,錢侃,王宇飛,朱向霄,孫知信. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(05)
[8]深度學(xué)習(xí)研究綜述[J]. 尹寶才,王文通,王立春. 北京工業(yè)大學(xué)學(xué)報(bào). 2015(01)
碩士論文
[1]自然場景下漢字定位與識別方法研究[D]. 柴偉佳.東北師范大學(xué) 2018
[2]基于深度學(xué)習(xí)的自然場景文字識別[D]. 黃攀.浙江大學(xué) 2016
[3]自然場景中路牌漢字識別技術(shù)研究[D]. 孫彩虹.南京理工大學(xué) 2014
本文編號:3210847
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3210847.html
最近更新
教材專著