自然場(chǎng)景下的文本檢測(cè)與識(shí)別方法研究
發(fā)布時(shí)間:2021-04-07 04:30
作為計(jì)算機(jī)視覺(jué)應(yīng)用的重要分支,自然場(chǎng)景中的文本閱讀一直以來(lái)都是基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)最受歡迎的熱門(mén)研究領(lǐng)域之一,在最近十年被廣泛的進(jìn)行了研究。由許多現(xiàn)實(shí)世界的應(yīng)用所驅(qū)動(dòng),對(duì)于助盲系統(tǒng)、智慧交通系統(tǒng)、無(wú)人駕駛導(dǎo)航系統(tǒng)等方向均具有實(shí)際應(yīng)用的現(xiàn)實(shí)意義由于場(chǎng)景文本的多樣性及背景的復(fù)雜性,場(chǎng)景文本檢測(cè)識(shí)別目前面臨著很多挑戰(zhàn)。在自然場(chǎng)景中閱讀文本分為文本檢測(cè)和文本識(shí)別兩個(gè)過(guò)程。其與光學(xué)字符識(shí)別(OCR)并不完全相似,在檢測(cè)難度、識(shí)別精度需求上還存在很大的差別。尤其是在無(wú)人駕駛導(dǎo)航的路標(biāo)信息提取中,對(duì)識(shí)別精準(zhǔn)度要求極高,OCR技術(shù)難以實(shí)現(xiàn)高準(zhǔn)度識(shí)別。目前的場(chǎng)景文本檢測(cè)及識(shí)別方法多為基于深度學(xué)習(xí)的方法,在面對(duì)復(fù)雜場(chǎng)景時(shí)深度學(xué)習(xí)具有傳統(tǒng)方法不可比擬的泛化能力。本文對(duì)自然場(chǎng)景的文本檢測(cè)與識(shí)別進(jìn)行了深入研究,提出了基于YOLOv3的多向文本檢測(cè)算法,以及基于CRNN的不定長(zhǎng)字符識(shí)別方法。本文具體研究?jī)?nèi)容如下:(1)本文提出了一種場(chǎng)景文本圖像預(yù)處理方法,同時(shí)提出了一個(gè)長(zhǎng)文本子數(shù)據(jù)集用于長(zhǎng)文本檢測(cè),以及一個(gè)大規(guī)模合成中文字符數(shù)據(jù)集用于中文字符識(shí)別。本文使用了 PCA對(duì)圖片進(jìn)行了降維,并提出了改進(jìn)的中值濾...
【文章來(lái)源】:東北電力大學(xué)吉林省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?申備網(wǎng)備訓(xùn)Suig…??由于卷積計(jì)算過(guò)程在二維空間內(nèi)完成,包括計(jì)算過(guò)程的參數(shù)、輸入輸出數(shù)據(jù)和計(jì)算關(guān)??
?(2-3)??其中*表示卷積。??假設(shè)是二維的卷積,則表達(dá)式為:??^?y)?=?(X?x?^)?(/,?y)?=?(/?-m,j-n)w(m,?n)?(2-4)??m?n??在這個(gè)公式中,X為輸入,W為卷積核。若輸入的X是一個(gè)二維矩陣,則w也是一??個(gè)二維矩陣。??根據(jù)上面的數(shù)學(xué)卷積過(guò)程來(lái)對(duì)CNN的卷積過(guò)程進(jìn)行理解。圖像卷積主要使用卷積層??的卷積核(濾波器)在圖像上按從左至右從上至下的順序進(jìn)行滑動(dòng),卷積核參數(shù)與對(duì)應(yīng)圖片??的像素值進(jìn)行相乘運(yùn)算后再相加。卷積過(guò)程示意圖如圖2-3所示,輸入數(shù)據(jù)是二維3X3矩??陣,其9個(gè)值為圖像像素值矩陣,采用2X2的卷積核對(duì)圖像進(jìn)行計(jì)算。右側(cè)圖為最終輸出??的卷積后的由4個(gè)像素構(gòu)成的特征圖。最終卷積值為aw?+?6x?+辦+?ez、+?+?+聲、??i/vv?+?ex?+?gy?+?Zzz、£w+_y5c?+?/^?+?/z。實(shí)際運(yùn)算中,為了避免丟失邊緣信息,會(huì)在外層補(bǔ)上一??圈0后再進(jìn)行卷積,此過(guò)程稱(chēng)為padding。同時(shí),為了實(shí)現(xiàn)不同的網(wǎng)絡(luò)功能,卷積的步長(zhǎng)可??以為任意值,通常使用步長(zhǎng)為1進(jìn)行特征提取,使用步長(zhǎng)為2進(jìn)行下采樣。??Da?9^?c?????Ed?|e?f?=>?mmj^L????dw+ex.?ew+fx+??gy+h??hy+iz??g?h?i?L.--」??圖2-3卷積計(jì)算過(guò)程??2.?2.?2池化層??與卷積層的復(fù)雜度相比,池化層要簡(jiǎn)單得多。池化的主要目的是進(jìn)一步減少卷積后參??數(shù)的數(shù)據(jù)量,即降維。具體過(guò)程如下:對(duì)于mxm矩陣數(shù)據(jù),使用nxn矩陣用于池化過(guò)濾,??從而可以獲得矩陣,從而可以減少輸入矩陣的維數(shù)。??n?n??若要將
第2章相關(guān)理論介紹??4?〇??Mil?q?剛??6?0?6?5?4?4??7?3?14??a)平均池化??T7^??■V??j?: ̄—■-■——i?????6?0?6?5?7?6??7?3?14??b)最大池化??圖2-4池化過(guò)程??2.?2.?3全連接層??閣像數(shù)據(jù)經(jīng)過(guò)了卷積操作后提取到了有效的特征向量,再利用池化過(guò)濾器對(duì)特征提取??到的特征向量數(shù)據(jù)進(jìn)行降維,以減少計(jì)算的參數(shù)暈。卷積和池化后由全連接層對(duì)特征向量??進(jìn)行融合,全連接的結(jié)構(gòu)示意閣如閣2-5所示,前一層的所有神經(jīng)元均與后??層的所有祌??經(jīng)元進(jìn)行連接,運(yùn)算后得到輸出結(jié)果的特征表達(dá),輸出的最后一層使用激活函數(shù)實(shí)現(xiàn)對(duì)于??文本的分類(lèi)。??_??圖2-5全連接層結(jié)構(gòu)示意圖??-9?-??
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別[J]. 代賀,陳洪密,李志申. 貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(05)
[2]利用SVM的聚類(lèi)算法在時(shí)間序列信號(hào)識(shí)別中的應(yīng)用[J]. 汪永濤. 微電子學(xué)與計(jì)算機(jī). 2012(03)
[3]基于結(jié)構(gòu)特征和灰度特征的車(chē)牌字符識(shí)別方法[J]. 羅輝武,唐遠(yuǎn)炎,王翊,藍(lán)利君. 計(jì)算機(jī)科學(xué). 2011(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車(chē)牌字符識(shí)別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報(bào). 2010(03)
[5]基于小波的車(chē)牌漢字特征提取[J]. 潘翔,葉修梓,張三元. 中國(guó)圖象圖形學(xué)報(bào). 2003(10)
[6]基于筆劃和筆順的漢字識(shí)別算法[J]. 陳治平,林亞平,李軍義. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2000(04)
碩士論文
[1]自然場(chǎng)景圖像中的文本定位和提取算法研究[D]. 熊玲.東南大學(xué) 2016
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)[D]. 劉欣.哈爾濱工業(yè)大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[4]基于圖像匹配的漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 武桐.上海交通大學(xué) 2010
[5]基于整體紋理分析的漢字字體識(shí)別[D]. 許春曄.河北大學(xué) 2001
本文編號(hào):3122803
【文章來(lái)源】:東北電力大學(xué)吉林省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?申備網(wǎng)備訓(xùn)Suig…??由于卷積計(jì)算過(guò)程在二維空間內(nèi)完成,包括計(jì)算過(guò)程的參數(shù)、輸入輸出數(shù)據(jù)和計(jì)算關(guān)??
?(2-3)??其中*表示卷積。??假設(shè)是二維的卷積,則表達(dá)式為:??^?y)?=?(X?x?^)?(/,?y)?=?(/?-m,j-n)w(m,?n)?(2-4)??m?n??在這個(gè)公式中,X為輸入,W為卷積核。若輸入的X是一個(gè)二維矩陣,則w也是一??個(gè)二維矩陣。??根據(jù)上面的數(shù)學(xué)卷積過(guò)程來(lái)對(duì)CNN的卷積過(guò)程進(jìn)行理解。圖像卷積主要使用卷積層??的卷積核(濾波器)在圖像上按從左至右從上至下的順序進(jìn)行滑動(dòng),卷積核參數(shù)與對(duì)應(yīng)圖片??的像素值進(jìn)行相乘運(yùn)算后再相加。卷積過(guò)程示意圖如圖2-3所示,輸入數(shù)據(jù)是二維3X3矩??陣,其9個(gè)值為圖像像素值矩陣,采用2X2的卷積核對(duì)圖像進(jìn)行計(jì)算。右側(cè)圖為最終輸出??的卷積后的由4個(gè)像素構(gòu)成的特征圖。最終卷積值為aw?+?6x?+辦+?ez、+?+?+聲、??i/vv?+?ex?+?gy?+?Zzz、£w+_y5c?+?/^?+?/z。實(shí)際運(yùn)算中,為了避免丟失邊緣信息,會(huì)在外層補(bǔ)上一??圈0后再進(jìn)行卷積,此過(guò)程稱(chēng)為padding。同時(shí),為了實(shí)現(xiàn)不同的網(wǎng)絡(luò)功能,卷積的步長(zhǎng)可??以為任意值,通常使用步長(zhǎng)為1進(jìn)行特征提取,使用步長(zhǎng)為2進(jìn)行下采樣。??Da?9^?c?????Ed?|e?f?=>?mmj^L????dw+ex.?ew+fx+??gy+h??hy+iz??g?h?i?L.--」??圖2-3卷積計(jì)算過(guò)程??2.?2.?2池化層??與卷積層的復(fù)雜度相比,池化層要簡(jiǎn)單得多。池化的主要目的是進(jìn)一步減少卷積后參??數(shù)的數(shù)據(jù)量,即降維。具體過(guò)程如下:對(duì)于mxm矩陣數(shù)據(jù),使用nxn矩陣用于池化過(guò)濾,??從而可以獲得矩陣,從而可以減少輸入矩陣的維數(shù)。??n?n??若要將
第2章相關(guān)理論介紹??4?〇??Mil?q?剛??6?0?6?5?4?4??7?3?14??a)平均池化??T7^??■V??j?: ̄—■-■——i?????6?0?6?5?7?6??7?3?14??b)最大池化??圖2-4池化過(guò)程??2.?2.?3全連接層??閣像數(shù)據(jù)經(jīng)過(guò)了卷積操作后提取到了有效的特征向量,再利用池化過(guò)濾器對(duì)特征提取??到的特征向量數(shù)據(jù)進(jìn)行降維,以減少計(jì)算的參數(shù)暈。卷積和池化后由全連接層對(duì)特征向量??進(jìn)行融合,全連接的結(jié)構(gòu)示意閣如閣2-5所示,前一層的所有神經(jīng)元均與后??層的所有祌??經(jīng)元進(jìn)行連接,運(yùn)算后得到輸出結(jié)果的特征表達(dá),輸出的最后一層使用激活函數(shù)實(shí)現(xiàn)對(duì)于??文本的分類(lèi)。??_??圖2-5全連接層結(jié)構(gòu)示意圖??-9?-??
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別[J]. 代賀,陳洪密,李志申. 貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(05)
[2]利用SVM的聚類(lèi)算法在時(shí)間序列信號(hào)識(shí)別中的應(yīng)用[J]. 汪永濤. 微電子學(xué)與計(jì)算機(jī). 2012(03)
[3]基于結(jié)構(gòu)特征和灰度特征的車(chē)牌字符識(shí)別方法[J]. 羅輝武,唐遠(yuǎn)炎,王翊,藍(lán)利君. 計(jì)算機(jī)科學(xué). 2011(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車(chē)牌字符識(shí)別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報(bào). 2010(03)
[5]基于小波的車(chē)牌漢字特征提取[J]. 潘翔,葉修梓,張三元. 中國(guó)圖象圖形學(xué)報(bào). 2003(10)
[6]基于筆劃和筆順的漢字識(shí)別算法[J]. 陳治平,林亞平,李軍義. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2000(04)
碩士論文
[1]自然場(chǎng)景圖像中的文本定位和提取算法研究[D]. 熊玲.東南大學(xué) 2016
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)[D]. 劉欣.哈爾濱工業(yè)大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[4]基于圖像匹配的漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 武桐.上海交通大學(xué) 2010
[5]基于整體紋理分析的漢字字體識(shí)別[D]. 許春曄.河北大學(xué) 2001
本文編號(hào):3122803
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3122803.html
最近更新
教材專(zhuān)著