基于深度神經(jīng)網(wǎng)絡(luò)的印刷體文字識(shí)別
發(fā)布時(shí)間:2021-04-05 01:55
在信息化社會(huì),人們要處理大量各種類型的文字資料,為了幫助人們快速完成信息錄入,文字識(shí)別技術(shù)應(yīng)運(yùn)而生,且具有非常廣闊的應(yīng)用前景。目前市面上比較成熟的印刷體文字識(shí)別系統(tǒng)或軟件大多只針對(duì)某個(gè)單一的應(yīng)用場(chǎng)景,比如發(fā)票識(shí)別、身份證識(shí)別、文檔識(shí)別等,因此只能識(shí)別某一類型的圖像和文字,尚缺乏可以識(shí)別多種類型多種字體的通用文字識(shí)別系統(tǒng)。為此,本文實(shí)現(xiàn)了適用于多種類型多種字體的印刷體文字識(shí)別算法,識(shí)別類型包括書籍、刊物、海報(bào)、宣傳單、票據(jù)等各類含有印刷體文字的純文本圖像,可識(shí)別的字體有13種,可識(shí)別的字符包括一級(jí)、二級(jí)漢字及不常用漢字、大小寫英文字母、數(shù)字和常用標(biāo)點(diǎn)符號(hào),共6870種字符,支持各類字符混排識(shí)別,因此適用范圍更加廣泛。本文詳細(xì)闡述了印刷體文字識(shí)別技術(shù)的算法處理流程,包括圖像的傾斜矯正、文本檢測(cè)、文字識(shí)別和結(jié)果校驗(yàn)。實(shí)現(xiàn)了針對(duì)掃描儀、相機(jī)等電子設(shè)備獲取的印刷體文本圖像的文字識(shí)別算法,并完成了網(wǎng)絡(luò)的訓(xùn)練。通過(guò)掃描儀或相機(jī)對(duì)紙質(zhì)文字資料進(jìn)行采集并生成文本圖像,利用數(shù)字圖像處理技術(shù)和深度學(xué)習(xí)算法完成圖像中的文字識(shí)別,從而將文字信息快速提取出來(lái),節(jié)省了時(shí)間和人力成本,在信息處理等方面具有重要的實(shí)用價(jià)...
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖??CNN有很多優(yōu)點(diǎn),首先,將圖像直接作為輸入,自動(dòng)完成特征提取過(guò)程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??圖2-2?VGG11-VGG19網(wǎng)絡(luò)架構(gòu)??2.2循環(huán)神經(jīng)網(wǎng)絡(luò)??2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)概述??當(dāng)待處理的數(shù)據(jù)是序列時(shí),卷積神經(jīng)網(wǎng)絡(luò)通常不能很好地工作,因?yàn)榫矸e神??經(jīng)網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),各層之間依次向前傳遞消息。通常情況下,前饋網(wǎng)絡(luò)會(huì)??接受一個(gè)輸入,通過(guò)層與層之間的計(jì)算最終輸出一個(gè)結(jié)果,不同的輸入之間是不??具有任何聯(lián)系的,即輸入之間彼此獨(dú)立,因此難以處理內(nèi)部具有依賴關(guān)系的序列??數(shù)據(jù)。??循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與前饋神經(jīng)網(wǎng)絡(luò)最大的不同之處在于,循環(huán)網(wǎng)絡(luò)前后??輸入之間存在相互關(guān)聯(lián)。用當(dāng)前時(shí)刻的輸入々和前一時(shí)刻的輸出狀態(tài)來(lái)共同??11??
?山東大學(xué)碩士學(xué)位論文???預(yù)測(cè)當(dāng)前的狀態(tài),即\=/({^+1^/1£_1+6)(如圖2-3),這樣就將前一時(shí)??刻的信息傳遞到當(dāng)前時(shí)刻,從而使前后神經(jīng)元之間產(chǎn)生關(guān)聯(lián),也就使循環(huán)網(wǎng)絡(luò)具??備了記憶功能。因此它更適合于處理序列數(shù)據(jù),例如文本、語(yǔ)音和視頻等,并能??將序列轉(zhuǎn)換成包含語(yǔ)義信息的表示。RNN最早在自然語(yǔ)言處理領(lǐng)域被利用起來(lái),??幫助建立語(yǔ)言模型,比如在語(yǔ)音轉(zhuǎn)文本中,聲學(xué)模型一般會(huì)輸出若干個(gè)候選詞,??語(yǔ)言模型就需要從這些候選詞中選擇一個(gè)可能性最大的作為最終輸出結(jié)果。另外,??RNN也可用來(lái)做文本識(shí)別和機(jī)器翻譯。??^??^??1?tank?|???^?[???V?)??x,-l??圖2-3?RNN單元結(jié)構(gòu)圖??2.2.2?LSTM?網(wǎng)絡(luò)??在傳統(tǒng)的RNN中,循環(huán)單元通常只包含一個(gè)簡(jiǎn)單的激活函數(shù)tanh,當(dāng)權(quán)重??矩陣小于1時(shí),在反向傳播過(guò)程中,各層的導(dǎo)數(shù)會(huì)逐漸變小,最終導(dǎo)致梯度消失??[29],而當(dāng)權(quán)重矩陣大于1時(shí),由于時(shí)間的累計(jì)最終會(huì)導(dǎo)致梯度爆炸,這就使得該??網(wǎng)絡(luò)在當(dāng)前時(shí)刻只能獲取附近時(shí)刻的數(shù)據(jù)作為輸入而很難獲得較遠(yuǎn)時(shí)刻的數(shù)據(jù),??因此難以處理具有長(zhǎng)期依賴性的序列數(shù)據(jù)。在過(guò)去的幾年中,RNN取得了顯著??的成績(jī),也正被越來(lái)越多的應(yīng)用到其它領(lǐng)域,但是,由于它的上述局限性,使得??該網(wǎng)絡(luò)的訓(xùn)練變得非常困難,其應(yīng)用也受到了限制。而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTMp^??克服了傳統(tǒng)RNN的缺陷,成為目前最受歡迎的循環(huán)神經(jīng)網(wǎng)絡(luò)。一個(gè)LSTM由一??個(gè)存儲(chǔ)單元和三個(gè)門組成(如圖2-4),分別是輸入門、輸出門和遺忘門。存儲(chǔ)??單元存儲(chǔ)了以前時(shí)刻的狀態(tài)信息。遺忘門的作用是清除上一時(shí)刻的信息,決定哪?
【參考文獻(xiàn)】:
期刊論文
[1]基于模板匹配法的字符識(shí)別算法研究[J]. 李新良. 計(jì)算技術(shù)與自動(dòng)化. 2012(02)
[2]漢字識(shí)別方法綜述[J]. 孫華,張航. 計(jì)算機(jī)工程. 2010(20)
[3]基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J]. 周冠瑋,平西建,程娟. 計(jì)算機(jī)應(yīng)用. 2007(07)
[4]印刷體漢字識(shí)別技術(shù)[J]. 汪芳,康慕寧,李先國(guó). 情報(bào)雜志. 2004(02)
[5]光學(xué)字符識(shí)別技術(shù)與展望[J]. 荊濤,王仲. 計(jì)算機(jī)工程. 2003(02)
[6]Hough變換OCR圖象傾斜矯正方法[J]. 瞿洋,楊利平. 中國(guó)圖象圖形學(xué)報(bào). 2001(02)
[7]大規(guī)模邏輯神經(jīng)網(wǎng)絡(luò)印刷體漢字識(shí)別系統(tǒng)[J]. 楊國(guó)慶,呂軍. 計(jì)算機(jī)應(yīng)用與軟件. 1994(01)
[8]實(shí)驗(yàn)性6763個(gè)印刷體漢字識(shí)別系統(tǒng)[J]. 吳佑壽,丁曉青,朱夏寧,吳中權(quán). 電子學(xué)報(bào). 1987(05)
碩士論文
[1]基于深度學(xué)習(xí)的端到端場(chǎng)景文本識(shí)別方法研究[D]. 劉衍平.華南理工大學(xué) 2018
[2]自然場(chǎng)景中文字識(shí)別關(guān)鍵技術(shù)研究[D]. 何樹有.大連理工大學(xué) 2017
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的車牌識(shí)別技術(shù)研究[D]. 李達(dá).湘潭大學(xué) 2016
[4]印刷體漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 劉聚寧.大連理工大學(xué) 2011
[5]印刷體漢字識(shí)別預(yù)處理的研究[D]. 王宏.大連理工大學(xué) 2008
[6]聚類分析及其在大類別漢字識(shí)別中的應(yīng)用[D]. 楊軍.華南理工大學(xué) 2007
[7]印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 梁涌.西北工業(yè)大學(xué) 2006
本文編號(hào):3118908
【文章來(lái)源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖??CNN有很多優(yōu)點(diǎn),首先,將圖像直接作為輸入,自動(dòng)完成特征提取過(guò)程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??圖2-2?VGG11-VGG19網(wǎng)絡(luò)架構(gòu)??2.2循環(huán)神經(jīng)網(wǎng)絡(luò)??2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)概述??當(dāng)待處理的數(shù)據(jù)是序列時(shí),卷積神經(jīng)網(wǎng)絡(luò)通常不能很好地工作,因?yàn)榫矸e神??經(jīng)網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),各層之間依次向前傳遞消息。通常情況下,前饋網(wǎng)絡(luò)會(huì)??接受一個(gè)輸入,通過(guò)層與層之間的計(jì)算最終輸出一個(gè)結(jié)果,不同的輸入之間是不??具有任何聯(lián)系的,即輸入之間彼此獨(dú)立,因此難以處理內(nèi)部具有依賴關(guān)系的序列??數(shù)據(jù)。??循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與前饋神經(jīng)網(wǎng)絡(luò)最大的不同之處在于,循環(huán)網(wǎng)絡(luò)前后??輸入之間存在相互關(guān)聯(lián)。用當(dāng)前時(shí)刻的輸入々和前一時(shí)刻的輸出狀態(tài)來(lái)共同??11??
?山東大學(xué)碩士學(xué)位論文???預(yù)測(cè)當(dāng)前的狀態(tài),即\=/({^+1^/1£_1+6)(如圖2-3),這樣就將前一時(shí)??刻的信息傳遞到當(dāng)前時(shí)刻,從而使前后神經(jīng)元之間產(chǎn)生關(guān)聯(lián),也就使循環(huán)網(wǎng)絡(luò)具??備了記憶功能。因此它更適合于處理序列數(shù)據(jù),例如文本、語(yǔ)音和視頻等,并能??將序列轉(zhuǎn)換成包含語(yǔ)義信息的表示。RNN最早在自然語(yǔ)言處理領(lǐng)域被利用起來(lái),??幫助建立語(yǔ)言模型,比如在語(yǔ)音轉(zhuǎn)文本中,聲學(xué)模型一般會(huì)輸出若干個(gè)候選詞,??語(yǔ)言模型就需要從這些候選詞中選擇一個(gè)可能性最大的作為最終輸出結(jié)果。另外,??RNN也可用來(lái)做文本識(shí)別和機(jī)器翻譯。??^??^??1?tank?|???^?[???V?)??x,-l??圖2-3?RNN單元結(jié)構(gòu)圖??2.2.2?LSTM?網(wǎng)絡(luò)??在傳統(tǒng)的RNN中,循環(huán)單元通常只包含一個(gè)簡(jiǎn)單的激活函數(shù)tanh,當(dāng)權(quán)重??矩陣小于1時(shí),在反向傳播過(guò)程中,各層的導(dǎo)數(shù)會(huì)逐漸變小,最終導(dǎo)致梯度消失??[29],而當(dāng)權(quán)重矩陣大于1時(shí),由于時(shí)間的累計(jì)最終會(huì)導(dǎo)致梯度爆炸,這就使得該??網(wǎng)絡(luò)在當(dāng)前時(shí)刻只能獲取附近時(shí)刻的數(shù)據(jù)作為輸入而很難獲得較遠(yuǎn)時(shí)刻的數(shù)據(jù),??因此難以處理具有長(zhǎng)期依賴性的序列數(shù)據(jù)。在過(guò)去的幾年中,RNN取得了顯著??的成績(jī),也正被越來(lái)越多的應(yīng)用到其它領(lǐng)域,但是,由于它的上述局限性,使得??該網(wǎng)絡(luò)的訓(xùn)練變得非常困難,其應(yīng)用也受到了限制。而長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTMp^??克服了傳統(tǒng)RNN的缺陷,成為目前最受歡迎的循環(huán)神經(jīng)網(wǎng)絡(luò)。一個(gè)LSTM由一??個(gè)存儲(chǔ)單元和三個(gè)門組成(如圖2-4),分別是輸入門、輸出門和遺忘門。存儲(chǔ)??單元存儲(chǔ)了以前時(shí)刻的狀態(tài)信息。遺忘門的作用是清除上一時(shí)刻的信息,決定哪?
【參考文獻(xiàn)】:
期刊論文
[1]基于模板匹配法的字符識(shí)別算法研究[J]. 李新良. 計(jì)算技術(shù)與自動(dòng)化. 2012(02)
[2]漢字識(shí)別方法綜述[J]. 孫華,張航. 計(jì)算機(jī)工程. 2010(20)
[3]基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J]. 周冠瑋,平西建,程娟. 計(jì)算機(jī)應(yīng)用. 2007(07)
[4]印刷體漢字識(shí)別技術(shù)[J]. 汪芳,康慕寧,李先國(guó). 情報(bào)雜志. 2004(02)
[5]光學(xué)字符識(shí)別技術(shù)與展望[J]. 荊濤,王仲. 計(jì)算機(jī)工程. 2003(02)
[6]Hough變換OCR圖象傾斜矯正方法[J]. 瞿洋,楊利平. 中國(guó)圖象圖形學(xué)報(bào). 2001(02)
[7]大規(guī)模邏輯神經(jīng)網(wǎng)絡(luò)印刷體漢字識(shí)別系統(tǒng)[J]. 楊國(guó)慶,呂軍. 計(jì)算機(jī)應(yīng)用與軟件. 1994(01)
[8]實(shí)驗(yàn)性6763個(gè)印刷體漢字識(shí)別系統(tǒng)[J]. 吳佑壽,丁曉青,朱夏寧,吳中權(quán). 電子學(xué)報(bào). 1987(05)
碩士論文
[1]基于深度學(xué)習(xí)的端到端場(chǎng)景文本識(shí)別方法研究[D]. 劉衍平.華南理工大學(xué) 2018
[2]自然場(chǎng)景中文字識(shí)別關(guān)鍵技術(shù)研究[D]. 何樹有.大連理工大學(xué) 2017
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的車牌識(shí)別技術(shù)研究[D]. 李達(dá).湘潭大學(xué) 2016
[4]印刷體漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D]. 劉聚寧.大連理工大學(xué) 2011
[5]印刷體漢字識(shí)別預(yù)處理的研究[D]. 王宏.大連理工大學(xué) 2008
[6]聚類分析及其在大類別漢字識(shí)別中的應(yīng)用[D]. 楊軍.華南理工大學(xué) 2007
[7]印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 梁涌.西北工業(yè)大學(xué) 2006
本文編號(hào):3118908
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3118908.html
最近更新
教材專著