基于深度神經(jīng)網(wǎng)絡(luò)的印刷體文字識別
發(fā)布時間:2021-04-05 01:55
在信息化社會,人們要處理大量各種類型的文字資料,為了幫助人們快速完成信息錄入,文字識別技術(shù)應(yīng)運(yùn)而生,且具有非常廣闊的應(yīng)用前景。目前市面上比較成熟的印刷體文字識別系統(tǒng)或軟件大多只針對某個單一的應(yīng)用場景,比如發(fā)票識別、身份證識別、文檔識別等,因此只能識別某一類型的圖像和文字,尚缺乏可以識別多種類型多種字體的通用文字識別系統(tǒng)。為此,本文實現(xiàn)了適用于多種類型多種字體的印刷體文字識別算法,識別類型包括書籍、刊物、海報、宣傳單、票據(jù)等各類含有印刷體文字的純文本圖像,可識別的字體有13種,可識別的字符包括一級、二級漢字及不常用漢字、大小寫英文字母、數(shù)字和常用標(biāo)點符號,共6870種字符,支持各類字符混排識別,因此適用范圍更加廣泛。本文詳細(xì)闡述了印刷體文字識別技術(shù)的算法處理流程,包括圖像的傾斜矯正、文本檢測、文字識別和結(jié)果校驗。實現(xiàn)了針對掃描儀、相機(jī)等電子設(shè)備獲取的印刷體文本圖像的文字識別算法,并完成了網(wǎng)絡(luò)的訓(xùn)練。通過掃描儀或相機(jī)對紙質(zhì)文字資料進(jìn)行采集并生成文本圖像,利用數(shù)字圖像處理技術(shù)和深度學(xué)習(xí)算法完成圖像中的文字識別,從而將文字信息快速提取出來,節(jié)省了時間和人力成本,在信息處理等方面具有重要的實用價...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖??CNN有很多優(yōu)點,首先,將圖像直接作為輸入,自動完成特征提取過程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??圖2-2?VGG11-VGG19網(wǎng)絡(luò)架構(gòu)??2.2循環(huán)神經(jīng)網(wǎng)絡(luò)??2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)概述??當(dāng)待處理的數(shù)據(jù)是序列時,卷積神經(jīng)網(wǎng)絡(luò)通常不能很好地工作,因為卷積神??經(jīng)網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),各層之間依次向前傳遞消息。通常情況下,前饋網(wǎng)絡(luò)會??接受一個輸入,通過層與層之間的計算最終輸出一個結(jié)果,不同的輸入之間是不??具有任何聯(lián)系的,即輸入之間彼此獨立,因此難以處理內(nèi)部具有依賴關(guān)系的序列??數(shù)據(jù)。??循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與前饋神經(jīng)網(wǎng)絡(luò)最大的不同之處在于,循環(huán)網(wǎng)絡(luò)前后??輸入之間存在相互關(guān)聯(lián)。用當(dāng)前時刻的輸入々和前一時刻的輸出狀態(tài)來共同??11??
?山東大學(xué)碩士學(xué)位論文???預(yù)測當(dāng)前的狀態(tài),即\=/({^+1^/1£_1+6)(如圖2-3),這樣就將前一時??刻的信息傳遞到當(dāng)前時刻,從而使前后神經(jīng)元之間產(chǎn)生關(guān)聯(lián),也就使循環(huán)網(wǎng)絡(luò)具??備了記憶功能。因此它更適合于處理序列數(shù)據(jù),例如文本、語音和視頻等,并能??將序列轉(zhuǎn)換成包含語義信息的表示。RNN最早在自然語言處理領(lǐng)域被利用起來,??幫助建立語言模型,比如在語音轉(zhuǎn)文本中,聲學(xué)模型一般會輸出若干個候選詞,??語言模型就需要從這些候選詞中選擇一個可能性最大的作為最終輸出結(jié)果。另外,??RNN也可用來做文本識別和機(jī)器翻譯。??^??^??1?tank?|???^?[???V?)??x,-l??圖2-3?RNN單元結(jié)構(gòu)圖??2.2.2?LSTM?網(wǎng)絡(luò)??在傳統(tǒng)的RNN中,循環(huán)單元通常只包含一個簡單的激活函數(shù)tanh,當(dāng)權(quán)重??矩陣小于1時,在反向傳播過程中,各層的導(dǎo)數(shù)會逐漸變小,最終導(dǎo)致梯度消失??[29],而當(dāng)權(quán)重矩陣大于1時,由于時間的累計最終會導(dǎo)致梯度爆炸,這就使得該??網(wǎng)絡(luò)在當(dāng)前時刻只能獲取附近時刻的數(shù)據(jù)作為輸入而很難獲得較遠(yuǎn)時刻的數(shù)據(jù),??因此難以處理具有長期依賴性的序列數(shù)據(jù)。在過去的幾年中,RNN取得了顯著??的成績,也正被越來越多的應(yīng)用到其它領(lǐng)域,但是,由于它的上述局限性,使得??該網(wǎng)絡(luò)的訓(xùn)練變得非常困難,其應(yīng)用也受到了限制。而長短時記憶網(wǎng)絡(luò)(LSTMp^??克服了傳統(tǒng)RNN的缺陷,成為目前最受歡迎的循環(huán)神經(jīng)網(wǎng)絡(luò)。一個LSTM由一??個存儲單元和三個門組成(如圖2-4),分別是輸入門、輸出門和遺忘門。存儲??單元存儲了以前時刻的狀態(tài)信息。遺忘門的作用是清除上一時刻的信息,決定哪?
【參考文獻(xiàn)】:
期刊論文
[1]基于模板匹配法的字符識別算法研究[J]. 李新良. 計算技術(shù)與自動化. 2012(02)
[2]漢字識別方法綜述[J]. 孫華,張航. 計算機(jī)工程. 2010(20)
[3]基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J]. 周冠瑋,平西建,程娟. 計算機(jī)應(yīng)用. 2007(07)
[4]印刷體漢字識別技術(shù)[J]. 汪芳,康慕寧,李先國. 情報雜志. 2004(02)
[5]光學(xué)字符識別技術(shù)與展望[J]. 荊濤,王仲. 計算機(jī)工程. 2003(02)
[6]Hough變換OCR圖象傾斜矯正方法[J]. 瞿洋,楊利平. 中國圖象圖形學(xué)報. 2001(02)
[7]大規(guī)模邏輯神經(jīng)網(wǎng)絡(luò)印刷體漢字識別系統(tǒng)[J]. 楊國慶,呂軍. 計算機(jī)應(yīng)用與軟件. 1994(01)
[8]實驗性6763個印刷體漢字識別系統(tǒng)[J]. 吳佑壽,丁曉青,朱夏寧,吳中權(quán). 電子學(xué)報. 1987(05)
碩士論文
[1]基于深度學(xué)習(xí)的端到端場景文本識別方法研究[D]. 劉衍平.華南理工大學(xué) 2018
[2]自然場景中文字識別關(guān)鍵技術(shù)研究[D]. 何樹有.大連理工大學(xué) 2017
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的車牌識別技術(shù)研究[D]. 李達(dá).湘潭大學(xué) 2016
[4]印刷體漢字識別系統(tǒng)研究與實現(xiàn)[D]. 劉聚寧.大連理工大學(xué) 2011
[5]印刷體漢字識別預(yù)處理的研究[D]. 王宏.大連理工大學(xué) 2008
[6]聚類分析及其在大類別漢字識別中的應(yīng)用[D]. 楊軍.華南理工大學(xué) 2007
[7]印刷體漢字識別系統(tǒng)的研究與實現(xiàn)[D]. 梁涌.西北工業(yè)大學(xué) 2006
本文編號:3118908
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)圖??CNN有很多優(yōu)點,首先,將圖像直接作為輸入,自動完成特征提取過程,免??
on、'3-512???maxpooi???com-3-512?conv3-512?com.3-512?conv3-512?con\3-512?conv3-512??conv3-512?conv3-512?com?3-512?conv3-512?con\3-5I2?conv?3-512??conv?1-512?conv3-512?conv3-512??conv3-512??maxpooi??FC-4UV6??FC-4(JVt>??F(:-K_??soil-max??圖2-2?VGG11-VGG19網(wǎng)絡(luò)架構(gòu)??2.2循環(huán)神經(jīng)網(wǎng)絡(luò)??2.2.1循環(huán)神經(jīng)網(wǎng)絡(luò)概述??當(dāng)待處理的數(shù)據(jù)是序列時,卷積神經(jīng)網(wǎng)絡(luò)通常不能很好地工作,因為卷積神??經(jīng)網(wǎng)絡(luò)是一種前饋網(wǎng)絡(luò),各層之間依次向前傳遞消息。通常情況下,前饋網(wǎng)絡(luò)會??接受一個輸入,通過層與層之間的計算最終輸出一個結(jié)果,不同的輸入之間是不??具有任何聯(lián)系的,即輸入之間彼此獨立,因此難以處理內(nèi)部具有依賴關(guān)系的序列??數(shù)據(jù)。??循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)與前饋神經(jīng)網(wǎng)絡(luò)最大的不同之處在于,循環(huán)網(wǎng)絡(luò)前后??輸入之間存在相互關(guān)聯(lián)。用當(dāng)前時刻的輸入々和前一時刻的輸出狀態(tài)來共同??11??
?山東大學(xué)碩士學(xué)位論文???預(yù)測當(dāng)前的狀態(tài),即\=/({^+1^/1£_1+6)(如圖2-3),這樣就將前一時??刻的信息傳遞到當(dāng)前時刻,從而使前后神經(jīng)元之間產(chǎn)生關(guān)聯(lián),也就使循環(huán)網(wǎng)絡(luò)具??備了記憶功能。因此它更適合于處理序列數(shù)據(jù),例如文本、語音和視頻等,并能??將序列轉(zhuǎn)換成包含語義信息的表示。RNN最早在自然語言處理領(lǐng)域被利用起來,??幫助建立語言模型,比如在語音轉(zhuǎn)文本中,聲學(xué)模型一般會輸出若干個候選詞,??語言模型就需要從這些候選詞中選擇一個可能性最大的作為最終輸出結(jié)果。另外,??RNN也可用來做文本識別和機(jī)器翻譯。??^??^??1?tank?|???^?[???V?)??x,-l??圖2-3?RNN單元結(jié)構(gòu)圖??2.2.2?LSTM?網(wǎng)絡(luò)??在傳統(tǒng)的RNN中,循環(huán)單元通常只包含一個簡單的激活函數(shù)tanh,當(dāng)權(quán)重??矩陣小于1時,在反向傳播過程中,各層的導(dǎo)數(shù)會逐漸變小,最終導(dǎo)致梯度消失??[29],而當(dāng)權(quán)重矩陣大于1時,由于時間的累計最終會導(dǎo)致梯度爆炸,這就使得該??網(wǎng)絡(luò)在當(dāng)前時刻只能獲取附近時刻的數(shù)據(jù)作為輸入而很難獲得較遠(yuǎn)時刻的數(shù)據(jù),??因此難以處理具有長期依賴性的序列數(shù)據(jù)。在過去的幾年中,RNN取得了顯著??的成績,也正被越來越多的應(yīng)用到其它領(lǐng)域,但是,由于它的上述局限性,使得??該網(wǎng)絡(luò)的訓(xùn)練變得非常困難,其應(yīng)用也受到了限制。而長短時記憶網(wǎng)絡(luò)(LSTMp^??克服了傳統(tǒng)RNN的缺陷,成為目前最受歡迎的循環(huán)神經(jīng)網(wǎng)絡(luò)。一個LSTM由一??個存儲單元和三個門組成(如圖2-4),分別是輸入門、輸出門和遺忘門。存儲??單元存儲了以前時刻的狀態(tài)信息。遺忘門的作用是清除上一時刻的信息,決定哪?
【參考文獻(xiàn)】:
期刊論文
[1]基于模板匹配法的字符識別算法研究[J]. 李新良. 計算技術(shù)與自動化. 2012(02)
[2]漢字識別方法綜述[J]. 孫華,張航. 計算機(jī)工程. 2010(20)
[3]基于改進(jìn)Hough變換的文本圖像傾斜校正方法[J]. 周冠瑋,平西建,程娟. 計算機(jī)應(yīng)用. 2007(07)
[4]印刷體漢字識別技術(shù)[J]. 汪芳,康慕寧,李先國. 情報雜志. 2004(02)
[5]光學(xué)字符識別技術(shù)與展望[J]. 荊濤,王仲. 計算機(jī)工程. 2003(02)
[6]Hough變換OCR圖象傾斜矯正方法[J]. 瞿洋,楊利平. 中國圖象圖形學(xué)報. 2001(02)
[7]大規(guī)模邏輯神經(jīng)網(wǎng)絡(luò)印刷體漢字識別系統(tǒng)[J]. 楊國慶,呂軍. 計算機(jī)應(yīng)用與軟件. 1994(01)
[8]實驗性6763個印刷體漢字識別系統(tǒng)[J]. 吳佑壽,丁曉青,朱夏寧,吳中權(quán). 電子學(xué)報. 1987(05)
碩士論文
[1]基于深度學(xué)習(xí)的端到端場景文本識別方法研究[D]. 劉衍平.華南理工大學(xué) 2018
[2]自然場景中文字識別關(guān)鍵技術(shù)研究[D]. 何樹有.大連理工大學(xué) 2017
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的車牌識別技術(shù)研究[D]. 李達(dá).湘潭大學(xué) 2016
[4]印刷體漢字識別系統(tǒng)研究與實現(xiàn)[D]. 劉聚寧.大連理工大學(xué) 2011
[5]印刷體漢字識別預(yù)處理的研究[D]. 王宏.大連理工大學(xué) 2008
[6]聚類分析及其在大類別漢字識別中的應(yīng)用[D]. 楊軍.華南理工大學(xué) 2007
[7]印刷體漢字識別系統(tǒng)的研究與實現(xiàn)[D]. 梁涌.西北工業(yè)大學(xué) 2006
本文編號:3118908
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3118908.html
最近更新
教材專著