基于卷積神經(jīng)網(wǎng)絡(luò)的名片識(shí)別研究
發(fā)布時(shí)間:2021-10-05 09:04
光學(xué)字符識(shí)別(OCR)目前在證件識(shí)別以及文檔識(shí)別上有廣泛的應(yīng)用,通過(guò)將文字的圖片數(shù)字化,從中快速提取出有用信息。傳統(tǒng)的光學(xué)字符識(shí)別算法大多依賴于人工設(shè)計(jì)特征,通過(guò)模板匹配的方法實(shí)現(xiàn)特定場(chǎng)景的識(shí)別,因此,適用場(chǎng)景比較單一,泛化能力較差,處理名片識(shí)別的任務(wù)時(shí)效果不佳。此外,在處理文字間存在噪聲干擾的圖像上,傳統(tǒng)的卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN)的檢測(cè)效果也不理想。因此針對(duì)上述問題,文本重點(diǎn)研究了基于深度學(xué)習(xí)的OCR名片識(shí)別從而彌補(bǔ)傳統(tǒng)識(shí)別系統(tǒng)的不足。本文從信息提取的角度出發(fā),利用OCR技術(shù)識(shí)別名片信息,進(jìn)而將名片信息電子化,實(shí)現(xiàn)名片數(shù)據(jù)的結(jié)構(gòu)化存儲(chǔ);趥鹘y(tǒng)方法以及當(dāng)今主流方法的分析,文本進(jìn)行了適當(dāng)?shù)母倪M(jìn)與優(yōu)化,實(shí)現(xiàn)了一種全新的基于卷積神經(jīng)網(wǎng)絡(luò)的OCR識(shí)別系統(tǒng)。在圖像預(yù)處理方面,本文設(shè)計(jì)了一套針對(duì)于名片圖像的預(yù)處理流程,如邊緣檢測(cè),傾斜矯正等,以消除圖片干擾因素的影響,并且,針對(duì)相機(jī)抖動(dòng)造成的圖像模糊情況,本文提出并實(shí)現(xiàn)了一種基于編碼器/解碼器網(wǎng)絡(luò)的去模糊模型,以提高后續(xù)字符識(shí)別的效果;在文本區(qū)域檢測(cè)方面,本文提出并實(shí)現(xiàn)了針對(duì)名片識(shí)別的文本區(qū)域檢測(cè)方法,基于YOLO網(wǎng)絡(luò),使用固定寬度的文本圖像...
【文章來(lái)源】:武漢郵電科學(xué)研究院湖北省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Sobel與Canny算子邊緣提取效果對(duì)比
武漢郵電科學(xué)研究院碩士學(xué)位論文13xyo圖2-4Hesse法線式圖這樣,歐式空間中的某個(gè)固定點(diǎn)(a,b)就轉(zhuǎn)換為霍夫空間中的一組參數(shù)(r,θ),將得到一條正弦曲線,如圖2-5所示。圖2-5霍夫空間變換對(duì)于歐式空間中同一條直線上的多個(gè)點(diǎn),經(jīng)過(guò)變換在霍夫空間中,將相交于同一個(gè)點(diǎn),稱此點(diǎn)為峰值點(diǎn),如圖2-6所示。這樣,就可以通過(guò)檢測(cè)霍夫空間下的峰值,從而完成直線的檢測(cè)。圖2-6霍夫變換示意圖對(duì)于名片圖像而言,通過(guò)上文的邊緣檢測(cè)和Hough變換,就可以得到名片4條邊的直線,從而計(jì)算出名片4個(gè)頂點(diǎn)的坐標(biāo),這樣就得到了圖像中名片的位置信息。接下來(lái),就可以通過(guò)透視變換將提取頂點(diǎn)的圖像矯正為標(biāo)準(zhǔn)的正視矩形。透視變換是將圖片投影到一個(gè)新的視平面,其原理是把二維轉(zhuǎn)到三維,進(jìn)行變換后,再轉(zhuǎn)映射之前的二維空間。如圖2-7所示,左側(cè)是發(fā)生形變的圖像,右側(cè)是經(jīng)過(guò)矯正后的輸出圖像。
武漢郵電科學(xué)研究院碩士學(xué)位論文13xyo圖2-4Hesse法線式圖這樣,歐式空間中的某個(gè)固定點(diǎn)(a,b)就轉(zhuǎn)換為霍夫空間中的一組參數(shù)(r,θ),將得到一條正弦曲線,如圖2-5所示。圖2-5霍夫空間變換對(duì)于歐式空間中同一條直線上的多個(gè)點(diǎn),經(jīng)過(guò)變換在霍夫空間中,將相交于同一個(gè)點(diǎn),稱此點(diǎn)為峰值點(diǎn),如圖2-6所示。這樣,就可以通過(guò)檢測(cè)霍夫空間下的峰值,從而完成直線的檢測(cè)。圖2-6霍夫變換示意圖對(duì)于名片圖像而言,通過(guò)上文的邊緣檢測(cè)和Hough變換,就可以得到名片4條邊的直線,從而計(jì)算出名片4個(gè)頂點(diǎn)的坐標(biāo),這樣就得到了圖像中名片的位置信息。接下來(lái),就可以通過(guò)透視變換將提取頂點(diǎn)的圖像矯正為標(biāo)準(zhǔn)的正視矩形。透視變換是將圖片投影到一個(gè)新的視平面,其原理是把二維轉(zhuǎn)到三維,進(jìn)行變換后,再轉(zhuǎn)映射之前的二維空間。如圖2-7所示,左側(cè)是發(fā)生形變的圖像,右側(cè)是經(jīng)過(guò)矯正后的輸出圖像。
【參考文獻(xiàn)】:
期刊論文
[1]智能視頻監(jiān)控技術(shù)綜述[J]. 黃凱奇,陳曉棠,康運(yùn)鋒,譚鐵牛. 計(jì)算機(jī)學(xué)報(bào). 2015(06)
[2]新的桶形畸變的點(diǎn)陣樣板校正方法[J]. 吳開興,段馬麗. 計(jì)算機(jī)應(yīng)用. 2012(04)
[3]一種完整的漢字識(shí)別系統(tǒng)設(shè)計(jì)[J]. 印月,黃山. 微計(jì)算機(jī)信息. 2009(13)
[4]基于多信息融合的中文手寫地址字符串切分與識(shí)別[J]. 付強(qiáng),丁曉青,蔣焰. 電子與信息學(xué)報(bào). 2008(12)
碩士論文
[1]基于深度學(xué)習(xí)的自然場(chǎng)景圖像文本檢測(cè)[D]. 黃家冕.西安電子科技大學(xué) 2018
[2]深度卷積神經(jīng)網(wǎng)絡(luò)在OCR問題中的應(yīng)用研究[D]. 汪一文.電子科技大學(xué) 2018
[3]基于拍照的端到端銀行卡卡號(hào)檢測(cè)與識(shí)別研究[D]. 金昌軍.華中科技大學(xué) 2017
[4]基于結(jié)構(gòu)特征點(diǎn)的字符分割技術(shù)的研究[D]. 張愛娟.西安電子科技大學(xué) 2014
[5]面向人臉識(shí)別的特征定位及幾何校正研究[D]. 孔海東.河北工業(yè)大學(xué) 2006
本文編號(hào):3419424
【文章來(lái)源】:武漢郵電科學(xué)研究院湖北省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Sobel與Canny算子邊緣提取效果對(duì)比
武漢郵電科學(xué)研究院碩士學(xué)位論文13xyo圖2-4Hesse法線式圖這樣,歐式空間中的某個(gè)固定點(diǎn)(a,b)就轉(zhuǎn)換為霍夫空間中的一組參數(shù)(r,θ),將得到一條正弦曲線,如圖2-5所示。圖2-5霍夫空間變換對(duì)于歐式空間中同一條直線上的多個(gè)點(diǎn),經(jīng)過(guò)變換在霍夫空間中,將相交于同一個(gè)點(diǎn),稱此點(diǎn)為峰值點(diǎn),如圖2-6所示。這樣,就可以通過(guò)檢測(cè)霍夫空間下的峰值,從而完成直線的檢測(cè)。圖2-6霍夫變換示意圖對(duì)于名片圖像而言,通過(guò)上文的邊緣檢測(cè)和Hough變換,就可以得到名片4條邊的直線,從而計(jì)算出名片4個(gè)頂點(diǎn)的坐標(biāo),這樣就得到了圖像中名片的位置信息。接下來(lái),就可以通過(guò)透視變換將提取頂點(diǎn)的圖像矯正為標(biāo)準(zhǔn)的正視矩形。透視變換是將圖片投影到一個(gè)新的視平面,其原理是把二維轉(zhuǎn)到三維,進(jìn)行變換后,再轉(zhuǎn)映射之前的二維空間。如圖2-7所示,左側(cè)是發(fā)生形變的圖像,右側(cè)是經(jīng)過(guò)矯正后的輸出圖像。
武漢郵電科學(xué)研究院碩士學(xué)位論文13xyo圖2-4Hesse法線式圖這樣,歐式空間中的某個(gè)固定點(diǎn)(a,b)就轉(zhuǎn)換為霍夫空間中的一組參數(shù)(r,θ),將得到一條正弦曲線,如圖2-5所示。圖2-5霍夫空間變換對(duì)于歐式空間中同一條直線上的多個(gè)點(diǎn),經(jīng)過(guò)變換在霍夫空間中,將相交于同一個(gè)點(diǎn),稱此點(diǎn)為峰值點(diǎn),如圖2-6所示。這樣,就可以通過(guò)檢測(cè)霍夫空間下的峰值,從而完成直線的檢測(cè)。圖2-6霍夫變換示意圖對(duì)于名片圖像而言,通過(guò)上文的邊緣檢測(cè)和Hough變換,就可以得到名片4條邊的直線,從而計(jì)算出名片4個(gè)頂點(diǎn)的坐標(biāo),這樣就得到了圖像中名片的位置信息。接下來(lái),就可以通過(guò)透視變換將提取頂點(diǎn)的圖像矯正為標(biāo)準(zhǔn)的正視矩形。透視變換是將圖片投影到一個(gè)新的視平面,其原理是把二維轉(zhuǎn)到三維,進(jìn)行變換后,再轉(zhuǎn)映射之前的二維空間。如圖2-7所示,左側(cè)是發(fā)生形變的圖像,右側(cè)是經(jīng)過(guò)矯正后的輸出圖像。
【參考文獻(xiàn)】:
期刊論文
[1]智能視頻監(jiān)控技術(shù)綜述[J]. 黃凱奇,陳曉棠,康運(yùn)鋒,譚鐵牛. 計(jì)算機(jī)學(xué)報(bào). 2015(06)
[2]新的桶形畸變的點(diǎn)陣樣板校正方法[J]. 吳開興,段馬麗. 計(jì)算機(jī)應(yīng)用. 2012(04)
[3]一種完整的漢字識(shí)別系統(tǒng)設(shè)計(jì)[J]. 印月,黃山. 微計(jì)算機(jī)信息. 2009(13)
[4]基于多信息融合的中文手寫地址字符串切分與識(shí)別[J]. 付強(qiáng),丁曉青,蔣焰. 電子與信息學(xué)報(bào). 2008(12)
碩士論文
[1]基于深度學(xué)習(xí)的自然場(chǎng)景圖像文本檢測(cè)[D]. 黃家冕.西安電子科技大學(xué) 2018
[2]深度卷積神經(jīng)網(wǎng)絡(luò)在OCR問題中的應(yīng)用研究[D]. 汪一文.電子科技大學(xué) 2018
[3]基于拍照的端到端銀行卡卡號(hào)檢測(cè)與識(shí)別研究[D]. 金昌軍.華中科技大學(xué) 2017
[4]基于結(jié)構(gòu)特征點(diǎn)的字符分割技術(shù)的研究[D]. 張愛娟.西安電子科技大學(xué) 2014
[5]面向人臉識(shí)別的特征定位及幾何校正研究[D]. 孔海東.河北工業(yè)大學(xué) 2006
本文編號(hào):3419424
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3419424.html
最近更新
教材專著