基于CNN的銀行卡數(shù)字識別方法
發(fā)布時間:2021-03-20 14:35
在拍攝銀行卡時,由于受拍攝角度的不確定性、光照條件的復(fù)雜性及卡背景的多樣性等眾多因素的干擾,使得自然拍攝場景的銀行卡數(shù)字識別算法存在較大挑戰(zhàn)。為此,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的銀行卡數(shù)字識別框架。首先,通過投影矯正、邊緣檢測和形態(tài)學(xué)等一系列圖像處理算法獲取目標(biāo)數(shù)字區(qū)域;其次,通過增強的數(shù)據(jù)集訓(xùn)練一個CNN,使用該網(wǎng)絡(luò)通過滑窗識別獲取上述目標(biāo)數(shù)字區(qū)域,輸出初始銀行卡號序列,生成為一個數(shù)字曲線圖;最后,提出了滑窗優(yōu)化算法,該平滑算法輸入上述初始的銀行卡號曲線圖,對其進行優(yōu)化,繼而分割出單個數(shù)字并輸出最終結(jié)果。實驗結(jié)果表明算法顯著提高了銀行卡數(shù)字識別和分割的準(zhǔn)確率,同時針對較復(fù)雜的銀行卡圖像仍然具有較好的魯棒性。
【文章來源】:圖學(xué)學(xué)報. 2020,41(01)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
銀行卡數(shù)字識別方法框架
第1期李尚林,等:基于CNN的銀行卡數(shù)字識別方法83CNN的具體模型結(jié)構(gòu)。(3)數(shù)字識別。使用CNN滑窗算法分割單個數(shù)字,以及如何使用平滑優(yōu)化算法獲得更加準(zhǔn)確的數(shù)字序列。圖1銀行卡數(shù)字識別方法框架1.1數(shù)字區(qū)域提取當(dāng)前市面上絕大多數(shù)銀行卡均符合國際ISO/IEC7810中的ID-1標(biāo)準(zhǔn),尺寸為85.60mm×53.98mm。移動設(shè)備的拍照識別程序通常都會利用該長寬比引導(dǎo)用戶拍攝銀行卡,因此,本文假設(shè)獲取到的銀行卡影像是完整的。1.1.1傾斜校正由于拍攝位置的自由性,使用移動設(shè)備獲取的銀行卡圖像通常存在一定的角度傾斜,角度較大的圖像會嚴(yán)重影響后續(xù)的識別。考慮到算法的魯棒性,需要分2種情況考慮。對于銀行卡邊緣完整的情況,可以考慮先獲取銀行卡邊緣,再對圖像進行投影校正。具體方法如下:(1)使用Canny算子來獲取邊緣;(2)使用霍夫變換來查找直線,同時過濾角度不合理的直線;(3)通過直線求交點運算,得到銀行卡輪廓的4個角點;(4)對圖像使用投影變換,獲得矯正后的圖像。對于銀行卡邊緣不完整的情況,可以使用車牌識別領(lǐng)域中常用的Radon變換[20]進行處理。綜上所述,銀行卡拍攝角度的矯正過程如圖2所示。1.1.2數(shù)字區(qū)域獲取目前主流的銀行卡上的數(shù)字區(qū)域可以分為噴涂式和按壓式2類。噴涂式的數(shù)字通常采用深色的顏色,使之與淺色的背景作區(qū)分,該類型銀行卡的數(shù)字區(qū)域的定位相對較為簡單;而按壓式銀行卡,其數(shù)字區(qū)域和卡片背景具有一致的顏色,只能通過檢測按壓區(qū)域的光線變化進行檢測。對于噴涂銀行卡,其核心預(yù)處理是先做二值化,再做閉操作,最后重復(fù)多次膨脹和腐蝕連接相鄰的數(shù)字區(qū)域。考慮到銀行卡中的數(shù)
84圖像處理與計算機視覺2020年1.2.1CNN模型用于識別單個數(shù)字的CNN網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)共包括3個卷積層,3個Maxpooling層,2個全連接層,1個Softmax輸出層�?紤]到銀行卡數(shù)字和背景顏色的無關(guān)性,該模型的輸入大小為寬度w=30,高度h=46的單通道灰度圖,最終將輸出圖像分成11類,類別0到9為對應(yīng)的數(shù)字標(biāo)簽,類別10為非數(shù)字區(qū)域標(biāo)簽。1.2.2數(shù)據(jù)增強考慮到數(shù)字區(qū)域提取部分結(jié)果必然存在一定的誤差(如透視投影畸變、字符區(qū)域有少量像素被截取等),合理的數(shù)據(jù)增強是提升CNN識別準(zhǔn)確率的關(guān)鍵因素之一。(1)數(shù)字標(biāo)簽數(shù)據(jù)。數(shù)字標(biāo)簽為0到9共10類,每個訓(xùn)練圖片為一個完整的單個數(shù)字字符的圖像。這類圖片的增強方法包括:x方向平移像素k;y方向平移像素k;中心旋轉(zhuǎn)角度k。其中k∈[2,2]。(2)非數(shù)字區(qū)域標(biāo)簽數(shù)據(jù)。該類標(biāo)簽數(shù)據(jù)來源于:銀行卡背景、其他非數(shù)字字符、以及同時存在2個字符的情況。通過上述數(shù)據(jù)增強(圖5),每一類標(biāo)簽的訓(xùn)練數(shù)據(jù)大約為2000,訓(xùn)練圖片數(shù)據(jù)總量約為2萬。(a)黑底數(shù)字銀行卡原圖(b)灰度圖、高斯模糊、歸一化(c)二值化(d)形態(tài)學(xué)(e)按壓數(shù)字銀行卡原圖(f)高斯模糊、Laplace變換(g)形態(tài)學(xué)(h)Otsu閾值法二值化圖3數(shù)字區(qū)域獲取測((a)~(d)為噴涂銀行卡樣例;(e)~(h)為按壓銀行卡樣例)圖4CNN模型示意圖(a)數(shù)字標(biāo)簽數(shù)據(jù)增強(b)非數(shù)字標(biāo)簽增強圖5數(shù)據(jù)增強
【參考文獻】:
期刊論文
[1]面向小目標(biāo)的多尺度Faster-RCNN檢測算法[J]. 黃繼鵬,史穎歡,高陽. 計算機研究與發(fā)展. 2019(02)
[2]基于Sobel算子和Radon變換的車牌傾斜校正方法[J]. 吳麗麗,余春艷. 計算機應(yīng)用. 2013(S1)
[3]一種身份證圖像自動識別中文字定位與分割的方法[J]. 黃山,李岱璋,尚建華. 計算機應(yīng)用研究. 2002(10)
[4]車牌識別(LPR)中的圖像提取及分割[J]. 劉智勇,劉迎建. 中文信息學(xué)報. 2000(04)
本文編號:3091165
【文章來源】:圖學(xué)學(xué)報. 2020,41(01)北大核心CSCD
【文章頁數(shù)】:7 頁
【部分圖文】:
銀行卡數(shù)字識別方法框架
第1期李尚林,等:基于CNN的銀行卡數(shù)字識別方法83CNN的具體模型結(jié)構(gòu)。(3)數(shù)字識別。使用CNN滑窗算法分割單個數(shù)字,以及如何使用平滑優(yōu)化算法獲得更加準(zhǔn)確的數(shù)字序列。圖1銀行卡數(shù)字識別方法框架1.1數(shù)字區(qū)域提取當(dāng)前市面上絕大多數(shù)銀行卡均符合國際ISO/IEC7810中的ID-1標(biāo)準(zhǔn),尺寸為85.60mm×53.98mm。移動設(shè)備的拍照識別程序通常都會利用該長寬比引導(dǎo)用戶拍攝銀行卡,因此,本文假設(shè)獲取到的銀行卡影像是完整的。1.1.1傾斜校正由于拍攝位置的自由性,使用移動設(shè)備獲取的銀行卡圖像通常存在一定的角度傾斜,角度較大的圖像會嚴(yán)重影響后續(xù)的識別。考慮到算法的魯棒性,需要分2種情況考慮。對于銀行卡邊緣完整的情況,可以考慮先獲取銀行卡邊緣,再對圖像進行投影校正。具體方法如下:(1)使用Canny算子來獲取邊緣;(2)使用霍夫變換來查找直線,同時過濾角度不合理的直線;(3)通過直線求交點運算,得到銀行卡輪廓的4個角點;(4)對圖像使用投影變換,獲得矯正后的圖像。對于銀行卡邊緣不完整的情況,可以使用車牌識別領(lǐng)域中常用的Radon變換[20]進行處理。綜上所述,銀行卡拍攝角度的矯正過程如圖2所示。1.1.2數(shù)字區(qū)域獲取目前主流的銀行卡上的數(shù)字區(qū)域可以分為噴涂式和按壓式2類。噴涂式的數(shù)字通常采用深色的顏色,使之與淺色的背景作區(qū)分,該類型銀行卡的數(shù)字區(qū)域的定位相對較為簡單;而按壓式銀行卡,其數(shù)字區(qū)域和卡片背景具有一致的顏色,只能通過檢測按壓區(qū)域的光線變化進行檢測。對于噴涂銀行卡,其核心預(yù)處理是先做二值化,再做閉操作,最后重復(fù)多次膨脹和腐蝕連接相鄰的數(shù)字區(qū)域。考慮到銀行卡中的數(shù)
84圖像處理與計算機視覺2020年1.2.1CNN模型用于識別單個數(shù)字的CNN網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)共包括3個卷積層,3個Maxpooling層,2個全連接層,1個Softmax輸出層�?紤]到銀行卡數(shù)字和背景顏色的無關(guān)性,該模型的輸入大小為寬度w=30,高度h=46的單通道灰度圖,最終將輸出圖像分成11類,類別0到9為對應(yīng)的數(shù)字標(biāo)簽,類別10為非數(shù)字區(qū)域標(biāo)簽。1.2.2數(shù)據(jù)增強考慮到數(shù)字區(qū)域提取部分結(jié)果必然存在一定的誤差(如透視投影畸變、字符區(qū)域有少量像素被截取等),合理的數(shù)據(jù)增強是提升CNN識別準(zhǔn)確率的關(guān)鍵因素之一。(1)數(shù)字標(biāo)簽數(shù)據(jù)。數(shù)字標(biāo)簽為0到9共10類,每個訓(xùn)練圖片為一個完整的單個數(shù)字字符的圖像。這類圖片的增強方法包括:x方向平移像素k;y方向平移像素k;中心旋轉(zhuǎn)角度k。其中k∈[2,2]。(2)非數(shù)字區(qū)域標(biāo)簽數(shù)據(jù)。該類標(biāo)簽數(shù)據(jù)來源于:銀行卡背景、其他非數(shù)字字符、以及同時存在2個字符的情況。通過上述數(shù)據(jù)增強(圖5),每一類標(biāo)簽的訓(xùn)練數(shù)據(jù)大約為2000,訓(xùn)練圖片數(shù)據(jù)總量約為2萬。(a)黑底數(shù)字銀行卡原圖(b)灰度圖、高斯模糊、歸一化(c)二值化(d)形態(tài)學(xué)(e)按壓數(shù)字銀行卡原圖(f)高斯模糊、Laplace變換(g)形態(tài)學(xué)(h)Otsu閾值法二值化圖3數(shù)字區(qū)域獲取測((a)~(d)為噴涂銀行卡樣例;(e)~(h)為按壓銀行卡樣例)圖4CNN模型示意圖(a)數(shù)字標(biāo)簽數(shù)據(jù)增強(b)非數(shù)字標(biāo)簽增強圖5數(shù)據(jù)增強
【參考文獻】:
期刊論文
[1]面向小目標(biāo)的多尺度Faster-RCNN檢測算法[J]. 黃繼鵬,史穎歡,高陽. 計算機研究與發(fā)展. 2019(02)
[2]基于Sobel算子和Radon變換的車牌傾斜校正方法[J]. 吳麗麗,余春艷. 計算機應(yīng)用. 2013(S1)
[3]一種身份證圖像自動識別中文字定位與分割的方法[J]. 黃山,李岱璋,尚建華. 計算機應(yīng)用研究. 2002(10)
[4]車牌識別(LPR)中的圖像提取及分割[J]. 劉智勇,劉迎建. 中文信息學(xué)報. 2000(04)
本文編號:3091165
本文鏈接:http://sikaile.net/jingjilunwen/huobiyinxinglunwen/3091165.html
最近更新
教材專著