基于CNN的自然場景文本檢測與識別研究
發(fā)布時間:2022-02-12 14:03
自然場景文本檢測和識別技術(shù)是計算機視覺領(lǐng)域中的重要的研究課題,隨著人工智能技術(shù)以及智能硬件設(shè)備的普及,自然場景文本檢測和識別技術(shù)受到人們的廣泛關(guān)注。它在汽車場景文字識別、卡證識別、票據(jù)識別、教育場景文字識別等方面具有廣泛的應用背景。但由于場景文本圖像背景的復雜性和文本本身的多變性,要準確地檢測和識別出文本還面臨著諸多困難。本文針對自然場景文本圖像檢測與識別算法進行了研究,具體內(nèi)容如下:(1)介紹了自然場景文本檢測與識別算法的研究現(xiàn)狀,分析了場景文本檢測與識別技術(shù)面臨的挑戰(zhàn),并介紹了目前常用的算法。(2)針對CTPN網(wǎng)絡只能檢測水平和稍微傾斜方向文本的問題,提出了改進的CTPN多方向文本檢測算法,并將該算法應用于多方向文本檢測與識別系統(tǒng)中。通過對待檢測圖像進行多角度旋轉(zhuǎn),使用CTPN網(wǎng)絡檢測出旋轉(zhuǎn)后圖像中文本的初始位置,再對候選文本框進行融合,找出本文的最佳文本框。在對文本框進行融合時,使用文本框融合策略,生成旋轉(zhuǎn)的矩形框來標記文本區(qū)域。將該算法在IC15數(shù)據(jù)集上進行了測試,驗證了改進的CTPN多方向文本檢測算法的合理性。解決了CTPN網(wǎng)絡只能檢測近似水平方向文本的問題。(3)提出了改進...
【文章來源】:山西大學山西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
自然場景下文本示例
基于CNN的自然場景文本檢測與識別研究10圖2.2HOG特征算法流程圖具體的HOG算法過程如下所示:①圖像歸一化為去除光照對圖像的影響,對圖像進行歸一化處理,提高算法的魯棒性。②梯度值計算分別計算圖像的R、G、B三個顏色通道的梯度,再取三個通道的最大梯度值為作為該像素的梯度值。設(shè)圖像中處的某個通道的像素值為,為水平方向的梯度,為垂直方向的梯度,為梯度幅值,使用模板[-1,0,1]對圖像卷積得到,使用模板[-1,0,1]T對圖像卷積得到。計算公式如下:(2.1)點處的梯度方向計算公式如下:(2.2)③構(gòu)建方向梯度直方圖將圖像分為若干個單元格(cell)和塊(block),每個單元格的大小為66個像素,個cell組成一個塊。將單元格的梯度方向0o-360o分為九個區(qū)間,然后采用線性插值的方式將梯度幅值加權(quán)分配到相鄰兩個角度區(qū)間中,同時還需要對像素點塊內(nèi)的其他單元進行雙線性插值投票,最后將塊內(nèi)的單元直方圖串起來組成直方圖塊。
第二章自然場景圖像中的文本檢測概述11④塊內(nèi)歸一化由于局部光照變化使得梯度的的變化范圍很大,需要對塊內(nèi)梯度直方圖做歸一化處理。⑤收集特征將檢測窗口中重疊的塊進行HOG特征收集,并將HOG特征輸入到SVM分類器中供分類使用。(2)LBP(LocalBinaryPattern,局部二值模式)特征是一種用來描述圖像局部紋理特征的算子,它是首先由Ojala等[43]在1994年提出,用于局部的紋理特征提取,具有旋轉(zhuǎn)和灰度不變性等優(yōu)點。LBP特征算法流程圖如圖2.3所示。圖2.3LBP特征算法流程圖具體的LBP算法過程如下:①劃分區(qū)域?qū)z測窗口劃分為16×16的小區(qū)域(cell)。②LBP值求解對cell中的每個像素進行二值化處理,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二進制數(shù),即得到該窗口中心像素點的LBP值。③歸一化計算每個cell的直方圖,即每個數(shù)字出現(xiàn)的頻率,然后對該直方圖進行歸一化
【參考文獻】:
期刊論文
[1]復雜彩色文本圖像中字符的提取[J]. 陳又新,劉長松,丁曉青. 中文信息學報. 2003(05)
本文編號:3621853
【文章來源】:山西大學山西省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
自然場景下文本示例
基于CNN的自然場景文本檢測與識別研究10圖2.2HOG特征算法流程圖具體的HOG算法過程如下所示:①圖像歸一化為去除光照對圖像的影響,對圖像進行歸一化處理,提高算法的魯棒性。②梯度值計算分別計算圖像的R、G、B三個顏色通道的梯度,再取三個通道的最大梯度值為作為該像素的梯度值。設(shè)圖像中處的某個通道的像素值為,為水平方向的梯度,為垂直方向的梯度,為梯度幅值,使用模板[-1,0,1]對圖像卷積得到,使用模板[-1,0,1]T對圖像卷積得到。計算公式如下:(2.1)點處的梯度方向計算公式如下:(2.2)③構(gòu)建方向梯度直方圖將圖像分為若干個單元格(cell)和塊(block),每個單元格的大小為66個像素,個cell組成一個塊。將單元格的梯度方向0o-360o分為九個區(qū)間,然后采用線性插值的方式將梯度幅值加權(quán)分配到相鄰兩個角度區(qū)間中,同時還需要對像素點塊內(nèi)的其他單元進行雙線性插值投票,最后將塊內(nèi)的單元直方圖串起來組成直方圖塊。
第二章自然場景圖像中的文本檢測概述11④塊內(nèi)歸一化由于局部光照變化使得梯度的的變化范圍很大,需要對塊內(nèi)梯度直方圖做歸一化處理。⑤收集特征將檢測窗口中重疊的塊進行HOG特征收集,并將HOG特征輸入到SVM分類器中供分類使用。(2)LBP(LocalBinaryPattern,局部二值模式)特征是一種用來描述圖像局部紋理特征的算子,它是首先由Ojala等[43]在1994年提出,用于局部的紋理特征提取,具有旋轉(zhuǎn)和灰度不變性等優(yōu)點。LBP特征算法流程圖如圖2.3所示。圖2.3LBP特征算法流程圖具體的LBP算法過程如下:①劃分區(qū)域?qū)z測窗口劃分為16×16的小區(qū)域(cell)。②LBP值求解對cell中的每個像素進行二值化處理,將相鄰的8個像素的灰度值與其進行比較,若周圍像素值大于中心像素值,則該像素點的位置被標記為1,否則為0。這樣,3×3鄰域內(nèi)的8個點經(jīng)比較可產(chǎn)生8位二進制數(shù),即得到該窗口中心像素點的LBP值。③歸一化計算每個cell的直方圖,即每個數(shù)字出現(xiàn)的頻率,然后對該直方圖進行歸一化
【參考文獻】:
期刊論文
[1]復雜彩色文本圖像中字符的提取[J]. 陳又新,劉長松,丁曉青. 中文信息學報. 2003(05)
本文編號:3621853
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3621853.html
最近更新
教材專著