基于CNN的自然場(chǎng)景文本檢測(cè)與識(shí)別研究
發(fā)布時(shí)間:2022-02-12 14:03
自然場(chǎng)景文本檢測(cè)和識(shí)別技術(shù)是計(jì)算機(jī)視覺領(lǐng)域中的重要的研究課題,隨著人工智能技術(shù)以及智能硬件設(shè)備的普及,自然場(chǎng)景文本檢測(cè)和識(shí)別技術(shù)受到人們的廣泛關(guān)注。它在汽車場(chǎng)景文字識(shí)別、卡證識(shí)別、票據(jù)識(shí)別、教育場(chǎng)景文字識(shí)別等方面具有廣泛的應(yīng)用背景。但由于場(chǎng)景文本圖像背景的復(fù)雜性和文本本身的多變性,要準(zhǔn)確地檢測(cè)和識(shí)別出文本還面臨著諸多困難。本文針對(duì)自然場(chǎng)景文本圖像檢測(cè)與識(shí)別算法進(jìn)行了研究,具體內(nèi)容如下:(1)介紹了自然場(chǎng)景文本檢測(cè)與識(shí)別算法的研究現(xiàn)狀,分析了場(chǎng)景文本檢測(cè)與識(shí)別技術(shù)面臨的挑戰(zhàn),并介紹了目前常用的算法。(2)針對(duì)CTPN網(wǎng)絡(luò)只能檢測(cè)水平和稍微傾斜方向文本的問題,提出了改進(jìn)的CTPN多方向文本檢測(cè)算法,并將該算法應(yīng)用于多方向文本檢測(cè)與識(shí)別系統(tǒng)中。通過對(duì)待檢測(cè)圖像進(jìn)行多角度旋轉(zhuǎn),使用CTPN網(wǎng)絡(luò)檢測(cè)出旋轉(zhuǎn)后圖像中文本的初始位置,再對(duì)候選文本框進(jìn)行融合,找出本文的最佳文本框。在對(duì)文本框進(jìn)行融合時(shí),使用文本框融合策略,生成旋轉(zhuǎn)的矩形框來標(biāo)記文本區(qū)域。將該算法在IC15數(shù)據(jù)集上進(jìn)行了測(cè)試,驗(yàn)證了改進(jìn)的CTPN多方向文本檢測(cè)算法的合理性。解決了CTPN網(wǎng)絡(luò)只能檢測(cè)近似水平方向文本的問題。(3)提出了改進(jìn)...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然場(chǎng)景下文本示例
基于CNN的自然場(chǎng)景文本檢測(cè)與識(shí)別研究10圖2.2HOG特征算法流程圖具體的HOG算法過程如下所示:①圖像歸一化為去除光照對(duì)圖像的影響,對(duì)圖像進(jìn)行歸一化處理,提高算法的魯棒性。②梯度值計(jì)算分別計(jì)算圖像的R、G、B三個(gè)顏色通道的梯度,再取三個(gè)通道的最大梯度值為作為該像素的梯度值。設(shè)圖像中處的某個(gè)通道的像素值為,為水平方向的梯度,為垂直方向的梯度,為梯度幅值,使用模板[-1,0,1]對(duì)圖像卷積得到,使用模板[-1,0,1]T對(duì)圖像卷積得到。計(jì)算公式如下:(2.1)點(diǎn)處的梯度方向計(jì)算公式如下:(2.2)③構(gòu)建方向梯度直方圖將圖像分為若干個(gè)單元格(cell)和塊(block),每個(gè)單元格的大小為66個(gè)像素,個(gè)cell組成一個(gè)塊。將單元格的梯度方向0o-360o分為九個(gè)區(qū)間,然后采用線性插值的方式將梯度幅值加權(quán)分配到相鄰兩個(gè)角度區(qū)間中,同時(shí)還需要對(duì)像素點(diǎn)塊內(nèi)的其他單元進(jìn)行雙線性插值投票,最后將塊內(nèi)的單元直方圖串起來組成直方圖塊。
第二章自然場(chǎng)景圖像中的文本檢測(cè)概述11④塊內(nèi)歸一化由于局部光照變化使得梯度的的變化范圍很大,需要對(duì)塊內(nèi)梯度直方圖做歸一化處理。⑤收集特征將檢測(cè)窗口中重疊的塊進(jìn)行HOG特征收集,并將HOG特征輸入到SVM分類器中供分類使用。(2)LBP(LocalBinaryPattern,局部二值模式)特征是一種用來描述圖像局部紋理特征的算子,它是首先由Ojala等[43]在1994年提出,用于局部的紋理特征提取,具有旋轉(zhuǎn)和灰度不變性等優(yōu)點(diǎn)。LBP特征算法流程圖如圖2.3所示。圖2.3LBP特征算法流程圖具體的LBP算法過程如下:①劃分區(qū)域?qū)z測(cè)窗口劃分為16×16的小區(qū)域(cell)。②LBP值求解對(duì)cell中的每個(gè)像素進(jìn)行二值化處理,將相鄰的8個(gè)像素的灰度值與其進(jìn)行比較,若周圍像素值大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。這樣,3×3鄰域內(nèi)的8個(gè)點(diǎn)經(jīng)比較可產(chǎn)生8位二進(jìn)制數(shù),即得到該窗口中心像素點(diǎn)的LBP值。③歸一化計(jì)算每個(gè)cell的直方圖,即每個(gè)數(shù)字出現(xiàn)的頻率,然后對(duì)該直方圖進(jìn)行歸一化
【參考文獻(xiàn)】:
期刊論文
[1]復(fù)雜彩色文本圖像中字符的提取[J]. 陳又新,劉長(zhǎng)松,丁曉青. 中文信息學(xué)報(bào). 2003(05)
本文編號(hào):3621853
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:57 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然場(chǎng)景下文本示例
基于CNN的自然場(chǎng)景文本檢測(cè)與識(shí)別研究10圖2.2HOG特征算法流程圖具體的HOG算法過程如下所示:①圖像歸一化為去除光照對(duì)圖像的影響,對(duì)圖像進(jìn)行歸一化處理,提高算法的魯棒性。②梯度值計(jì)算分別計(jì)算圖像的R、G、B三個(gè)顏色通道的梯度,再取三個(gè)通道的最大梯度值為作為該像素的梯度值。設(shè)圖像中處的某個(gè)通道的像素值為,為水平方向的梯度,為垂直方向的梯度,為梯度幅值,使用模板[-1,0,1]對(duì)圖像卷積得到,使用模板[-1,0,1]T對(duì)圖像卷積得到。計(jì)算公式如下:(2.1)點(diǎn)處的梯度方向計(jì)算公式如下:(2.2)③構(gòu)建方向梯度直方圖將圖像分為若干個(gè)單元格(cell)和塊(block),每個(gè)單元格的大小為66個(gè)像素,個(gè)cell組成一個(gè)塊。將單元格的梯度方向0o-360o分為九個(gè)區(qū)間,然后采用線性插值的方式將梯度幅值加權(quán)分配到相鄰兩個(gè)角度區(qū)間中,同時(shí)還需要對(duì)像素點(diǎn)塊內(nèi)的其他單元進(jìn)行雙線性插值投票,最后將塊內(nèi)的單元直方圖串起來組成直方圖塊。
第二章自然場(chǎng)景圖像中的文本檢測(cè)概述11④塊內(nèi)歸一化由于局部光照變化使得梯度的的變化范圍很大,需要對(duì)塊內(nèi)梯度直方圖做歸一化處理。⑤收集特征將檢測(cè)窗口中重疊的塊進(jìn)行HOG特征收集,并將HOG特征輸入到SVM分類器中供分類使用。(2)LBP(LocalBinaryPattern,局部二值模式)特征是一種用來描述圖像局部紋理特征的算子,它是首先由Ojala等[43]在1994年提出,用于局部的紋理特征提取,具有旋轉(zhuǎn)和灰度不變性等優(yōu)點(diǎn)。LBP特征算法流程圖如圖2.3所示。圖2.3LBP特征算法流程圖具體的LBP算法過程如下:①劃分區(qū)域?qū)z測(cè)窗口劃分為16×16的小區(qū)域(cell)。②LBP值求解對(duì)cell中的每個(gè)像素進(jìn)行二值化處理,將相鄰的8個(gè)像素的灰度值與其進(jìn)行比較,若周圍像素值大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。這樣,3×3鄰域內(nèi)的8個(gè)點(diǎn)經(jīng)比較可產(chǎn)生8位二進(jìn)制數(shù),即得到該窗口中心像素點(diǎn)的LBP值。③歸一化計(jì)算每個(gè)cell的直方圖,即每個(gè)數(shù)字出現(xiàn)的頻率,然后對(duì)該直方圖進(jìn)行歸一化
【參考文獻(xiàn)】:
期刊論文
[1]復(fù)雜彩色文本圖像中字符的提取[J]. 陳又新,劉長(zhǎng)松,丁曉青. 中文信息學(xué)報(bào). 2003(05)
本文編號(hào):3621853
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3621853.html
最近更新
教材專著