基于字符的文檔圖像方向矯正研究
發(fā)布時(shí)間:2021-03-08 06:11
近年來,計(jì)算機(jī)視覺領(lǐng)域的發(fā)展日新月異。其中光學(xué)字符識別(optical character recognition,OCR)作為計(jì)算機(jī)視覺的一個(gè)重要分分支,旨在從圖像中準(zhǔn)確識別出所包含文字。而在現(xiàn)實(shí)生活和辦公中,掃描文檔圖像作為文字的一種重要載體,準(zhǔn)確對其進(jìn)行OCR識別能夠大大減少人力成本。但是獲取文檔圖像的過程中,有很多因素將導(dǎo)致最終的文檔圖像處在錯(cuò)誤的方向。例如掃描前沒有將文檔放在正確的方向,或者所獲取的圖像方向信息丟失。而這將影響OCR識別效果和后續(xù)圖像處理工作。針對文檔圖像可能處在的四個(gè)方向,本文提出了基于字符的文檔圖像方向矯正算法。該算法從文檔圖像所包含的字符出發(fā),通過分析字符方向以確定文檔方向。本研究的主要工作如下:1.提出的基于字符的文檔圖像方向矯正方法,首先利用文本行檢測和字符分割方法以確定字符位置,然后對文檔內(nèi)的字符進(jìn)行方向分類以確定文檔方向。最終在CASIA-HWDB2.1文檔圖像測試集上測試,準(zhǔn)確率達(dá)到97.0%。2.提出了基于全卷積網(wǎng)絡(luò)(fully convolutional network.FCN)的字符分割方法,可以端到端的判斷文本行圖像每一列是否為分割線,...
【文章來源】:天津師范大學(xué)天津市
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?(a)正向手寫文檔(b)正向文檔識別結(jié)果??⑷顛倒手寫文檔(d)顛倒手寫文檔識別結(jié)果??傳統(tǒng)的圖像方向矯正多依賴人工設(shè)計(jì)的特征[2<,人工設(shè)計(jì)的特征適應(yīng)性差,??
圖3-1?(a)?RPN網(wǎng)絡(luò)結(jié)構(gòu)(b)?RPN檢測效果??為了生成區(qū)域建議,在這組共享卷積層的最后一層輸出的特征上,添加一個(gè)??小的映射網(wǎng)絡(luò)=這個(gè)小網(wǎng)絡(luò)將特征上的n*n空間窗口作為輸入,每個(gè)滑動窗都將??映射到一個(gè)低維特征。這個(gè)低維特征將同時(shí)被一個(gè)邊界框回歸層和一個(gè)邊界框分??
??類層作為輸入。如圖3-l(a)所示,該映射網(wǎng)絡(luò)在特征圖上一個(gè)點(diǎn)的效果圖。注意??該映射網(wǎng)絡(luò)以滑動窗的形式在共享卷積層輸出的特征圖上每個(gè)點(diǎn)滑動,該映射網(wǎng)??絡(luò)的權(quán)重將在甸個(gè)位置的特征共享。整個(gè)RPN網(wǎng)絡(luò)通過一個(gè)n*n的卷積?和兩??個(gè)相鄰的1*1的卷積層(分別用于邊界框回歸和邊界框分類)組成。??、、?multiple?filter?sizes??m??(a)?(b)??圖3-2?(a)圖像金字塔(b)特征金字塔??對于共享卷積層最后一層輸出特征圖上的每個(gè)特征點(diǎn),RPN都為其提供k??個(gè)建議區(qū)域。所以邊界回歸層的輸出為4k個(gè)結(jié)點(diǎn),分別表示k個(gè)對象候選框,??邊界分類層輸出為2k個(gè)結(jié)點(diǎn),分別代表k個(gè)建議區(qū)域是否為對象的概率。k個(gè)??建議區(qū)域以該點(diǎn)為中心的相對位置表示,被稱為錨點(diǎn)。錨點(diǎn)以滑動窗的中心位置??為中心,可以擁有不同的尺寸和高寬比,如圖3-l(a)所示。默認(rèn)情況下,RPN中??的錨點(diǎn)將設(shè)置3個(gè)尺度和3種高寬比。對于共享卷積產(chǎn)生的W?*?H的特征圖,??RPN共產(chǎn)生W*H*k個(gè)錨點(diǎn);谙鄬ξ恢煤突瑒哟暗模遥校尉W(wǎng)絡(luò)
本文編號:3070556
【文章來源】:天津師范大學(xué)天津市
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1?(a)正向手寫文檔(b)正向文檔識別結(jié)果??⑷顛倒手寫文檔(d)顛倒手寫文檔識別結(jié)果??傳統(tǒng)的圖像方向矯正多依賴人工設(shè)計(jì)的特征[2<,人工設(shè)計(jì)的特征適應(yīng)性差,??
圖3-1?(a)?RPN網(wǎng)絡(luò)結(jié)構(gòu)(b)?RPN檢測效果??為了生成區(qū)域建議,在這組共享卷積層的最后一層輸出的特征上,添加一個(gè)??小的映射網(wǎng)絡(luò)=這個(gè)小網(wǎng)絡(luò)將特征上的n*n空間窗口作為輸入,每個(gè)滑動窗都將??映射到一個(gè)低維特征。這個(gè)低維特征將同時(shí)被一個(gè)邊界框回歸層和一個(gè)邊界框分??
??類層作為輸入。如圖3-l(a)所示,該映射網(wǎng)絡(luò)在特征圖上一個(gè)點(diǎn)的效果圖。注意??該映射網(wǎng)絡(luò)以滑動窗的形式在共享卷積層輸出的特征圖上每個(gè)點(diǎn)滑動,該映射網(wǎng)??絡(luò)的權(quán)重將在甸個(gè)位置的特征共享。整個(gè)RPN網(wǎng)絡(luò)通過一個(gè)n*n的卷積?和兩??個(gè)相鄰的1*1的卷積層(分別用于邊界框回歸和邊界框分類)組成。??、、?multiple?filter?sizes??m??(a)?(b)??圖3-2?(a)圖像金字塔(b)特征金字塔??對于共享卷積層最后一層輸出特征圖上的每個(gè)特征點(diǎn),RPN都為其提供k??個(gè)建議區(qū)域。所以邊界回歸層的輸出為4k個(gè)結(jié)點(diǎn),分別表示k個(gè)對象候選框,??邊界分類層輸出為2k個(gè)結(jié)點(diǎn),分別代表k個(gè)建議區(qū)域是否為對象的概率。k個(gè)??建議區(qū)域以該點(diǎn)為中心的相對位置表示,被稱為錨點(diǎn)。錨點(diǎn)以滑動窗的中心位置??為中心,可以擁有不同的尺寸和高寬比,如圖3-l(a)所示。默認(rèn)情況下,RPN中??的錨點(diǎn)將設(shè)置3個(gè)尺度和3種高寬比。對于共享卷積產(chǎn)生的W?*?H的特征圖,??RPN共產(chǎn)生W*H*k個(gè)錨點(diǎn);谙鄬ξ恢煤突瑒哟暗模遥校尉W(wǎng)絡(luò)
本文編號:3070556
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3070556.html
最近更新
教材專著