基于深度學(xué)習(xí)的場(chǎng)景圖像文字檢測(cè)方法研究
發(fā)布時(shí)間:2021-06-22 15:47
在自然場(chǎng)景圖像中,文字是最常見(jiàn)的物體對(duì)象,它經(jīng)常出現(xiàn)在交通指示牌、產(chǎn)品包裝等物體上。有效檢測(cè)場(chǎng)景圖像中的文字有助于許多應(yīng)用程序?qū)崿F(xiàn)特定的功能,例如基于圖像的地理定位系統(tǒng)可以通過(guò)檢測(cè)并識(shí)別場(chǎng)景圖像文字來(lái)實(shí)現(xiàn)定位功能。隨著深度學(xué)習(xí)的飛速發(fā)展,越來(lái)越多的基于深度學(xué)習(xí)的物體檢測(cè)算法模型被用來(lái)進(jìn)行場(chǎng)景圖像的文字檢測(cè)。但是,由于場(chǎng)景圖像中的文字對(duì)象與通用物體對(duì)象不同,文字對(duì)象不僅具有尺度豐富、方向任意和寬高比極端等特性,而且容易受到類(lèi)似文字背景地干擾。針對(duì)自然場(chǎng)景圖像中文字的分布特性,本文對(duì)自然場(chǎng)景圖像中的文字檢測(cè)方法進(jìn)行研究。主要工作如下:(1)設(shè)計(jì)了一種基于SSD物體檢測(cè)算法改進(jìn)的自然場(chǎng)景文字檢測(cè)模型,該模型在SSD物體檢測(cè)算法的基礎(chǔ)上增加了一個(gè)文字區(qū)域檢測(cè)模塊。該模塊可以根據(jù)前面不同尺度的特征提取層檢測(cè)到的特征圖感受野的不同,調(diào)整默認(rèn)預(yù)選框的寬高比、卷積濾波器的形狀以及默認(rèn)預(yù)測(cè)框的空間密度。該模塊可以高效地融合各特征圖上的文字檢測(cè)結(jié)果,從而增強(qiáng)不同尺度文字檢測(cè)的魯棒性。(2)本文設(shè)計(jì)的場(chǎng)景圖像文字檢測(cè)模型針對(duì)SSD物體檢測(cè)算法只能生成水平矩形的物體區(qū)域邊界檢測(cè)框,而導(dǎo)致對(duì)多方向的文字檢測(cè)效果...
【文章來(lái)源】:杭州電子科技大學(xué)浙江省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LSTM網(wǎng)絡(luò)結(jié)構(gòu)流程圖
杭州電子科技大學(xué)碩士學(xué)位論文19特征提取模塊的基礎(chǔ)網(wǎng)絡(luò),使用VGG-16的目的是為了使用訓(xùn)練好的模型進(jìn)行遷移學(xué)習(xí)從而降低網(wǎng)絡(luò)的訓(xùn)練難度。VGG-16具有非常簡(jiǎn)單高效的網(wǎng)絡(luò)結(jié)構(gòu),首先,該網(wǎng)絡(luò)的前面幾層僅使用一個(gè)3×3卷積濾波器來(lái)加深網(wǎng)絡(luò)的深度,還使用了最大池化過(guò)程來(lái)順序降低每一層中的神經(jīng)元數(shù)量。其次,該網(wǎng)絡(luò)的最后三層由兩個(gè)全連接層以及一個(gè)Softmax分類(lèi)層組成。因此,VGG-16網(wǎng)絡(luò)在大規(guī)模的圖像分類(lèi)任務(wù)中具有出色的效果。SSD算法在VGG-16網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),主要是將VGG-16網(wǎng)絡(luò)后面的全連接層替換成卷積層,并在之后添加多個(gè)多尺度的卷積層。VGG-16的基本結(jié)構(gòu)如圖2.11所示。圖2.11VGG-16基本結(jié)構(gòu)圖2.4.2SSD物體檢測(cè)算法默認(rèn)預(yù)選框生成策略默認(rèn)預(yù)選框(defaultbox)是SSD物體檢測(cè)算法中的一個(gè)重要概念,SSD算法通過(guò)生成具有固定數(shù)量的多尺度默認(rèn)預(yù)選框來(lái)預(yù)測(cè)輸入圖像中待檢測(cè)物體的區(qū)域邊界框以及物體類(lèi)別。引入默認(rèn)預(yù)選框的基本思想是網(wǎng)絡(luò)在使用卷積層預(yù)測(cè)物體邊界框時(shí)有一個(gè)參考的目標(biāo),即卷積層預(yù)測(cè)時(shí)只需要預(yù)測(cè)物體相對(duì)于默認(rèn)預(yù)選框的偏移值就可以了。那么基于這個(gè)思路,默認(rèn)預(yù)選框在與目標(biāo)配對(duì)時(shí)越接近目標(biāo)的邊框越好,所以這就涉及到在不同尺度的特征圖分配不同默認(rèn)預(yù)選框的策略。SSD物體檢測(cè)算法中的默認(rèn)預(yù)選框的設(shè)置,包括尺度和寬高兩個(gè)方面。對(duì)于默認(rèn)預(yù)選框的尺度,其遵守一個(gè)線性遞增規(guī)則:隨著特征圖大小降低,先驗(yàn)框尺度線性增加。記網(wǎng)絡(luò)的最小檢測(cè)尺度為,最大檢測(cè)尺度為,總共有層特征圖用于檢測(cè),那么每層特征圖的默認(rèn)預(yù)選框的尺度計(jì)算公式如2.12所示:ss1(k),k,m(2.12)在SSD物體檢測(cè)算法中,每個(gè)卷積層提取的特征圖的數(shù)量m默認(rèn)設(shè)置為6,
杭州電子科技大學(xué)碩士學(xué)位論文26圖3.4默認(rèn)預(yù)選框預(yù)測(cè)預(yù)測(cè)文字區(qū)域邊界框?qū)嵗鐖D3.4所示為默認(rèn)預(yù)選框預(yù)測(cè)預(yù)測(cè)文字區(qū)域邊界框?qū)嵗。圖中顯示了不同設(shè)置比例生成的兩個(gè)默認(rèn)預(yù)選框b0,在圖中用黑色虛線和黃色虛線表示。其中黃色虛線的默認(rèn)預(yù)選框與真實(shí)文字標(biāo)注邊界框匹配。紅色實(shí)線為真實(shí)文字標(biāo)注邊界框,綠色實(shí)線為真實(shí)文字標(biāo)注邊界框的最小水平外接矩形。最終需要求解的是匹配的黃色虛線默認(rèn)預(yù)選框0到和的偏移量,如圖3.4中紅色箭頭和綠色箭頭所示。在SSD物體檢測(cè)模型中,自動(dòng)生成的默認(rèn)預(yù)選框的表示形式為b0=(x0,y0,w0,h0),其中(x0,y0)表示默認(rèn)預(yù)選框的中心點(diǎn),w0和h0分別表示默認(rèn)預(yù)選框的寬度和高度。在本文提出的場(chǎng)景圖像文字檢測(cè)模型中,為了能夠檢測(cè)任意方向的文字區(qū)域,文字區(qū)域檢測(cè)模塊生成的默認(rèn)預(yù)選框0可以表示為q0(x01q,y01q,x02q,y02q,x03q,y03q,x04q,y04q)。其中,q0為默認(rèn)預(yù)選框框的順時(shí)針?biāo)狞c(diǎn)坐標(biāo)表示。對(duì)應(yīng)的關(guān)系轉(zhuǎn)換如式公式3.1所示。x01qx02,y01qy02,x02qx02,y02qy02,x03qx02,y03qy02,x04qx02,y03qy02,x01x02,y01y02,x02x02,y02y02,h0h0(3.1)文字區(qū)域檢測(cè)模塊通過(guò)學(xué)習(xí)默認(rèn)預(yù)選框到真實(shí)標(biāo)注框的偏移回歸值,輸出對(duì)應(yīng)在檢測(cè)置信度下的一個(gè)預(yù)測(cè)四邊形框q(x1q,y1q,x2q,y2q,x3q,y3q,x4q,y4q)和一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[2]自然場(chǎng)景圖像中的文本檢測(cè)綜述[J]. 王潤(rùn)民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[3]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)與識(shí)別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國(guó)科學(xué):信息科學(xué). 2018(05)
博士論文
[1]自然圖像中文字檢測(cè)與識(shí)別研究[D]. 姚聰.華中科技大學(xué) 2014
本文編號(hào):3243112
【文章來(lái)源】:杭州電子科技大學(xué)浙江省
【文章頁(yè)數(shù)】:68 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
LSTM網(wǎng)絡(luò)結(jié)構(gòu)流程圖
杭州電子科技大學(xué)碩士學(xué)位論文19特征提取模塊的基礎(chǔ)網(wǎng)絡(luò),使用VGG-16的目的是為了使用訓(xùn)練好的模型進(jìn)行遷移學(xué)習(xí)從而降低網(wǎng)絡(luò)的訓(xùn)練難度。VGG-16具有非常簡(jiǎn)單高效的網(wǎng)絡(luò)結(jié)構(gòu),首先,該網(wǎng)絡(luò)的前面幾層僅使用一個(gè)3×3卷積濾波器來(lái)加深網(wǎng)絡(luò)的深度,還使用了最大池化過(guò)程來(lái)順序降低每一層中的神經(jīng)元數(shù)量。其次,該網(wǎng)絡(luò)的最后三層由兩個(gè)全連接層以及一個(gè)Softmax分類(lèi)層組成。因此,VGG-16網(wǎng)絡(luò)在大規(guī)模的圖像分類(lèi)任務(wù)中具有出色的效果。SSD算法在VGG-16網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn),主要是將VGG-16網(wǎng)絡(luò)后面的全連接層替換成卷積層,并在之后添加多個(gè)多尺度的卷積層。VGG-16的基本結(jié)構(gòu)如圖2.11所示。圖2.11VGG-16基本結(jié)構(gòu)圖2.4.2SSD物體檢測(cè)算法默認(rèn)預(yù)選框生成策略默認(rèn)預(yù)選框(defaultbox)是SSD物體檢測(cè)算法中的一個(gè)重要概念,SSD算法通過(guò)生成具有固定數(shù)量的多尺度默認(rèn)預(yù)選框來(lái)預(yù)測(cè)輸入圖像中待檢測(cè)物體的區(qū)域邊界框以及物體類(lèi)別。引入默認(rèn)預(yù)選框的基本思想是網(wǎng)絡(luò)在使用卷積層預(yù)測(cè)物體邊界框時(shí)有一個(gè)參考的目標(biāo),即卷積層預(yù)測(cè)時(shí)只需要預(yù)測(cè)物體相對(duì)于默認(rèn)預(yù)選框的偏移值就可以了。那么基于這個(gè)思路,默認(rèn)預(yù)選框在與目標(biāo)配對(duì)時(shí)越接近目標(biāo)的邊框越好,所以這就涉及到在不同尺度的特征圖分配不同默認(rèn)預(yù)選框的策略。SSD物體檢測(cè)算法中的默認(rèn)預(yù)選框的設(shè)置,包括尺度和寬高兩個(gè)方面。對(duì)于默認(rèn)預(yù)選框的尺度,其遵守一個(gè)線性遞增規(guī)則:隨著特征圖大小降低,先驗(yàn)框尺度線性增加。記網(wǎng)絡(luò)的最小檢測(cè)尺度為,最大檢測(cè)尺度為,總共有層特征圖用于檢測(cè),那么每層特征圖的默認(rèn)預(yù)選框的尺度計(jì)算公式如2.12所示:ss1(k),k,m(2.12)在SSD物體檢測(cè)算法中,每個(gè)卷積層提取的特征圖的數(shù)量m默認(rèn)設(shè)置為6,
杭州電子科技大學(xué)碩士學(xué)位論文26圖3.4默認(rèn)預(yù)選框預(yù)測(cè)預(yù)測(cè)文字區(qū)域邊界框?qū)嵗鐖D3.4所示為默認(rèn)預(yù)選框預(yù)測(cè)預(yù)測(cè)文字區(qū)域邊界框?qū)嵗。圖中顯示了不同設(shè)置比例生成的兩個(gè)默認(rèn)預(yù)選框b0,在圖中用黑色虛線和黃色虛線表示。其中黃色虛線的默認(rèn)預(yù)選框與真實(shí)文字標(biāo)注邊界框匹配。紅色實(shí)線為真實(shí)文字標(biāo)注邊界框,綠色實(shí)線為真實(shí)文字標(biāo)注邊界框的最小水平外接矩形。最終需要求解的是匹配的黃色虛線默認(rèn)預(yù)選框0到和的偏移量,如圖3.4中紅色箭頭和綠色箭頭所示。在SSD物體檢測(cè)模型中,自動(dòng)生成的默認(rèn)預(yù)選框的表示形式為b0=(x0,y0,w0,h0),其中(x0,y0)表示默認(rèn)預(yù)選框的中心點(diǎn),w0和h0分別表示默認(rèn)預(yù)選框的寬度和高度。在本文提出的場(chǎng)景圖像文字檢測(cè)模型中,為了能夠檢測(cè)任意方向的文字區(qū)域,文字區(qū)域檢測(cè)模塊生成的默認(rèn)預(yù)選框0可以表示為q0(x01q,y01q,x02q,y02q,x03q,y03q,x04q,y04q)。其中,q0為默認(rèn)預(yù)選框框的順時(shí)針?biāo)狞c(diǎn)坐標(biāo)表示。對(duì)應(yīng)的關(guān)系轉(zhuǎn)換如式公式3.1所示。x01qx02,y01qy02,x02qx02,y02qy02,x03qx02,y03qy02,x04qx02,y03qy02,x01x02,y01y02,x02x02,y02y02,h0h0(3.1)文字區(qū)域檢測(cè)模塊通過(guò)學(xué)習(xí)默認(rèn)預(yù)選框到真實(shí)標(biāo)注框的偏移回歸值,輸出對(duì)應(yīng)在檢測(cè)置信度下的一個(gè)預(yù)測(cè)四邊形框q(x1q,y1q,x2q,y2q,x3q,y3q,x4q,y4q)和一個(gè)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[2]自然場(chǎng)景圖像中的文本檢測(cè)綜述[J]. 王潤(rùn)民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[3]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)與識(shí)別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國(guó)科學(xué):信息科學(xué). 2018(05)
博士論文
[1]自然圖像中文字檢測(cè)與識(shí)別研究[D]. 姚聰.華中科技大學(xué) 2014
本文編號(hào):3243112
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3243112.html
最近更新
教材專(zhuān)著