基于深度學(xué)習(xí)的場(chǎng)景文本檢測(cè)的研究
發(fā)布時(shí)間:2021-01-08 05:58
自然場(chǎng)景圖像中的文本包含著豐富而精準(zhǔn)的語義信息,是圖像中重要的信息來源,這使檢測(cè)和識(shí)別場(chǎng)景圖像中的文本成為一個(gè)具有巨大應(yīng)用價(jià)值的研究主題。近年來,場(chǎng)景文本的檢測(cè)和識(shí)別得到了越來越多研究者的關(guān)注,在該領(lǐng)域不斷有新的方法被提出。早期的場(chǎng)景文本檢測(cè)識(shí)別方法基本上都是基于人工設(shè)計(jì)的特征的,隨著深度學(xué)習(xí)的復(fù)興,深度網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力使基于深度學(xué)習(xí),特別是基于卷積神經(jīng)網(wǎng)絡(luò)的方法逐漸成為該領(lǐng)域的主流。在該背景下,本文的主要工作是,基于深度卷積網(wǎng)絡(luò)對(duì)場(chǎng)景文本檢測(cè)問題進(jìn)行研究。本文針對(duì)于多尺度場(chǎng)景文本尤其是小文本檢測(cè)的問題,提出了一個(gè)新的場(chǎng)景文本檢測(cè)框架——基于特征金字塔的場(chǎng)景文本檢測(cè)器。該框架基于通用目標(biāo)檢測(cè)領(lǐng)域的SSD框架,并引入特征金字塔機(jī)制,通過一種自頂向下特征融合方法,將卷積神經(jīng)網(wǎng)絡(luò)中不同深度的特征進(jìn)行融合產(chǎn)生新的特征,使這些新特征在具有較強(qiáng)判別力的同時(shí)又保留較多圖像的局部細(xì)節(jié)信息。通過在新特征上進(jìn)行文本檢測(cè),使該框架在檢測(cè)多尺度文本尤其是小文本方面的效果得到了提升。該方法在ICDAR2013數(shù)據(jù)集上達(dá)到87.6%的F-score。目前大多數(shù)基于深度網(wǎng)絡(luò)的場(chǎng)景文本檢測(cè)方法需要大量擁有包圍盒...
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
FasterR-CNN中的RPNFigure2-4RPNinFasterR-CNN
圖 2-5 SSD 檢測(cè)流程Figure 2-5 Detection pipeline of SSD與 R-CNN 系列方法只在 CNN 最高層 feature map 上進(jìn)行檢測(cè)不同,SSDN 中多個(gè)不同層的 feature map 上分別進(jìn)行檢測(cè)來解決多尺度問題。在這ature map 中,隨著 CNN 的加深,feature map 的尺寸越來越小,而與該 feaap 相關(guān)聯(lián)的 default box 的尺寸則越來越大。圖 2-6 給出了示例,其中圖(a)中框表示 ground-truth,圖(b)(c)中的虛線框表示 feature map 某個(gè)位置所關(guān)聯(lián)fault box,虛線框?yàn)榧t色表示 default box 與 ground-truth 相匹配?梢钥闯8 的 feature map 相關(guān)聯(lián)的 default box 尺寸都過小,無法包圍到輸入圖像中ound-truth,而在與 4×4 的 feature map 相關(guān)聯(lián)的 default box 中可以找到合適匹配 ground-truth。也就是說,SSD 的這種在不同層次 feature map 上設(shè)置不度 defaultbox 的設(shè)計(jì),可以有效地提高 defaultbox 匹配到不同尺度 ground-可能性。這對(duì)于整個(gè)框架來說是非常重要的,因?yàn)闊o論是訓(xùn)練還是測(cè)試,能功進(jìn)行的一個(gè)重要前提是,default box 總能匹配到 ground-truth。
圖 3-1 FPTD 網(wǎng)絡(luò)結(jié)構(gòu)Figure 3-1 The architecture of FPTD中的相似,是一個(gè)經(jīng)過調(diào)整之后的 VGG-16 網(wǎng)絡(luò)[47]。主干網(wǎng)絡(luò)與 VGG-16 的結(jié)構(gòu)配置對(duì)比在表 3-1 中展示,其中,卷積層的參數(shù)格式為[k×k, p, s, c](k:卷積核尺寸,p:填充大小,s:步長,c:輸出通道數(shù)),最大池化層參數(shù)格式為[k×k,p,s],全連接層參數(shù)格式為[c](c:輸出神經(jīng)元個(gè)數(shù))。由表 3-1 可以看出,F(xiàn)PTD 的主干網(wǎng)絡(luò)是一個(gè)由 21 個(gè)可學(xué)習(xí)層(全部為卷積層)構(gòu)成的 CNN。其中,前 13 層直接繼承了 VGG-16 網(wǎng)絡(luò)的前 13 層配置(conv1_1~conv5_3)。在此基礎(chǔ)上,對(duì) VGG-16 進(jìn)行如下調(diào)整:(1) 將 pool5 的池化步長由 2 變?yōu)?1,池化窗口由 2×2 變?yōu)?3×3。該改動(dòng)使feature map 的分辨率在這一層得到保持。(2) 將 fc6 和 fc7 這兩個(gè)全連接層換為卷積層 conv6 和 conv7。其中,conv6層使用了atrous卷積[51]對(duì)featuremap進(jìn)行稀疏采樣。該層結(jié)合第(1)步中的做法,
本文編號(hào):2964052
【文章來源】:北京工業(yè)大學(xué)北京市 211工程院校
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
FasterR-CNN中的RPNFigure2-4RPNinFasterR-CNN
圖 2-5 SSD 檢測(cè)流程Figure 2-5 Detection pipeline of SSD與 R-CNN 系列方法只在 CNN 最高層 feature map 上進(jìn)行檢測(cè)不同,SSDN 中多個(gè)不同層的 feature map 上分別進(jìn)行檢測(cè)來解決多尺度問題。在這ature map 中,隨著 CNN 的加深,feature map 的尺寸越來越小,而與該 feaap 相關(guān)聯(lián)的 default box 的尺寸則越來越大。圖 2-6 給出了示例,其中圖(a)中框表示 ground-truth,圖(b)(c)中的虛線框表示 feature map 某個(gè)位置所關(guān)聯(lián)fault box,虛線框?yàn)榧t色表示 default box 與 ground-truth 相匹配?梢钥闯8 的 feature map 相關(guān)聯(lián)的 default box 尺寸都過小,無法包圍到輸入圖像中ound-truth,而在與 4×4 的 feature map 相關(guān)聯(lián)的 default box 中可以找到合適匹配 ground-truth。也就是說,SSD 的這種在不同層次 feature map 上設(shè)置不度 defaultbox 的設(shè)計(jì),可以有效地提高 defaultbox 匹配到不同尺度 ground-可能性。這對(duì)于整個(gè)框架來說是非常重要的,因?yàn)闊o論是訓(xùn)練還是測(cè)試,能功進(jìn)行的一個(gè)重要前提是,default box 總能匹配到 ground-truth。
圖 3-1 FPTD 網(wǎng)絡(luò)結(jié)構(gòu)Figure 3-1 The architecture of FPTD中的相似,是一個(gè)經(jīng)過調(diào)整之后的 VGG-16 網(wǎng)絡(luò)[47]。主干網(wǎng)絡(luò)與 VGG-16 的結(jié)構(gòu)配置對(duì)比在表 3-1 中展示,其中,卷積層的參數(shù)格式為[k×k, p, s, c](k:卷積核尺寸,p:填充大小,s:步長,c:輸出通道數(shù)),最大池化層參數(shù)格式為[k×k,p,s],全連接層參數(shù)格式為[c](c:輸出神經(jīng)元個(gè)數(shù))。由表 3-1 可以看出,F(xiàn)PTD 的主干網(wǎng)絡(luò)是一個(gè)由 21 個(gè)可學(xué)習(xí)層(全部為卷積層)構(gòu)成的 CNN。其中,前 13 層直接繼承了 VGG-16 網(wǎng)絡(luò)的前 13 層配置(conv1_1~conv5_3)。在此基礎(chǔ)上,對(duì) VGG-16 進(jìn)行如下調(diào)整:(1) 將 pool5 的池化步長由 2 變?yōu)?1,池化窗口由 2×2 變?yōu)?3×3。該改動(dòng)使feature map 的分辨率在這一層得到保持。(2) 將 fc6 和 fc7 這兩個(gè)全連接層換為卷積層 conv6 和 conv7。其中,conv6層使用了atrous卷積[51]對(duì)featuremap進(jìn)行稀疏采樣。該層結(jié)合第(1)步中的做法,
本文編號(hào):2964052
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2964052.html
最近更新
教材專著