基于深度學(xué)習(xí)的場景文本檢測的研究

發(fā)布時間：2021-01-08 05:58

　　自然場景圖像中的文本包含著豐富而精準(zhǔn)的語義信息,是圖像中重要的信息來源,這使檢測和識別場景圖像中的文本成為一個具有巨大應(yīng)用價值的研究主題。近年來,場景文本的檢測和識別得到了越來越多研究者的關(guān)注,在該領(lǐng)域不斷有新的方法被提出。早期的場景文本檢測識別方法基本上都是基于人工設(shè)計的特征的,隨著深度學(xué)習(xí)的復(fù)興,深度網(wǎng)絡(luò)強(qiáng)大的特征學(xué)習(xí)能力使基于深度學(xué)習(xí),特別是基于卷積神經(jīng)網(wǎng)絡(luò)的方法逐漸成為該領(lǐng)域的主流。在該背景下,本文的主要工作是,基于深度卷積網(wǎng)絡(luò)對場景文本檢測問題進(jìn)行研究。本文針對于多尺度場景文本尤其是小文本檢測的問題,提出了一個新的場景文本檢測框架——基于特征金字塔的場景文本檢測器。該框架基于通用目標(biāo)檢測領(lǐng)域的SSD框架,并引入特征金字塔機(jī)制,通過一種自頂向下特征融合方法,將卷積神經(jīng)網(wǎng)絡(luò)中不同深度的特征進(jìn)行融合產(chǎn)生新的特征,使這些新特征在具有較強(qiáng)判別力的同時又保留較多圖像的局部細(xì)節(jié)信息。通過在新特征上進(jìn)行文本檢測,使該框架在檢測多尺度文本尤其是小文本方面的效果得到了提升。該方法在ICDAR2013數(shù)據(jù)集上達(dá)到87.6%的F-score。目前大多數(shù)基于深度網(wǎng)絡(luò)的場景文本檢測方法需要大量擁有包圍盒...

【文章來源】：北京工業(yè)大學(xué)北京市 211工程院校

【文章頁數(shù)】：85 頁

【學(xué)位級別】：碩士

【部分圖文】：

FasterR-CNN中的RPNFigure2-4RPNinFasterR-CNN

檢測流程

圖 2-5 SSD 檢測流程Figure 2-5 Detection pipeline of SSD與 R-CNN 系列方法只在 CNN 最高層 feature map 上進(jìn)行檢測不同，SSDN 中多個不同層的 feature map 上分別進(jìn)行檢測來解決多尺度問題。在這ature map 中，隨著 CNN 的加深，feature map 的尺寸越來越小，而與該 feaap 相關(guān)聯(lián)的 default box 的尺寸則越來越大。圖 2-6 給出了示例，其中圖(a)中框表示 ground-truth，圖(b)(c)中的虛線框表示 feature map 某個位置所關(guān)聯(lián)fault box，虛線框?yàn)榧t色表示 default box 與 ground-truth 相匹配�？梢钥闯�8 的 feature map 相關(guān)聯(lián)的 default box 尺寸都過小，無法包圍到輸入圖像中ound-truth，而在與 4×4 的 feature map 相關(guān)聯(lián)的 default box 中可以找到合適匹配 ground-truth。也就是說，SSD 的這種在不同層次 feature map 上設(shè)置不度 defaultbox 的設(shè)計，可以有效地提高 defaultbox 匹配到不同尺度 ground-可能性。這對于整個框架來說是非常重要的，因?yàn)闊o論是訓(xùn)練還是測試，能功進(jìn)行的一個重要前提是，default box 總能匹配到 ground-truth。

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),卷積

圖 3-1 FPTD 網(wǎng)絡(luò)結(jié)構(gòu)Figure 3-1 The architecture of FPTD中的相似，是一個經(jīng)過調(diào)整之后的 VGG-16 網(wǎng)絡(luò)[47]。主干網(wǎng)絡(luò)與 VGG-16 的結(jié)構(gòu)配置對比在表 3-1 中展示，其中，卷積層的參數(shù)格式為[k×k, p, s, c]（k：卷積核尺寸，p：填充大小，s：步長，c：輸出通道數(shù)），最大池化層參數(shù)格式為[k×k,p,s]，全連接層參數(shù)格式為[c]（c：輸出神經(jīng)元個數(shù)）。由表 3-1 可以看出，F(xiàn)PTD 的主干網(wǎng)絡(luò)是一個由 21 個可學(xué)習(xí)層（全部為卷積層）構(gòu)成的 CNN。其中，前 13 層直接繼承了 VGG-16 網(wǎng)絡(luò)的前 13 層配置（conv1_1~conv5_3）。在此基礎(chǔ)上，對 VGG-16 進(jìn)行如下調(diào)整：(1) 將 pool5 的池化步長由 2 變?yōu)?1，池化窗口由 2×2 變?yōu)?3×3。該改動使feature map 的分辨率在這一層得到保持。(2) 將 fc6 和 fc7 這兩個全連接層換為卷積層 conv6 和 conv7。其中，conv6層使用了atrous卷積[51]對featuremap進(jìn)行稀疏采樣。該層結(jié)合第(1)步中的做法，

本文編號：2964052

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2964052.html

上一篇：基于μC/OS-Ⅱ的彎箍機(jī)控制平臺的設(shè)計與研究
下一篇：全向運(yùn)動仿蠕蟲柔性機(jī)器人的結(jié)構(gòu)設(shè)計

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的場景文本檢測的研究