面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究

發(fā)布時(shí)間：2021-06-15 12:32

　　目前,自然場景文本檢測已成為計(jì)算機(jī)視覺領(lǐng)域中的熱門研究方向,交通標(biāo)識文本屬于自然場景文本的一種,它在無人駕駛系統(tǒng)的視覺感知環(huán)節(jié)中占有重要地位。盡管研究者們在交通標(biāo)識檢測領(lǐng)域已取得了很好的成果,但是針對交通標(biāo)識文本檢測的研究卻很少。事實(shí)上,交通標(biāo)識文本包含了豐富且有價(jià)值的交通信息,若能將其與交通標(biāo)識的檢測相結(jié)合,則可為相關(guān)應(yīng)用的開發(fā)帶來更大的益處。本文針對國內(nèi)交通標(biāo)識文本提出了一種有效的文本檢測方法,該方法僅包括一個(gè)全卷積網(wǎng)絡(luò)（Fully Convolutional Network,FCN）和一個(gè)簡單的后處理步驟,特殊設(shè)計(jì)的頭尾文本像素定位法使得該檢測器對于尺度較長、排布稀疏的詞組檢測性能魯棒。該方法在本課題組構(gòu)建的國內(nèi)交通標(biāo)識文本數(shù)據(jù)集（CTST-1600）上進(jìn)行了測試,所獲得的F值為0.79。與此同時(shí),在公共數(shù)據(jù)集ICDAR 2013和MSRA-TD500上的測試結(jié)果與相關(guān)最先進(jìn)方法相比也獲得了具有競爭力的結(jié)果,實(shí)驗(yàn)結(jié)果表明該方法在應(yīng)對交通標(biāo)識文本檢測以及其他復(fù)雜場景文本檢測具有較好的適應(yīng)性。實(shí)驗(yàn)中發(fā)現(xiàn)第4章方法在應(yīng)對復(fù)雜光線條件下的檢測效果以及網(wǎng)絡(luò)運(yùn)行速度方面存在不足,針對上述問題...

【文章來源】：湖南師范大學(xué)湖南省 211工程院校

【文章頁數(shù)】：61 頁

【學(xué)位級別】：碩士

【部分圖文】：

VGG16的網(wǎng)絡(luò)結(jié)構(gòu)圖

殘差圖,殘差,單元

碩士學(xué)位論文82.1.2殘差網(wǎng)絡(luò)Resnet當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展到一定程度后，研究者們開始發(fā)現(xiàn)一個(gè)非常矛盾的問題，即按通常思考，網(wǎng)絡(luò)理應(yīng)層數(shù)越深則學(xué)習(xí)能力越強(qiáng)，提取特征能力越好，但實(shí)驗(yàn)結(jié)果卻證明當(dāng)模型層數(shù)增加到某種程度時(shí)，模型的效果將會不升反降，2015年，來自中國的研究者何凱明提出的殘差網(wǎng)絡(luò)Resnet完美解決了這一問題。在深度學(xué)習(xí)領(lǐng)域，憑借“深度學(xué)習(xí)網(wǎng)絡(luò)越深則表達(dá)能力越強(qiáng)”這一基本準(zhǔn)則，CNN（ConvolutionalNeuralNetwork，卷積神經(jīng)網(wǎng)絡(luò)）自Alexnet[41]的7層發(fā)展到了VGG的19層，再后來出現(xiàn)了Googlenet的22層。然而，實(shí)驗(yàn)發(fā)現(xiàn)深層的CNN網(wǎng)絡(luò)在一味地增加至一定層數(shù)后并不能繼續(xù)帶來性能的提升，反而導(dǎo)致網(wǎng)絡(luò)收斂速度變慢，測試集上的分類準(zhǔn)確率也變得更差了。這一問題給當(dāng)時(shí)的研究學(xué)者們帶來了困擾，此時(shí)Resnet的作者聯(lián)想到計(jì)算機(jī)視覺領(lǐng)域常常用到的residualrepresentation（殘差表示）這一概念，并將其用在了CNN模型的構(gòu)建中，它學(xué)習(xí)的是輸入輸出之間的殘差表示，而不像一般CNN網(wǎng)絡(luò)學(xué)習(xí)直接學(xué)習(xí)輸入輸出之間的映射關(guān)系。實(shí)驗(yàn)表明，前一種學(xué)習(xí)方法要比后一種收斂速度更快，且能夠達(dá)到更高的精度。圖2.2為殘差學(xué)習(xí)的基本單元，表示了其學(xué)習(xí)的基本思想。若將輸入設(shè)為X，將某一有參網(wǎng)絡(luò)層設(shè)為H，那么以X為輸入的此層的輸出將為H(X)。一般的CNN網(wǎng)絡(luò)（如Alexnet/VGG等）會直接通過訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá)，從而直接學(xué)習(xí)X->H(X)。而殘差學(xué)習(xí)則是旨在使用多個(gè)有參網(wǎng)絡(luò)層來學(xué)習(xí)輸入、輸出之間的參差：H(X)-X，即學(xué)習(xí)X->(H(X)-X)+X。其中X這一部分為直接的identitymapping，而H(X)-X則為有參網(wǎng)絡(luò)層要學(xué)習(xí)的輸入輸出間殘差。圖2.2殘差學(xué)習(xí)的基本單元

示意圖,全連接,卷積,示意圖

面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究92.1.3全卷積網(wǎng)絡(luò)FCN如上一小節(jié)所述，目標(biāo)檢測識別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò)，除了常見的VGGNet、ResNet、InceptionNet等以外，還有一些屬于專用網(wǎng)絡(luò)模型，它們來自于特定場景。例如FCN，它對圖像細(xì)節(jié)特征的提取頗為擅長，再比如STN[40]，它則非常適合做圖形矯正。全卷積網(wǎng)絡(luò)指刪去了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò)，最初被用來實(shí)現(xiàn)語義分割任務(wù)，如圖2.3所示，展示了FCN將全連接層轉(zhuǎn)化為卷積層的過程。FCN的優(yōu)勢在于利用反卷積（deconvolution）、上池化（unpooling）等上采樣（upsampling）操作，將特征圖放大回與原圖尺寸大小接近，然后為每一個(gè)位置上的像素都預(yù)測所屬分類，這樣便能使物體邊界的識別更為清晰。基于FCN的模型可經(jīng)由高分辨率的特征圖直接預(yù)測物體邊框，而不再依賴候選區(qū)域來回歸。FCN的另一優(yōu)點(diǎn)是它更能很好地預(yù)測不規(guī)則的物體邊界，因?yàn)樗恍枰馬-CNN系列網(wǎng)絡(luò)那樣預(yù)先在訓(xùn)練前人為設(shè)定候選框的長寬比例。為了避免對全卷積部分的輸出直接進(jìn)行反卷積所帶來的不精細(xì)的結(jié)果。FCN的另一創(chuàng)新點(diǎn)是引入了跳躍連接結(jié)構(gòu)，如圖2.4所示，概括地說，就是將不同池化層的結(jié)果進(jìn)行上采樣，然后結(jié)合這些結(jié)果來優(yōu)化輸出。對文本類任務(wù)而言，對文字進(jìn)行檢測識別時(shí)，為了辨別不同文字，往往要求文字筆畫具有較高的清晰度，而FCN最后一層特征圖的像素分辨率較高，所以FCN很適合用來提取文字特征。當(dāng)FCN被用于文字檢測識別任務(wù)時(shí)，最后一層特征圖中每個(gè)像素將被分成兩個(gè)類別：即文字（前景）和非文字（背景）。圖2.3FCN將全連接層轉(zhuǎn)化為卷積層的示意圖

【參考文獻(xiàn)】：
期刊論文
[1]聚焦難樣本的區(qū)分尺度的文字檢測方法[J]. 林泓,盧瑤瑤.  浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(08)
[2]基于深度學(xué)習(xí)的場景文字檢測綜述[J]. 姜維,張重生,殷緒成.  電子學(xué)報(bào). 2019(05)
[3]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗.  自動(dòng)化學(xué)報(bào). 2018(12)
[4]基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝.  中國科學(xué):信息科學(xué). 2018(05)

本文編號：3231060

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xixikjs/3231060.html

上一篇：自然環(huán)境下基于改進(jìn)YOLOv3網(wǎng)絡(luò)的交通標(biāo)志識別研究
下一篇：壓電驅(qū)動(dòng)撞針式液滴微噴機(jī)理及系統(tǒng)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究