面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究
發(fā)布時(shí)間:2021-06-15 12:32
目前,自然場景文本檢測已成為計(jì)算機(jī)視覺領(lǐng)域中的熱門研究方向,交通標(biāo)識文本屬于自然場景文本的一種,它在無人駕駛系統(tǒng)的視覺感知環(huán)節(jié)中占有重要地位。盡管研究者們在交通標(biāo)識檢測領(lǐng)域已取得了很好的成果,但是針對交通標(biāo)識文本檢測的研究卻很少。事實(shí)上,交通標(biāo)識文本包含了豐富且有價(jià)值的交通信息,若能將其與交通標(biāo)識的檢測相結(jié)合,則可為相關(guān)應(yīng)用的開發(fā)帶來更大的益處。本文針對國內(nèi)交通標(biāo)識文本提出了一種有效的文本檢測方法,該方法僅包括一個(gè)全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)和一個(gè)簡單的后處理步驟,特殊設(shè)計(jì)的頭尾文本像素定位法使得該檢測器對于尺度較長、排布稀疏的詞組檢測性能魯棒。該方法在本課題組構(gòu)建的國內(nèi)交通標(biāo)識文本數(shù)據(jù)集(CTST-1600)上進(jìn)行了測試,所獲得的F值為0.79。與此同時(shí),在公共數(shù)據(jù)集ICDAR 2013和MSRA-TD500上的測試結(jié)果與相關(guān)最先進(jìn)方法相比也獲得了具有競爭力的結(jié)果,實(shí)驗(yàn)結(jié)果表明該方法在應(yīng)對交通標(biāo)識文本檢測以及其他復(fù)雜場景文本檢測具有較好的適應(yīng)性。實(shí)驗(yàn)中發(fā)現(xiàn)第4章方法在應(yīng)對復(fù)雜光線條件下的檢測效果以及網(wǎng)絡(luò)運(yùn)行速度方面存在不足,針對上述問題...
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
VGG16的網(wǎng)絡(luò)結(jié)構(gòu)圖
碩士學(xué)位論文82.1.2殘差網(wǎng)絡(luò)Resnet當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展到一定程度后,研究者們開始發(fā)現(xiàn)一個(gè)非常矛盾的問題,即按通常思考,網(wǎng)絡(luò)理應(yīng)層數(shù)越深則學(xué)習(xí)能力越強(qiáng),提取特征能力越好,但實(shí)驗(yàn)結(jié)果卻證明當(dāng)模型層數(shù)增加到某種程度時(shí),模型的效果將會不升反降,2015年,來自中國的研究者何凱明提出的殘差網(wǎng)絡(luò)Resnet完美解決了這一問題。在深度學(xué)習(xí)領(lǐng)域,憑借“深度學(xué)習(xí)網(wǎng)絡(luò)越深則表達(dá)能力越強(qiáng)”這一基本準(zhǔn)則,CNN(ConvolutionalNeuralNetwork,卷積神經(jīng)網(wǎng)絡(luò))自Alexnet[41]的7層發(fā)展到了VGG的19層,再后來出現(xiàn)了Googlenet的22層。然而,實(shí)驗(yàn)發(fā)現(xiàn)深層的CNN網(wǎng)絡(luò)在一味地增加至一定層數(shù)后并不能繼續(xù)帶來性能的提升,反而導(dǎo)致網(wǎng)絡(luò)收斂速度變慢,測試集上的分類準(zhǔn)確率也變得更差了。這一問題給當(dāng)時(shí)的研究學(xué)者們帶來了困擾,此時(shí)Resnet的作者聯(lián)想到計(jì)算機(jī)視覺領(lǐng)域常常用到的residualrepresentation(殘差表示)這一概念,并將其用在了CNN模型的構(gòu)建中,它學(xué)習(xí)的是輸入輸出之間的殘差表示,而不像一般CNN網(wǎng)絡(luò)學(xué)習(xí)直接學(xué)習(xí)輸入輸出之間的映射關(guān)系。實(shí)驗(yàn)表明,前一種學(xué)習(xí)方法要比后一種收斂速度更快,且能夠達(dá)到更高的精度。圖2.2為殘差學(xué)習(xí)的基本單元,表示了其學(xué)習(xí)的基本思想。若將輸入設(shè)為X,將某一有參網(wǎng)絡(luò)層設(shè)為H,那么以X為輸入的此層的輸出將為H(X)。一般的CNN網(wǎng)絡(luò)(如Alexnet/VGG等)會直接通過訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá),從而直接學(xué)習(xí)X->H(X)。而殘差學(xué)習(xí)則是旨在使用多個(gè)有參網(wǎng)絡(luò)層來學(xué)習(xí)輸入、輸出之間的參差:H(X)-X,即學(xué)習(xí)X->(H(X)-X)+X。其中X這一部分為直接的identitymapping,而H(X)-X則為有參網(wǎng)絡(luò)層要學(xué)習(xí)的輸入輸出間殘差。圖2.2殘差學(xué)習(xí)的基本單元
面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究92.1.3全卷積網(wǎng)絡(luò)FCN如上一小節(jié)所述,目標(biāo)檢測識別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),除了常見的VGGNet、ResNet、InceptionNet等以外,還有一些屬于專用網(wǎng)絡(luò)模型,它們來自于特定場景。例如FCN,它對圖像細(xì)節(jié)特征的提取頗為擅長,再比如STN[40],它則非常適合做圖形矯正。全卷積網(wǎng)絡(luò)指刪去了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò),最初被用來實(shí)現(xiàn)語義分割任務(wù),如圖2.3所示,展示了FCN將全連接層轉(zhuǎn)化為卷積層的過程。FCN的優(yōu)勢在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作,將特征圖放大回與原圖尺寸大小接近,然后為每一個(gè)位置上的像素都預(yù)測所屬分類,這樣便能使物體邊界的識別更為清晰。基于FCN的模型可經(jīng)由高分辨率的特征圖直接預(yù)測物體邊框,而不再依賴候選區(qū)域來回歸。FCN的另一優(yōu)點(diǎn)是它更能很好地預(yù)測不規(guī)則的物體邊界,因?yàn)樗恍枰馬-CNN系列網(wǎng)絡(luò)那樣預(yù)先在訓(xùn)練前人為設(shè)定候選框的長寬比例。為了避免對全卷積部分的輸出直接進(jìn)行反卷積所帶來的不精細(xì)的結(jié)果。FCN的另一創(chuàng)新點(diǎn)是引入了跳躍連接結(jié)構(gòu),如圖2.4所示,概括地說,就是將不同池化層的結(jié)果進(jìn)行上采樣,然后結(jié)合這些結(jié)果來優(yōu)化輸出。對文本類任務(wù)而言,對文字進(jìn)行檢測識別時(shí),為了辨別不同文字,往往要求文字筆畫具有較高的清晰度,而FCN最后一層特征圖的像素分辨率較高,所以FCN很適合用來提取文字特征。當(dāng)FCN被用于文字檢測識別任務(wù)時(shí),最后一層特征圖中每個(gè)像素將被分成兩個(gè)類別:即文字(前景)和非文字(背景)。圖2.3FCN將全連接層轉(zhuǎn)化為卷積層的示意圖
【參考文獻(xiàn)】:
期刊論文
[1]聚焦難樣本的區(qū)分尺度的文字檢測方法[J]. 林泓,盧瑤瑤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(08)
[2]基于深度學(xué)習(xí)的場景文字檢測綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[3]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[4]基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國科學(xué):信息科學(xué). 2018(05)
本文編號:3231060
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
VGG16的網(wǎng)絡(luò)結(jié)構(gòu)圖
碩士學(xué)位論文82.1.2殘差網(wǎng)絡(luò)Resnet當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展到一定程度后,研究者們開始發(fā)現(xiàn)一個(gè)非常矛盾的問題,即按通常思考,網(wǎng)絡(luò)理應(yīng)層數(shù)越深則學(xué)習(xí)能力越強(qiáng),提取特征能力越好,但實(shí)驗(yàn)結(jié)果卻證明當(dāng)模型層數(shù)增加到某種程度時(shí),模型的效果將會不升反降,2015年,來自中國的研究者何凱明提出的殘差網(wǎng)絡(luò)Resnet完美解決了這一問題。在深度學(xué)習(xí)領(lǐng)域,憑借“深度學(xué)習(xí)網(wǎng)絡(luò)越深則表達(dá)能力越強(qiáng)”這一基本準(zhǔn)則,CNN(ConvolutionalNeuralNetwork,卷積神經(jīng)網(wǎng)絡(luò))自Alexnet[41]的7層發(fā)展到了VGG的19層,再后來出現(xiàn)了Googlenet的22層。然而,實(shí)驗(yàn)發(fā)現(xiàn)深層的CNN網(wǎng)絡(luò)在一味地增加至一定層數(shù)后并不能繼續(xù)帶來性能的提升,反而導(dǎo)致網(wǎng)絡(luò)收斂速度變慢,測試集上的分類準(zhǔn)確率也變得更差了。這一問題給當(dāng)時(shí)的研究學(xué)者們帶來了困擾,此時(shí)Resnet的作者聯(lián)想到計(jì)算機(jī)視覺領(lǐng)域常常用到的residualrepresentation(殘差表示)這一概念,并將其用在了CNN模型的構(gòu)建中,它學(xué)習(xí)的是輸入輸出之間的殘差表示,而不像一般CNN網(wǎng)絡(luò)學(xué)習(xí)直接學(xué)習(xí)輸入輸出之間的映射關(guān)系。實(shí)驗(yàn)表明,前一種學(xué)習(xí)方法要比后一種收斂速度更快,且能夠達(dá)到更高的精度。圖2.2為殘差學(xué)習(xí)的基本單元,表示了其學(xué)習(xí)的基本思想。若將輸入設(shè)為X,將某一有參網(wǎng)絡(luò)層設(shè)為H,那么以X為輸入的此層的輸出將為H(X)。一般的CNN網(wǎng)絡(luò)(如Alexnet/VGG等)會直接通過訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá),從而直接學(xué)習(xí)X->H(X)。而殘差學(xué)習(xí)則是旨在使用多個(gè)有參網(wǎng)絡(luò)層來學(xué)習(xí)輸入、輸出之間的參差:H(X)-X,即學(xué)習(xí)X->(H(X)-X)+X。其中X這一部分為直接的identitymapping,而H(X)-X則為有參網(wǎng)絡(luò)層要學(xué)習(xí)的輸入輸出間殘差。圖2.2殘差學(xué)習(xí)的基本單元
面向復(fù)雜自然場景的交通標(biāo)識文本檢測研究92.1.3全卷積網(wǎng)絡(luò)FCN如上一小節(jié)所述,目標(biāo)檢測識別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),除了常見的VGGNet、ResNet、InceptionNet等以外,還有一些屬于專用網(wǎng)絡(luò)模型,它們來自于特定場景。例如FCN,它對圖像細(xì)節(jié)特征的提取頗為擅長,再比如STN[40],它則非常適合做圖形矯正。全卷積網(wǎng)絡(luò)指刪去了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò),最初被用來實(shí)現(xiàn)語義分割任務(wù),如圖2.3所示,展示了FCN將全連接層轉(zhuǎn)化為卷積層的過程。FCN的優(yōu)勢在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作,將特征圖放大回與原圖尺寸大小接近,然后為每一個(gè)位置上的像素都預(yù)測所屬分類,這樣便能使物體邊界的識別更為清晰。基于FCN的模型可經(jīng)由高分辨率的特征圖直接預(yù)測物體邊框,而不再依賴候選區(qū)域來回歸。FCN的另一優(yōu)點(diǎn)是它更能很好地預(yù)測不規(guī)則的物體邊界,因?yàn)樗恍枰馬-CNN系列網(wǎng)絡(luò)那樣預(yù)先在訓(xùn)練前人為設(shè)定候選框的長寬比例。為了避免對全卷積部分的輸出直接進(jìn)行反卷積所帶來的不精細(xì)的結(jié)果。FCN的另一創(chuàng)新點(diǎn)是引入了跳躍連接結(jié)構(gòu),如圖2.4所示,概括地說,就是將不同池化層的結(jié)果進(jìn)行上采樣,然后結(jié)合這些結(jié)果來優(yōu)化輸出。對文本類任務(wù)而言,對文字進(jìn)行檢測識別時(shí),為了辨別不同文字,往往要求文字筆畫具有較高的清晰度,而FCN最后一層特征圖的像素分辨率較高,所以FCN很適合用來提取文字特征。當(dāng)FCN被用于文字檢測識別任務(wù)時(shí),最后一層特征圖中每個(gè)像素將被分成兩個(gè)類別:即文字(前景)和非文字(背景)。圖2.3FCN將全連接層轉(zhuǎn)化為卷積層的示意圖
【參考文獻(xiàn)】:
期刊論文
[1]聚焦難樣本的區(qū)分尺度的文字檢測方法[J]. 林泓,盧瑤瑤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(08)
[2]基于深度學(xué)習(xí)的場景文字檢測綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[3]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[4]基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國科學(xué):信息科學(xué). 2018(05)
本文編號:3231060
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3231060.html
最近更新
教材專著