基于移動(dòng)終端的自然場(chǎng)景文本定位與識(shí)別
發(fā)布時(shí)間:2021-12-19 05:55
隨著移動(dòng)終端尤其是具有拍照功能的智能手機(jī)廣泛普及,使得人們能夠輕易地捕獲海量的自然場(chǎng)景圖像。同時(shí),伴隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的飛速發(fā)展,自然場(chǎng)景文本定位與識(shí)別以及如何將現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型經(jīng)過(guò)壓縮后移植到移動(dòng)終端成為近些年的研究熱點(diǎn),這個(gè)方向的研究具有重要的理論意義和廣泛的應(yīng)用前景。本文以自然場(chǎng)景為研究背景,圍繞如何從自然場(chǎng)景中高效地識(shí)別文本信息以及深度神經(jīng)網(wǎng)絡(luò)模型壓縮展開(kāi)研究,設(shè)計(jì)并實(shí)現(xiàn)了基于移動(dòng)終端的自然場(chǎng)景文本識(shí)別系統(tǒng)。論文的主要內(nèi)容如下:(1)在自然場(chǎng)景文本定位中,從目標(biāo)檢測(cè)問(wèn)題出發(fā),在研究和總結(jié)現(xiàn)階段存在的優(yōu)秀文本定位算法之后,本文設(shè)計(jì)了一種基于YOLO v3結(jié)構(gòu)的文本定位算法,并與現(xiàn)有的CTPN算法進(jìn)行了實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明YOLO算法在推理耗時(shí)-上比CTPN算法大幅減少,但在場(chǎng)景文本定位精度上前者比后者差。(2)針對(duì)自然場(chǎng)景文本識(shí)別問(wèn)題,文本分析了一種由CNN和RNN組成的CRNN文本識(shí)別算法,通過(guò)模型的預(yù)訓(xùn)練及一系列的評(píng)價(jià)實(shí)驗(yàn),結(jié)果表明CRNN在模型尺度較小的情況下能夠勝任一般自然場(chǎng)景的文本識(shí)別任務(wù)。(3)對(duì)于深度神經(jīng)網(wǎng)絡(luò)模型壓縮,本文首先剖析了現(xiàn)有網(wǎng)絡(luò)模型移植到移動(dòng)終端...
【文章來(lái)源】:寧夏大學(xué)寧夏回族自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1網(wǎng)格單元??
Wei?Liu等人在2015年提出SSD模型,比YOLO?v丨的檢測(cè)速度更快。SSD采用全卷積網(wǎng)絡(luò)??結(jié)構(gòu),利用VGG16網(wǎng)絡(luò)中的前5層進(jìn)行特征提取,后面新增了卷積層來(lái)獲得更多的特征圖以用??于檢測(cè),網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示。??Extra?Feature?Layers??VGG-16?i??\廣_?throughPoojSjajref^?—?c〇nv?3?3??(3?(a松??\?\?、、?\?\?x?Oassrtwf:?Conv?3x3x(6x(aasses>4))???賽??-i?、r?_Yr、i?1?v^kv-?—i?|??§?-?i?-?:?-?-??I?C?w4_3?ConA?Con,??10?¥?CamViJ?M?£??__J?_**?Ca???2?;?\?V??*■?O?S?j??^1??Conv?3?3?1024?Conv?1*1m1024?C?tv?1*1x2S6?Conv?1*1*128?Cow?1x1x128?Avg?Poofcnfl?Global??Conv?3*3x512?*2?Conv?3*3k256-s2?Corw?3x3x2S6-s2??圖2-2?SSD網(wǎng)絡(luò)結(jié)構(gòu)圖??為了解決YOLO?vl對(duì)于小目標(biāo)檢測(cè)問(wèn)題,SSD從不同尺寸的特征圖產(chǎn)生預(yù)測(cè)。尺寸較大的??特征圖負(fù)責(zé)檢測(cè)相對(duì)較小的目標(biāo),尺寸較小的特征圖負(fù)貴檢測(cè)相對(duì)較大的冃標(biāo)。與YOLO?v丨最??后采取全連接層不同,SSD直接在不同尺寸的特征圖上使用卷積進(jìn)行檢測(cè),對(duì)于mxnxp的特征??圖,只需要用3?x?3?x?P的卷積核得到檢測(cè)值,YOLO?v2和YOLO?v3也采用了這一方法。??在YOLO中
mK?mgr??=J?i?0??t-「T?\??圖2-3?SVT數(shù)據(jù)集??Street?View?Text?(SVT)數(shù)據(jù)集包含從谷歌街景中獲取的349幅圖片,其中100張圖片作為訓(xùn)??練集,其余作為測(cè)試集。這些數(shù)據(jù)中的圖像文本顯示出高變異性,通常分辨率較低。數(shù)據(jù)集中的??圖像文本通常來(lái)自Google街景中的商業(yè)標(biāo)識(shí),商業(yè)標(biāo)識(shí)很容易通過(guò)地理信息搜索的到。這些因??素使得SVT數(shù)據(jù)集特別適合在自然場(chǎng)景中進(jìn)行文本定位。??mm??圖2-4?Tota卜Text數(shù)據(jù)集??Total-Text數(shù)據(jù)集比現(xiàn)有文本數(shù)據(jù)集更全面,全部由1555幅圖像組成,具有3種以上不同的??文本方向:水平方向、多方向和彎曲方向。與COCO-Text數(shù)據(jù)集相比,COCO-Text中每張文本實(shí)??例為2.73,且只包含水平文本和多尺度文本。相反,Total-Text數(shù)據(jù)集中每張文本實(shí)例為7.73,其??不僅包含水平文本和多尺度文本,還加入了扭曲文本,該數(shù)據(jù)集主要負(fù)責(zé)文本定位任務(wù)。??-12?-??
【參考文獻(xiàn)】:
期刊論文
[1]圖像中的文本定位技術(shù)研究綜述[J]. 晉瑾,平西建,張濤,陳明貴. 計(jì)算機(jī)應(yīng)用研究. 2007(06)
本文編號(hào):3543883
【文章來(lái)源】:寧夏大學(xué)寧夏回族自治區(qū) 211工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1網(wǎng)格單元??
Wei?Liu等人在2015年提出SSD模型,比YOLO?v丨的檢測(cè)速度更快。SSD采用全卷積網(wǎng)絡(luò)??結(jié)構(gòu),利用VGG16網(wǎng)絡(luò)中的前5層進(jìn)行特征提取,后面新增了卷積層來(lái)獲得更多的特征圖以用??于檢測(cè),網(wǎng)絡(luò)結(jié)構(gòu)如圖2-2所示。??Extra?Feature?Layers??VGG-16?i??\廣_?throughPoojSjajref^?—?c〇nv?3?3??(3?(a松??\?\?、、?\?\?x?Oassrtwf:?Conv?3x3x(6x(aasses>4))???賽??-i?、r?_Yr、i?1?v^kv-?—i?|??§?-?i?-?:?-?-??I?C?w4_3?ConA?Con,??10?¥?CamViJ?M?£??__J?_**?Ca???2?;?\?V??*■?O?S?j??^1??Conv?3?3?1024?Conv?1*1m1024?C?tv?1*1x2S6?Conv?1*1*128?Cow?1x1x128?Avg?Poofcnfl?Global??Conv?3*3x512?*2?Conv?3*3k256-s2?Corw?3x3x2S6-s2??圖2-2?SSD網(wǎng)絡(luò)結(jié)構(gòu)圖??為了解決YOLO?vl對(duì)于小目標(biāo)檢測(cè)問(wèn)題,SSD從不同尺寸的特征圖產(chǎn)生預(yù)測(cè)。尺寸較大的??特征圖負(fù)責(zé)檢測(cè)相對(duì)較小的目標(biāo),尺寸較小的特征圖負(fù)貴檢測(cè)相對(duì)較大的冃標(biāo)。與YOLO?v丨最??后采取全連接層不同,SSD直接在不同尺寸的特征圖上使用卷積進(jìn)行檢測(cè),對(duì)于mxnxp的特征??圖,只需要用3?x?3?x?P的卷積核得到檢測(cè)值,YOLO?v2和YOLO?v3也采用了這一方法。??在YOLO中
mK?mgr??=J?i?0??t-「T?\??圖2-3?SVT數(shù)據(jù)集??Street?View?Text?(SVT)數(shù)據(jù)集包含從谷歌街景中獲取的349幅圖片,其中100張圖片作為訓(xùn)??練集,其余作為測(cè)試集。這些數(shù)據(jù)中的圖像文本顯示出高變異性,通常分辨率較低。數(shù)據(jù)集中的??圖像文本通常來(lái)自Google街景中的商業(yè)標(biāo)識(shí),商業(yè)標(biāo)識(shí)很容易通過(guò)地理信息搜索的到。這些因??素使得SVT數(shù)據(jù)集特別適合在自然場(chǎng)景中進(jìn)行文本定位。??mm??圖2-4?Tota卜Text數(shù)據(jù)集??Total-Text數(shù)據(jù)集比現(xiàn)有文本數(shù)據(jù)集更全面,全部由1555幅圖像組成,具有3種以上不同的??文本方向:水平方向、多方向和彎曲方向。與COCO-Text數(shù)據(jù)集相比,COCO-Text中每張文本實(shí)??例為2.73,且只包含水平文本和多尺度文本。相反,Total-Text數(shù)據(jù)集中每張文本實(shí)例為7.73,其??不僅包含水平文本和多尺度文本,還加入了扭曲文本,該數(shù)據(jù)集主要負(fù)責(zé)文本定位任務(wù)。??-12?-??
【參考文獻(xiàn)】:
期刊論文
[1]圖像中的文本定位技術(shù)研究綜述[J]. 晉瑾,平西建,張濤,陳明貴. 計(jì)算機(jī)應(yīng)用研究. 2007(06)
本文編號(hào):3543883
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3543883.html
最近更新
教材專(zhuān)著