基于SSD算法的自然場(chǎng)景文字檢測(cè)研究
發(fā)布時(shí)間:2021-09-02 17:39
計(jì)算機(jī)視覺(jué)領(lǐng)域一直吸引著研究人員不斷的探究,該領(lǐng)域技術(shù)可應(yīng)用于生產(chǎn)控制、智慧城市、信息提取等諸多方面,其中對(duì)自然場(chǎng)景中文字的檢測(cè)是提取出圖像中高級(jí)文字信息的關(guān)鍵技術(shù)之一。近年來(lái)伴隨著深度學(xué)習(xí)技術(shù)的發(fā)展,大量自然場(chǎng)景文字檢測(cè)方法被提出,如何融合這些方法的優(yōu)點(diǎn)達(dá)到更好的檢測(cè)效果,是該領(lǐng)域的研究熱點(diǎn)。本文在研究多種自然場(chǎng)景文字檢測(cè)模型的基礎(chǔ)上,提出一種基于SSD算法的自然場(chǎng)景文字檢測(cè)模型。該模型利用本文提出的外部交互校正方法,融合了語(yǔ)義分割和目標(biāo)檢測(cè)這兩種經(jīng)典文字檢測(cè)框架。所提出的融合方法同時(shí)運(yùn)行語(yǔ)義分割算法和目標(biāo)檢測(cè)算法分別獲得文字檢測(cè)結(jié)果,再將兩種方法的檢測(cè)結(jié)果進(jìn)行相互修正。為了改進(jìn)現(xiàn)有文字檢測(cè)方法,本文首先對(duì)SSD算法進(jìn)行改造,引入多層Inception結(jié)構(gòu),同時(shí)根據(jù)自然場(chǎng)景文字特點(diǎn)修改默認(rèn)文字邊界框的尺寸。在分別獲得改進(jìn)后SSD算法和語(yǔ)義分割算法的檢測(cè)結(jié)果后,使用本文提出的邊界框增強(qiáng)模塊,逐項(xiàng)利用語(yǔ)義分割結(jié)果計(jì)算SSD檢測(cè)結(jié)果的區(qū)域中值概率,并根據(jù)概率值判斷該文字邊界框保留狀態(tài)。為了進(jìn)一步使用語(yǔ)義分割結(jié)果,本文提出了一個(gè)語(yǔ)義邊界框模塊,該模塊使用全連接條件隨機(jī)場(chǎng)處理語(yǔ)義分割結(jié)果中的文...
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然場(chǎng)景圖像中包含文字信息文字檢測(cè)技術(shù)是諸如文字識(shí)別技術(shù)等諸多技術(shù)的一個(gè)基礎(chǔ)技術(shù),它有著豐富的應(yīng)
文字檢測(cè)技術(shù)對(duì)其進(jìn)行識(shí)別,并在工廠的生產(chǎn)數(shù)據(jù)庫(kù)中判定是否組裝和連接正確,對(duì)所生產(chǎn)的產(chǎn)品進(jìn)行自動(dòng)化檢測(cè)。圖1.2 自然場(chǎng)景文字檢測(cè)難點(diǎn)示意圖圖像是以二維矩陣的形式存儲(chǔ)在存儲(chǔ)設(shè)備當(dāng)中,通常使用紅、綠、藍(lán)即 RGB 來(lái)表示所拍攝對(duì)象的形狀、顏色等底層信息。與人不同的是,計(jì)算機(jī)需要從圖像的像素矩陣這種底層信息中,通過(guò)一定的處理手段獲取圖像中的目標(biāo)信息,如何賦予計(jì)算機(jī)這種能力是一件繁瑣且困難的事情。自然場(chǎng)景圖像中的文字具有極大的多樣性,例如全球共有 4000 多種文字,其中使用人口較多的就有幾百種,這么多文字種類(lèi)的樣式迥異,同時(shí)在自然場(chǎng)景圖像中的文字大小、所處的位置、字體和顏色、圖像中文字與背景的對(duì)比度、圖像明暗程度、受到不均勻光照等等都有所不同;同時(shí)由于拍攝的隨意性和文字本身的特性,文本行可能是以各種角度甚至是彎曲排列的;由于是自然場(chǎng)景中的文字
達(dá)到文字檢測(cè)的目標(biāo)。]提出了一種新的自然圖像文本檢測(cè)方法,該方法 3D 自然場(chǎng)景文字;其次,使用合成的圖像訓(xùn)練絡(luò)在圖像中的所有位置和多個(gè)尺度上都能有效地法框圖如圖 1.3 所示。
【參考文獻(xiàn)】:
博士論文
[1]自然場(chǎng)景圖像中的文字檢測(cè)[D]. 孫雷.中國(guó)科學(xué)技術(shù)大學(xué) 2015
[2]自然圖像中文字檢測(cè)與識(shí)別研究[D]. 姚聰.華中科技大學(xué) 2014
碩士論文
[1]自然場(chǎng)景圖像中的文字檢測(cè)關(guān)鍵算法研究[D]. 田彪.南京郵電大學(xué) 2016
本文編號(hào):3379442
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
自然場(chǎng)景圖像中包含文字信息文字檢測(cè)技術(shù)是諸如文字識(shí)別技術(shù)等諸多技術(shù)的一個(gè)基礎(chǔ)技術(shù),它有著豐富的應(yīng)
文字檢測(cè)技術(shù)對(duì)其進(jìn)行識(shí)別,并在工廠的生產(chǎn)數(shù)據(jù)庫(kù)中判定是否組裝和連接正確,對(duì)所生產(chǎn)的產(chǎn)品進(jìn)行自動(dòng)化檢測(cè)。圖1.2 自然場(chǎng)景文字檢測(cè)難點(diǎn)示意圖圖像是以二維矩陣的形式存儲(chǔ)在存儲(chǔ)設(shè)備當(dāng)中,通常使用紅、綠、藍(lán)即 RGB 來(lái)表示所拍攝對(duì)象的形狀、顏色等底層信息。與人不同的是,計(jì)算機(jī)需要從圖像的像素矩陣這種底層信息中,通過(guò)一定的處理手段獲取圖像中的目標(biāo)信息,如何賦予計(jì)算機(jī)這種能力是一件繁瑣且困難的事情。自然場(chǎng)景圖像中的文字具有極大的多樣性,例如全球共有 4000 多種文字,其中使用人口較多的就有幾百種,這么多文字種類(lèi)的樣式迥異,同時(shí)在自然場(chǎng)景圖像中的文字大小、所處的位置、字體和顏色、圖像中文字與背景的對(duì)比度、圖像明暗程度、受到不均勻光照等等都有所不同;同時(shí)由于拍攝的隨意性和文字本身的特性,文本行可能是以各種角度甚至是彎曲排列的;由于是自然場(chǎng)景中的文字
達(dá)到文字檢測(cè)的目標(biāo)。]提出了一種新的自然圖像文本檢測(cè)方法,該方法 3D 自然場(chǎng)景文字;其次,使用合成的圖像訓(xùn)練絡(luò)在圖像中的所有位置和多個(gè)尺度上都能有效地法框圖如圖 1.3 所示。
【參考文獻(xiàn)】:
博士論文
[1]自然場(chǎng)景圖像中的文字檢測(cè)[D]. 孫雷.中國(guó)科學(xué)技術(shù)大學(xué) 2015
[2]自然圖像中文字檢測(cè)與識(shí)別研究[D]. 姚聰.華中科技大學(xué) 2014
碩士論文
[1]自然場(chǎng)景圖像中的文字檢測(cè)關(guān)鍵算法研究[D]. 田彪.南京郵電大學(xué) 2016
本文編號(hào):3379442
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3379442.html
最近更新
教材專(zhuān)著