基于多尺度細(xì)節(jié)保留的復(fù)雜場(chǎng)景文本檢測(cè)
發(fā)布時(shí)間:2020-12-27 06:56
文本在自然場(chǎng)景中幾乎無(wú)處不見(jiàn),與圖像中的其它目標(biāo)(如:花草、建筑物等)相比較,自然場(chǎng)景圖像中的文本信息具有較強(qiáng)的邏輯性與較豐富的表達(dá)能力,可以有效地提供高層次的語(yǔ)義信息。高效自動(dòng)地處理自然場(chǎng)景圖像中的文本信息,對(duì)提高工業(yè)自動(dòng)化水平、網(wǎng)絡(luò)檢索能力、場(chǎng)景分析能力等具有重要研究意義。文本是我們理解自然場(chǎng)景的重要元素,自然場(chǎng)景中的文本檢測(cè)目前被用于解決許多實(shí)際視覺(jué)問(wèn)題。因此研究自然場(chǎng)景中的文本檢測(cè)具有重大的實(shí)際應(yīng)用價(jià)值。然而,自然場(chǎng)景中的文本因?yàn)閳D像拍攝角度、光線等客觀因素影響,也因?yàn)槲淖值呐帕蟹绞降仍蚪o文本檢測(cè)帶來(lái)了很大的困難。當(dāng)下流行的深度學(xué)習(xí)方法相較于傳統(tǒng)(Optical Character Recognition OCR)方法獲得了更加優(yōu)異的檢測(cè)效果,但目前大多數(shù)深度學(xué)習(xí)方法都是從目標(biāo)檢測(cè)領(lǐng)域直接引用過(guò)來(lái)的模型,對(duì)文本信息的針對(duì)性不強(qiáng),細(xì)節(jié)信息容易在串聯(lián)式的卷積操作中丟失,導(dǎo)致誤檢和漏檢。因此,從自然場(chǎng)景圖像中檢測(cè)文本仍是一件非常具有挑戰(zhàn)性的任務(wù)。本文基于深度學(xué)習(xí)算法,針對(duì)卷積操作中的細(xì)節(jié)丟失,對(duì)文本信息不敏感等問(wèn)題開(kāi)展了一系列的研究:(1)提出一種端到端的基于注意力機(jī)制的復(fù)雜場(chǎng)景文...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
場(chǎng)景文字檢測(cè)
梢越饈屯枷竦?內(nèi)容,還可以用來(lái)搜索和分析圖像和視頻的內(nèi)容。毫無(wú)疑問(wèn),圖中的文本信息十分具有研究?jī)r(jià)值。傳統(tǒng)的(OpticalCharacterRecognitionOCR)方法受技術(shù)水平的限制一般只對(duì)文檔文本適用。而大多數(shù)的圖像都是在自然場(chǎng)景下拍攝,文字的周?chē)写罅康钠渌繕?biāo)和復(fù)雜的背景。復(fù)雜場(chǎng)景文本檢測(cè)是傳統(tǒng)OCR技術(shù)在自然圖像上的擴(kuò)展,它的應(yīng)用領(lǐng)域十分廣泛。比如圖像搜索(文字輔助理解圖像)、自動(dòng)駕駛(交通標(biāo)識(shí)檢測(cè))、醫(yī)療健康、教育產(chǎn)業(yè)(自動(dòng)閱卷)等行業(yè)都有不同程度的應(yīng)用需求。a)無(wú)人超市b)無(wú)人酒店c)無(wú)人駕駛d)網(wǎng)上閱卷圖1.1場(chǎng)景文字檢測(cè)的現(xiàn)實(shí)應(yīng)用示例(1)人工智能人工智能要求機(jī)器能夠自行的根據(jù)當(dāng)時(shí)的環(huán)境做出響應(yīng)分析,從而做出較好的決策。文本是傳達(dá)信息的重要方式,想要達(dá)到人類(lèi)一樣的處理能力,機(jī)器第一個(gè)需要的就是正確的定位文本區(qū)域。例如圖1.1(a),無(wú)人超市現(xiàn)在已經(jīng)投放在一些一線城市試點(diǎn)。當(dāng)我們結(jié)賬的時(shí)候,機(jī)器可以輕松的定位文本區(qū)域,可以通過(guò)文字、商標(biāo)來(lái)識(shí)別商品的價(jià)格。又例如圖1.1(b),無(wú)人酒店也是現(xiàn)在發(fā)展的一個(gè)趨勢(shì),在杭州就有這么一家無(wú)人酒店,我們可以通過(guò)手機(jī)下單,機(jī)器人會(huì)通過(guò)檢測(cè)識(shí)別房門(mén)號(hào)碼來(lái)準(zhǔn)確無(wú)誤的將產(chǎn)品送到顧客的手上。
第二章理論基礎(chǔ)9第二章理論基礎(chǔ)2.1文本檢測(cè)的相關(guān)理論計(jì)算機(jī)視覺(jué)就是讓機(jī)器像人一樣去找到目標(biāo)并且理解目標(biāo)所傳遞的信息,簡(jiǎn)而言之就是理解圖像。圖像的理解有很多層級(jí),對(duì)圖像進(jìn)行片面的選擇處理,例如對(duì)物體的紋理、顏色等信息的理解,這是對(duì)圖像的低級(jí)理解;對(duì)圖像中感興趣的目標(biāo)進(jìn)行檢測(cè)或測(cè)量等則是中級(jí)的理解,對(duì)圖像進(jìn)行分析;而對(duì)圖像中文字的理解,則是對(duì)高層語(yǔ)義信息的理解,是對(duì)圖像的理解,可以直接被用于邏輯分析,從而像人類(lèi)一樣指導(dǎo)和計(jì)劃行動(dòng)。由于文字無(wú)處不在和文字內(nèi)容的重要性,圖像中文字的檢測(cè)以及后續(xù)的識(shí)別一直都是十分重要的。圖像中的文字檢測(cè)可以分為兩類(lèi),一類(lèi)是單一背景下的文本,另一類(lèi)是復(fù)雜場(chǎng)景下的文本。2.1.1單一背景文字檢測(cè)我們通常所說(shuō)的單一背景下的文本檢測(cè),一般是指文檔中“白紙黑字”式的文本檢測(cè)或者背景單一的圖像中的文本檢測(cè)。文檔圖像一般分辨率很高,其中的文本都是由單一的背景組成,或者是單一的顏色,或者較為簡(jiǎn)單的背景圖案(例2.1(a))。其中的文字是較為常規(guī)的字體,排列均勻,尺寸基本一致,布局格式相對(duì)固定,內(nèi)容以字符為主,不會(huì)出現(xiàn)很多的字體變形和復(fù)雜的干擾紋理。而且單一背景的文本檢測(cè)大多數(shù)都是主動(dòng)配合式拍攝的,并不會(huì)存在有傾斜,扭曲等式樣。這種圖片中的文本檢測(cè)的難度并不大,其檢測(cè)率也已達(dá)到實(shí)用的要求,比如常見(jiàn)的OCR應(yīng)用。a單一背景圖片b復(fù)雜場(chǎng)景圖片圖2.1場(chǎng)景文字檢測(cè)的現(xiàn)實(shí)應(yīng)用示例
本文編號(hào):2941294
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:75 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
場(chǎng)景文字檢測(cè)
梢越饈屯枷竦?內(nèi)容,還可以用來(lái)搜索和分析圖像和視頻的內(nèi)容。毫無(wú)疑問(wèn),圖中的文本信息十分具有研究?jī)r(jià)值。傳統(tǒng)的(OpticalCharacterRecognitionOCR)方法受技術(shù)水平的限制一般只對(duì)文檔文本適用。而大多數(shù)的圖像都是在自然場(chǎng)景下拍攝,文字的周?chē)写罅康钠渌繕?biāo)和復(fù)雜的背景。復(fù)雜場(chǎng)景文本檢測(cè)是傳統(tǒng)OCR技術(shù)在自然圖像上的擴(kuò)展,它的應(yīng)用領(lǐng)域十分廣泛。比如圖像搜索(文字輔助理解圖像)、自動(dòng)駕駛(交通標(biāo)識(shí)檢測(cè))、醫(yī)療健康、教育產(chǎn)業(yè)(自動(dòng)閱卷)等行業(yè)都有不同程度的應(yīng)用需求。a)無(wú)人超市b)無(wú)人酒店c)無(wú)人駕駛d)網(wǎng)上閱卷圖1.1場(chǎng)景文字檢測(cè)的現(xiàn)實(shí)應(yīng)用示例(1)人工智能人工智能要求機(jī)器能夠自行的根據(jù)當(dāng)時(shí)的環(huán)境做出響應(yīng)分析,從而做出較好的決策。文本是傳達(dá)信息的重要方式,想要達(dá)到人類(lèi)一樣的處理能力,機(jī)器第一個(gè)需要的就是正確的定位文本區(qū)域。例如圖1.1(a),無(wú)人超市現(xiàn)在已經(jīng)投放在一些一線城市試點(diǎn)。當(dāng)我們結(jié)賬的時(shí)候,機(jī)器可以輕松的定位文本區(qū)域,可以通過(guò)文字、商標(biāo)來(lái)識(shí)別商品的價(jià)格。又例如圖1.1(b),無(wú)人酒店也是現(xiàn)在發(fā)展的一個(gè)趨勢(shì),在杭州就有這么一家無(wú)人酒店,我們可以通過(guò)手機(jī)下單,機(jī)器人會(huì)通過(guò)檢測(cè)識(shí)別房門(mén)號(hào)碼來(lái)準(zhǔn)確無(wú)誤的將產(chǎn)品送到顧客的手上。
第二章理論基礎(chǔ)9第二章理論基礎(chǔ)2.1文本檢測(cè)的相關(guān)理論計(jì)算機(jī)視覺(jué)就是讓機(jī)器像人一樣去找到目標(biāo)并且理解目標(biāo)所傳遞的信息,簡(jiǎn)而言之就是理解圖像。圖像的理解有很多層級(jí),對(duì)圖像進(jìn)行片面的選擇處理,例如對(duì)物體的紋理、顏色等信息的理解,這是對(duì)圖像的低級(jí)理解;對(duì)圖像中感興趣的目標(biāo)進(jìn)行檢測(cè)或測(cè)量等則是中級(jí)的理解,對(duì)圖像進(jìn)行分析;而對(duì)圖像中文字的理解,則是對(duì)高層語(yǔ)義信息的理解,是對(duì)圖像的理解,可以直接被用于邏輯分析,從而像人類(lèi)一樣指導(dǎo)和計(jì)劃行動(dòng)。由于文字無(wú)處不在和文字內(nèi)容的重要性,圖像中文字的檢測(cè)以及后續(xù)的識(shí)別一直都是十分重要的。圖像中的文字檢測(cè)可以分為兩類(lèi),一類(lèi)是單一背景下的文本,另一類(lèi)是復(fù)雜場(chǎng)景下的文本。2.1.1單一背景文字檢測(cè)我們通常所說(shuō)的單一背景下的文本檢測(cè),一般是指文檔中“白紙黑字”式的文本檢測(cè)或者背景單一的圖像中的文本檢測(cè)。文檔圖像一般分辨率很高,其中的文本都是由單一的背景組成,或者是單一的顏色,或者較為簡(jiǎn)單的背景圖案(例2.1(a))。其中的文字是較為常規(guī)的字體,排列均勻,尺寸基本一致,布局格式相對(duì)固定,內(nèi)容以字符為主,不會(huì)出現(xiàn)很多的字體變形和復(fù)雜的干擾紋理。而且單一背景的文本檢測(cè)大多數(shù)都是主動(dòng)配合式拍攝的,并不會(huì)存在有傾斜,扭曲等式樣。這種圖片中的文本檢測(cè)的難度并不大,其檢測(cè)率也已達(dá)到實(shí)用的要求,比如常見(jiàn)的OCR應(yīng)用。a單一背景圖片b復(fù)雜場(chǎng)景圖片圖2.1場(chǎng)景文字檢測(cè)的現(xiàn)實(shí)應(yīng)用示例
本文編號(hào):2941294
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2941294.html
最近更新
教材專(zhuān)著