基于多尺度細節(jié)保留的復雜場景文本檢測
發(fā)布時間:2020-12-27 06:56
文本在自然場景中幾乎無處不見,與圖像中的其它目標(如:花草、建筑物等)相比較,自然場景圖像中的文本信息具有較強的邏輯性與較豐富的表達能力,可以有效地提供高層次的語義信息。高效自動地處理自然場景圖像中的文本信息,對提高工業(yè)自動化水平、網(wǎng)絡檢索能力、場景分析能力等具有重要研究意義。文本是我們理解自然場景的重要元素,自然場景中的文本檢測目前被用于解決許多實際視覺問題。因此研究自然場景中的文本檢測具有重大的實際應用價值。然而,自然場景中的文本因為圖像拍攝角度、光線等客觀因素影響,也因為文字的排列方式等原因給文本檢測帶來了很大的困難。當下流行的深度學習方法相較于傳統(tǒng)(Optical Character Recognition OCR)方法獲得了更加優(yōu)異的檢測效果,但目前大多數(shù)深度學習方法都是從目標檢測領域直接引用過來的模型,對文本信息的針對性不強,細節(jié)信息容易在串聯(lián)式的卷積操作中丟失,導致誤檢和漏檢。因此,從自然場景圖像中檢測文本仍是一件非常具有挑戰(zhàn)性的任務。本文基于深度學習算法,針對卷積操作中的細節(jié)丟失,對文本信息不敏感等問題開展了一系列的研究:(1)提出一種端到端的基于注意力機制的復雜場景文...
【文章來源】:山西大學山西省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
場景文字檢測
梢越饈屯枷竦?內(nèi)容,還可以用來搜索和分析圖像和視頻的內(nèi)容。毫無疑問,圖中的文本信息十分具有研究價值。傳統(tǒng)的(OpticalCharacterRecognitionOCR)方法受技術(shù)水平的限制一般只對文檔文本適用。而大多數(shù)的圖像都是在自然場景下拍攝,文字的周圍有大量的其他目標和復雜的背景。復雜場景文本檢測是傳統(tǒng)OCR技術(shù)在自然圖像上的擴展,它的應用領域十分廣泛。比如圖像搜索(文字輔助理解圖像)、自動駕駛(交通標識檢測)、醫(yī)療健康、教育產(chǎn)業(yè)(自動閱卷)等行業(yè)都有不同程度的應用需求。a)無人超市b)無人酒店c)無人駕駛d)網(wǎng)上閱卷圖1.1場景文字檢測的現(xiàn)實應用示例(1)人工智能人工智能要求機器能夠自行的根據(jù)當時的環(huán)境做出響應分析,從而做出較好的決策。文本是傳達信息的重要方式,想要達到人類一樣的處理能力,機器第一個需要的就是正確的定位文本區(qū)域。例如圖1.1(a),無人超市現(xiàn)在已經(jīng)投放在一些一線城市試點。當我們結(jié)賬的時候,機器可以輕松的定位文本區(qū)域,可以通過文字、商標來識別商品的價格。又例如圖1.1(b),無人酒店也是現(xiàn)在發(fā)展的一個趨勢,在杭州就有這么一家無人酒店,我們可以通過手機下單,機器人會通過檢測識別房門號碼來準確無誤的將產(chǎn)品送到顧客的手上。
第二章理論基礎9第二章理論基礎2.1文本檢測的相關(guān)理論計算機視覺就是讓機器像人一樣去找到目標并且理解目標所傳遞的信息,簡而言之就是理解圖像。圖像的理解有很多層級,對圖像進行片面的選擇處理,例如對物體的紋理、顏色等信息的理解,這是對圖像的低級理解;對圖像中感興趣的目標進行檢測或測量等則是中級的理解,對圖像進行分析;而對圖像中文字的理解,則是對高層語義信息的理解,是對圖像的理解,可以直接被用于邏輯分析,從而像人類一樣指導和計劃行動。由于文字無處不在和文字內(nèi)容的重要性,圖像中文字的檢測以及后續(xù)的識別一直都是十分重要的。圖像中的文字檢測可以分為兩類,一類是單一背景下的文本,另一類是復雜場景下的文本。2.1.1單一背景文字檢測我們通常所說的單一背景下的文本檢測,一般是指文檔中“白紙黑字”式的文本檢測或者背景單一的圖像中的文本檢測。文檔圖像一般分辨率很高,其中的文本都是由單一的背景組成,或者是單一的顏色,或者較為簡單的背景圖案(例2.1(a))。其中的文字是較為常規(guī)的字體,排列均勻,尺寸基本一致,布局格式相對固定,內(nèi)容以字符為主,不會出現(xiàn)很多的字體變形和復雜的干擾紋理。而且單一背景的文本檢測大多數(shù)都是主動配合式拍攝的,并不會存在有傾斜,扭曲等式樣。這種圖片中的文本檢測的難度并不大,其檢測率也已達到實用的要求,比如常見的OCR應用。a單一背景圖片b復雜場景圖片圖2.1場景文字檢測的現(xiàn)實應用示例
本文編號:2941294
【文章來源】:山西大學山西省
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
場景文字檢測
梢越饈屯枷竦?內(nèi)容,還可以用來搜索和分析圖像和視頻的內(nèi)容。毫無疑問,圖中的文本信息十分具有研究價值。傳統(tǒng)的(OpticalCharacterRecognitionOCR)方法受技術(shù)水平的限制一般只對文檔文本適用。而大多數(shù)的圖像都是在自然場景下拍攝,文字的周圍有大量的其他目標和復雜的背景。復雜場景文本檢測是傳統(tǒng)OCR技術(shù)在自然圖像上的擴展,它的應用領域十分廣泛。比如圖像搜索(文字輔助理解圖像)、自動駕駛(交通標識檢測)、醫(yī)療健康、教育產(chǎn)業(yè)(自動閱卷)等行業(yè)都有不同程度的應用需求。a)無人超市b)無人酒店c)無人駕駛d)網(wǎng)上閱卷圖1.1場景文字檢測的現(xiàn)實應用示例(1)人工智能人工智能要求機器能夠自行的根據(jù)當時的環(huán)境做出響應分析,從而做出較好的決策。文本是傳達信息的重要方式,想要達到人類一樣的處理能力,機器第一個需要的就是正確的定位文本區(qū)域。例如圖1.1(a),無人超市現(xiàn)在已經(jīng)投放在一些一線城市試點。當我們結(jié)賬的時候,機器可以輕松的定位文本區(qū)域,可以通過文字、商標來識別商品的價格。又例如圖1.1(b),無人酒店也是現(xiàn)在發(fā)展的一個趨勢,在杭州就有這么一家無人酒店,我們可以通過手機下單,機器人會通過檢測識別房門號碼來準確無誤的將產(chǎn)品送到顧客的手上。
第二章理論基礎9第二章理論基礎2.1文本檢測的相關(guān)理論計算機視覺就是讓機器像人一樣去找到目標并且理解目標所傳遞的信息,簡而言之就是理解圖像。圖像的理解有很多層級,對圖像進行片面的選擇處理,例如對物體的紋理、顏色等信息的理解,這是對圖像的低級理解;對圖像中感興趣的目標進行檢測或測量等則是中級的理解,對圖像進行分析;而對圖像中文字的理解,則是對高層語義信息的理解,是對圖像的理解,可以直接被用于邏輯分析,從而像人類一樣指導和計劃行動。由于文字無處不在和文字內(nèi)容的重要性,圖像中文字的檢測以及后續(xù)的識別一直都是十分重要的。圖像中的文字檢測可以分為兩類,一類是單一背景下的文本,另一類是復雜場景下的文本。2.1.1單一背景文字檢測我們通常所說的單一背景下的文本檢測,一般是指文檔中“白紙黑字”式的文本檢測或者背景單一的圖像中的文本檢測。文檔圖像一般分辨率很高,其中的文本都是由單一的背景組成,或者是單一的顏色,或者較為簡單的背景圖案(例2.1(a))。其中的文字是較為常規(guī)的字體,排列均勻,尺寸基本一致,布局格式相對固定,內(nèi)容以字符為主,不會出現(xiàn)很多的字體變形和復雜的干擾紋理。而且單一背景的文本檢測大多數(shù)都是主動配合式拍攝的,并不會存在有傾斜,扭曲等式樣。這種圖片中的文本檢測的難度并不大,其檢測率也已達到實用的要求,比如常見的OCR應用。a單一背景圖片b復雜場景圖片圖2.1場景文字檢測的現(xiàn)實應用示例
本文編號:2941294
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2941294.html
最近更新
教材專著