自然場景下端對端文本識別研究
發(fā)布時間:2021-07-12 21:49
文本識別及其相關問題一直都是計算機視覺領域的熱點與難點,其技術已普遍應用于語言翻譯、輔助駕駛、地理定位、圖像檢索等諸多方面,早在幾十年前科研工作者們就開始了相關研究。雖然針對文檔圖像的識別技術已經(jīng)日漸成熟,但在場景圖像上仍然面臨著巨大的挑戰(zhàn)。多變的表現(xiàn)形式使得場景文本在字體、尺寸、形狀、顏色、排版等存在著各式各樣的組合,而復雜的背景環(huán)境和不受限的成像條件又給文本識別帶來了更大的困難。本文就場景圖像中的文本檢測、識別及其相關問題展開全面和深入的研究,重點關注于簡潔、高效的思路或方法。旨在通過這些工作能對研究現(xiàn)狀中存在的不足提出新的解決方案,并對其在相關場景下進行驗證和部署,以展現(xiàn)其良好的通用性和實用性。本文的研究工作主要分為以下幾點:(1)為減少對錨框設計的依賴,本文提出了一種簡單、高效的實時文本檢測網(wǎng)絡,它在每個檢測位置僅需設定一個基本的參考框。該網(wǎng)絡的特點在于將學習機制引入到單階段檢測框架中,將經(jīng)回歸優(yōu)化后的學習錨框代替初始錨框進入到最終預測中。該網(wǎng)絡模型在多個公開測試集中均取得了優(yōu)秀的檢測精度,并且在檢測速度上超越了同期所有基于錨框的檢測方法。(2)本文提出了一種不依賴于任何先驗知...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:118 頁
【學位級別】:博士
【部分圖文】:
文本檢測與識別的應用示例
第一章緒論圖1-3外部因素對成像質(zhì)量的干擾排版規(guī)律、顯示清晰。然而場景中的文本則多用于指導、宣傳、警示、告知等需要配合不同的藝術表現(xiàn)形式以達到吸引人們注意的目的。所以場景文本在其字體、尺寸、形狀、顏色、紋理、排版上等都存在著各式各樣的組合,而且不同語種的搭配使用則是更為常見。因此,傳統(tǒng)的手工設計特征在面對多變的文字式樣時并不能對其進行較好的特征描述,致使與其搭配的淺層分類模型的識別精度也普遍不高。(2)成像的復雜性。文檔圖像中的背景區(qū)域多為單一色調(diào)且較為純凈,因此不會對文本的定位和識別產(chǎn)生過多的干擾,但在場景圖像中會變得異常復雜。首先自然場景中的視覺元素種類繁多,存在著各種形狀與紋理都與文字極度接近的干擾項。干擾項的存在使得淺層分類模型很難將二者進行有效的區(qū)分,導致即使是成熟的商業(yè)系統(tǒng)對場景文本的識別率也不盡如人意。另外,由于場景圖像一般是在非受限條件下拍攝,受到各種主觀或客觀的因素影響,容易產(chǎn)生畸變、模糊、高光、遮擋等導致成像質(zhì)量的不理想,如圖1-3所示,這也給文本的定位與分割帶來了更大的麻煩。雖然場景文本的檢測與識別面臨著諸多困難,但其重要的科研價值和廣闊的應用前景使其一直受到研究者們的廣泛關注。2012年后,隨著深度學習技術[2]開始滲透到計算視覺領域的方方面面,其領域內(nèi)的諸多問題都迎來了重大的變革。Krizhevsky等人[3]利用深度卷積神經(jīng)網(wǎng)絡,在ImageNet[4]數(shù)據(jù)集上將top-5的錯誤識別率從26.2%大幅降低到了15.3%;Girshick等人[5]利用區(qū)域卷積神經(jīng)網(wǎng)絡在VOC2012[6]目標檢測數(shù)據(jù)集上的均值平均精度超過同期最好的檢測模型約30%;Long等人[7]利用全卷積神經(jīng)網(wǎng)絡在VOC2011[8]語義分割競賽中相較于歷史最好5
電子科技大學博士學位論文成績提升了20%。此外,在如語音識別[9]、機器翻譯[10]、人機博弈[11]等其他領域,基于深度學習的相關技術也都取得了突破性的進展。本文基于深度學習技術對場景圖像中的文本檢測、識別以及相關問題展開一系列的討論和研究,重點關注于簡潔、高效的檢測識別算法或模型。旨在通過這些研究提出一整套完整的端對端文本識別系統(tǒng),并在相關實際應用場景下進行部署和驗證,以展現(xiàn)其具有良好的通用性和實用性。1.2相關研究現(xiàn)狀完整的場景文本識別通常包含兩個子任務:文本檢測與文本識別,如圖1-4所示。類似于通用目標檢測,文本檢測也是通過輸出包圍框(boundingboxes)的形式去定位到圖中存在的每個文本實例,但由于場景中存在較多不同方向排列的字符序列,因此在場景文本檢測中更多的是以四邊形的形式來表示包圍框;文本識別模塊類似于自然語言處理中的語音識別,在計算機系統(tǒng)中都是以字符串(strings)的形式作為輸出,代表其對應源數(shù)據(jù)中的內(nèi)容。二者僅在源數(shù)據(jù)的形式上有所不同,前者為數(shù)字圖像,后者為語音信號。每項子任務都是計算機視覺的研究分支,如果將檢測和識別整合到一起,則稱之為端對端的文本識別。場景文本檢測與識別及其相關問題近年來受到了學術界和工業(yè)界的廣泛關注,并且積累了大量的研究成果,本節(jié)將選取其中比較具有代表性的工作進行簡單的闡述和總結。圖1-4場景文本識別流程。綠色虛線框代表場景文本檢測,綠色實線框為其最終輸出;黃色虛線框代表場景文本識別模塊,黃色字符串為其最終輸出;藍色虛線框代表端對端識別。1.2.1場景文本檢測1.2.1.1相關工作早期的場景文本檢測工作都專注于對單個字符進行提取,并根據(jù)預定義規(guī)則將提取到的字符連接組合成為文本。對于字符和非字符區(qū)域的區(qū)分主要是利?
本文編號:3280722
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:118 頁
【學位級別】:博士
【部分圖文】:
文本檢測與識別的應用示例
第一章緒論圖1-3外部因素對成像質(zhì)量的干擾排版規(guī)律、顯示清晰。然而場景中的文本則多用于指導、宣傳、警示、告知等需要配合不同的藝術表現(xiàn)形式以達到吸引人們注意的目的。所以場景文本在其字體、尺寸、形狀、顏色、紋理、排版上等都存在著各式各樣的組合,而且不同語種的搭配使用則是更為常見。因此,傳統(tǒng)的手工設計特征在面對多變的文字式樣時并不能對其進行較好的特征描述,致使與其搭配的淺層分類模型的識別精度也普遍不高。(2)成像的復雜性。文檔圖像中的背景區(qū)域多為單一色調(diào)且較為純凈,因此不會對文本的定位和識別產(chǎn)生過多的干擾,但在場景圖像中會變得異常復雜。首先自然場景中的視覺元素種類繁多,存在著各種形狀與紋理都與文字極度接近的干擾項。干擾項的存在使得淺層分類模型很難將二者進行有效的區(qū)分,導致即使是成熟的商業(yè)系統(tǒng)對場景文本的識別率也不盡如人意。另外,由于場景圖像一般是在非受限條件下拍攝,受到各種主觀或客觀的因素影響,容易產(chǎn)生畸變、模糊、高光、遮擋等導致成像質(zhì)量的不理想,如圖1-3所示,這也給文本的定位與分割帶來了更大的麻煩。雖然場景文本的檢測與識別面臨著諸多困難,但其重要的科研價值和廣闊的應用前景使其一直受到研究者們的廣泛關注。2012年后,隨著深度學習技術[2]開始滲透到計算視覺領域的方方面面,其領域內(nèi)的諸多問題都迎來了重大的變革。Krizhevsky等人[3]利用深度卷積神經(jīng)網(wǎng)絡,在ImageNet[4]數(shù)據(jù)集上將top-5的錯誤識別率從26.2%大幅降低到了15.3%;Girshick等人[5]利用區(qū)域卷積神經(jīng)網(wǎng)絡在VOC2012[6]目標檢測數(shù)據(jù)集上的均值平均精度超過同期最好的檢測模型約30%;Long等人[7]利用全卷積神經(jīng)網(wǎng)絡在VOC2011[8]語義分割競賽中相較于歷史最好5
電子科技大學博士學位論文成績提升了20%。此外,在如語音識別[9]、機器翻譯[10]、人機博弈[11]等其他領域,基于深度學習的相關技術也都取得了突破性的進展。本文基于深度學習技術對場景圖像中的文本檢測、識別以及相關問題展開一系列的討論和研究,重點關注于簡潔、高效的檢測識別算法或模型。旨在通過這些研究提出一整套完整的端對端文本識別系統(tǒng),并在相關實際應用場景下進行部署和驗證,以展現(xiàn)其具有良好的通用性和實用性。1.2相關研究現(xiàn)狀完整的場景文本識別通常包含兩個子任務:文本檢測與文本識別,如圖1-4所示。類似于通用目標檢測,文本檢測也是通過輸出包圍框(boundingboxes)的形式去定位到圖中存在的每個文本實例,但由于場景中存在較多不同方向排列的字符序列,因此在場景文本檢測中更多的是以四邊形的形式來表示包圍框;文本識別模塊類似于自然語言處理中的語音識別,在計算機系統(tǒng)中都是以字符串(strings)的形式作為輸出,代表其對應源數(shù)據(jù)中的內(nèi)容。二者僅在源數(shù)據(jù)的形式上有所不同,前者為數(shù)字圖像,后者為語音信號。每項子任務都是計算機視覺的研究分支,如果將檢測和識別整合到一起,則稱之為端對端的文本識別。場景文本檢測與識別及其相關問題近年來受到了學術界和工業(yè)界的廣泛關注,并且積累了大量的研究成果,本節(jié)將選取其中比較具有代表性的工作進行簡單的闡述和總結。圖1-4場景文本識別流程。綠色虛線框代表場景文本檢測,綠色實線框為其最終輸出;黃色虛線框代表場景文本識別模塊,黃色字符串為其最終輸出;藍色虛線框代表端對端識別。1.2.1場景文本檢測1.2.1.1相關工作早期的場景文本檢測工作都專注于對單個字符進行提取,并根據(jù)預定義規(guī)則將提取到的字符連接組合成為文本。對于字符和非字符區(qū)域的區(qū)分主要是利?
本文編號:3280722
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3280722.html
最近更新
教材專著